我是标题
  • 介绍
  • 产品使用指南
    • 新手入门
      • 神策分析是什么
      • 神策分析能做什么
      • 神策分析怎么解决问题
      • 神策分析的数据来源
    • 功能介绍
      • 基本概念
        • 行为分析常用名词
        • 神策分析相关名词
        • 基础指标配置说明
        • 属性筛选条件说明
      • 分析模块
        • 事件分析
        • Session 分析
        • 漏斗分析
        • 留存分析
        • 分布分析
        • 归因分析
        • 用户路径分析
        • 网页热力分析
        • APP 点击分析
        • 间隔分析
        • 用户属性分析
        • 搜索用户
        • 用户分群
          • 用户分群(1.14 版本)
          • 用户分群
          • 用户分群(1.13 之前版本)
        • 用户行为序列
        • 书签及数据概览
          • 数据概览(1.11 之前版本)
          • 概览分组
          • 渠道对比组件使用说明
          • 预置概览
        • 自定义查询
      • 辅助功能
        • 事件分类
        • 查询抽样
        • 权限管理
          • 角色权限与账号(1.14 版本)
        • 预警管理
        • 元数据管理
        • 可视化全埋点
        • 维度字典
        • 正则表达式
        • 推荐分享
        • 小版本升级
        • 掌上神策分析
  • 技术指南
    • 数据采集
      • 数据模型
      • 数据格式
      • 调试模式
        • 调试模式动态配置
      • 数据校验
      • 导入实时查看
        • 导入实时查看(新版本)
        • 导入实时查看(老版本)
      • 埋点管理
      • 多项目
      • 如何准确的标识用户
      • 新增用户及首日首次标记
    • 快速接入指南
      • 接入前准备(全员阅读)
      • 如何准确的标识用户 (全员阅读)
      • 事件设计 (需求方阅读)
      • SDK 采集数据 (开发必读)
        • JavaScript 快速使用
        • 微信小程序快速使用
        • Android 快速使用
        • iOS 快速使用
        • Java 快速使用
      • 数据校验(测试必读)
    • 客户端 SDK
      • C++ SDK
      • 微信小程序 SDK
        • 微信小程序 SDK 历史版
        • 微信小程序 SDK 标准版
        • 微信小程序 SDK 插件版
        • 微信小程序 SDK 自定义全埋点版
      • 支付宝小程序 SDK
      • 百度小程序 SDK
      • JavaScript SDK
        • 常见问题
        • 全埋点(AutoTrack)
        • 点击图(HeatMap)
        • 单页面
        • 关闭页面发数据
      • Android SDK
        • 常见问题
        • 全埋点(AutoTrack)
        • 点击图(HeatMap)
      • iOS SDK
        • 常见问题
        • 全埋点(AutoTrack)
        • 点击图(HeatMap)
      • 打通 App 与 H5
      • App 第三方框架
        • React Native(Android & iOS)
        • Flutter(Android & iOS)
        • Weex(iOS)
        • Weex(Android)
        • 第三方 H5 页面嵌入 js(iOS)
        • 第三方 H5 页面嵌入 js(Android)
      • APICloud SDK
    • 服务端 SDK
      • C SDK
        • C SDK Demo
      • CSharp SDK
      • Java SDK
        • Java SDK Demo
      • Python SDK
      • PHP SDK
      • Ruby SDK
      • Golang SDK
      • Node SDK
    • 公共属性
    • 渠道追踪
      • App 渠道追踪
      • Web 渠道追踪
      • 小程序渠道追踪
      • 渠道对接
      • 渠道链接管理
    • 数据导入
      • BatchImporter
      • LogAgent
        • LogAgent 场景使用示例
      • FormatImporter
      • HdfsImporter
      • 数据导入常见问题
    • 数据导出
      • 查询 API
      • 订阅实时数据
      • 使用 JDBC 进行数据访问
      • 数据迁移
    • 辅助工具
      • 数据清理工具使用说明
      • 多项目管理工具使用说明
      • 元数据创建工具使用说明
      • 环境检测工具使用说明
    • 高级功能
      • 数据接入 API
      • App 消息推送
      • 虚拟属性和维度表
      • 数据预处理模块
      • 服务转发配置
      • 使用 HTTPS 的数据接入
      • API
        • 查询 API
        • 功能 API
          • 分群 API(1.12 及之前版本)
          • 分群 API(1.13 版本)
          • 分群 API(1.14 版本)
          • 埋点统计 API(1.11 及之前版本)
          • 埋点统计 API(1.12 及之后版本)
      • 第三方登录
      • 数据归档
  • 最佳实践
    • 功能应用示例
      • 事件分析
      • 漏斗分析
      • 留存分析
      • 分布分析
      • 间隔分析
      • 用户分群
      • 自定义查询
      • 用户行为序列
    • 复杂分析场景
      • 定位商品销量变化原因
  • 常见问题
  • 产品更新日志
Powered by GitBook
On this page
  • 1. 使用方法
  • 2. 抽样原理
  • 3. 使用场景

Was this helpful?

  1. 产品使用指南
  2. 功能介绍
  3. 辅助功能

查询抽样

Previous事件分类Next权限管理

Last updated 6 years ago

Was this helpful?

在神策分析 1.2 版本中,我们推出了查询抽样功能,用于在数据量较大时,可以抽取少量用户的数据来快速获取查询结果,快速验证猜想。

1. 使用方法

行为事件分析、漏斗分析、留存分析和分布分析都提供了查询抽样功能,如下图所示:

目前提供了从全量查询到对全量数据的1/64进行抽样的粒度,可以在实际查询时动态进行调整。

2. 抽样原理

抽样是按照神策分析系统内部的 user_id 来进行抽样的,在没有 track_signup 的情况下,它是对 distinct_id 取 hash 的结果,在有 track_signup 的情况下,是以较早的 distinct_id 为准进行计算的。

在进行 1/8 抽样的情况下,就是对根据 user_id 取模的结果,从所有用户中抽出 1/8 的用户的数据来进行查询,并根据这个查询结果反推出展现给使用者的值。例如,假设某个产品,目前一共有 100 万个用户,某一天某个事件的全量查询 PV 是 123456,而在进行 1/8 抽样时,我们是从这 100 万个用户中根据user_id值来取出大约 1/8 的用户的数据,然后发现这些用户里面在这一天这个事件的 PV 是 13500,因此,实际展现给使用值的最终的查询结果就是 13500 * 8 = 108000,与真实的全量查询是略有出入的。

查询如下几个指标时,不会对查询结果乘以抽样比例的倒数(例如,1/8 抽样时,结果不会乘以 8):

  • 人均次数(某个事件的人均触发次数)

  • 人均值(某个数字类型属性的人均值)

  • 最大值(某个数字类型属性的最大值)

  • 最小值(某个数字类型属性的最小值)

  • 人均 Session 次数

3. 使用场景

正如前面所描述的那样,查询抽样反推出来的结果和真实的全量查询结果会有出入,而且用户规模越大,数据分布越均匀,这个出入就会越小。当然,如果只是关注数据趋势,则在少部分用户群上做查询抽样,则查询抽样带来的误差通常就没那么重要了。

所以说,查询抽样主要是在数据量很大的情况下,单次查询速度很慢,则通过查询抽样来选择少部分用户的数据来快速验证猜想,观察趋势。在最终确定要关注和考核的具体指标时,则可以选择全量查询来获取精确的数值。