UDN-企业互联网技术人气社区

板块导航

浏览  : 879
回复  : 0

[其它] 「A/B测试算法大揭秘」第二篇:如何分析试验数据

[复制链接]
哥屋恩的头像 楼主
发表于 2016-10-28 20:20:00 | 显示全部楼层 |阅读模式
  在之前的文章中,我们说过分析处理A/B测试收集来的数据的主要方法是假设检验,而假设检验的决策规则是由 P-value 和小概率标准 α 共同组成的。

  那么今天,我们就将着重为大家介绍 P-value 究竟是什么、它是如何计算的,以及 P-value 在A/B测试中需要避免的问题又有哪些。

  P-value 定义

  P-value(以下简称P值),又称“显著性水平”,它是指在原假设为真的条件下,样本数据拒绝原假设事件发生的概率,可以用来评估假设检验中最关键的第一类错误的概率。

  今年3月,美国统计协会(ASA)在其官网上发布了《关于统计显著性和P值的声明》,进一步阐释了 P 值的概念和用处:

  1)P 值可以表达的是数据与一个给定模型(也就是原假设下的模型)不匹配的程度;

  2)P 值并不能衡量某条假设为真的概率,或是数据仅由随机因素产生的概率;

  3)科学结论、商业决策或政策制定不应该仅依赖于 P 值是否超过一个给定的阈值;

  4)合理的推断过程需要完整的报告和透明度;

  5)P 值或统计显著性并不衡量影响的大小或结果的重要性;

  6)P 值就其本身而言,并不是一个非常好的对模型或假设所含证据大小的衡量。

  P-value 的计算——T检验

  P 值的计算公式取决于假设检验的具体方式,常用的假设检验方法有Z检验、T检验和卡方检验等,不同的方法有不同的适用条件和检验目标。

  A/B测试中是用对照版本和试验版本两个样本的数据来对这两个总体是否存在差异进行检验,所以适合使用 T 检验方法中的独立双样本检验 (independent two-samples t test)。通过T分布理论来计算相关的概率水平,也就是 P-value 的值。

  T 检验的计算公式,首先通过来公式计算出统计检验量 Z 值,公式中的相关组成因素就是:两个版本的各自均值、方差(标准差),以及样本的大小,从而推算出统计量的 Z 值是多少。

o.png


  然后通过 t 分布(大样本情况下近似正态分布)的公式计算得出和 Z 值对应的 P 值,阴影部分的面积就是 P-value 的值。

n.png


  P 值算出来之后,我们就可以根据P值按照前面介绍的假设检验决策规则来判断这两个样本均值的差异是否显著了。

  P-value中的常见错误

  A.统计显著=效果显著=效果的商业价值?

  这个式子的意思是:P值只代表了样本数据与原假设之间有多不一致,并不能代表你所发现的效应(或差异)的大小。

  尽管研究者们在很多情况下都希望计算出零假设为真的概率或是数据由随机因素产生的概率,很可惜这两者都不是P值的事。P值只解释数据与假设之间的关系,它并不解释假设本身。即,不论P-value的值有多小,也只能告诉你两个版本间是否存在差异效果,并不能得知差异效果究竟有多大,更不能告诉我们这效果是否具有实际价值。

  例如,我们通过A/B测试对一个资源耗费10倍以上的推荐算法进行优化,得到 p 值=0.001,说明这次的试验结果是显著的。而试验的效果,只对收入提升了万分之一。

  当资源耗费增大了10倍或更多时,收入只得到了非常微小的提升,那么从整体看来这个优化带来的商业效果其实是非常不显著的。因此不能从 P 值来判定改动所带来的商业效果。

  B.一旦P≤α,就立刻得出结论?

  这是 P 值一种比较经典的错误使用方式:持续观察和检验 p 值(multiple testing) ,一旦 p 值小于 α 判定标准(即统计显著),就停止试验得出结论。事实上,这样的会导致很高的第一类错误发生率。

  以 Airbnb 的某一个A/B测试为例,当试验开始运行后,持续每天都观察试验数据的情况和p值,并绘制出以下图表。可以发现,当试验运行到第7天时, p-value 的值第一次小于 α 判定标准,实验结果显示显著。但是过了一段时间之后,p值并没有稳定下来,甚至一度增大到实验结果显示不显著。也就是说,单纯凭借 p-value 值来判定实验结果的显著与否,是不太可靠的。尤其是在试验刚开始的前7-10天之内,单纯依靠 p-value 值来得出版本差异的判定,出错的概率是非常大的。

  以上就是关于 P-value 的介绍。如果在阅读的过程中,你对 P 值有了更加深入的了解,那就是我们在这篇文章上的最大成功。最后想说的是, P 值并不是数据分析的终点,所有决策的过程都应该多个因素综合考量,而不是“一锤子买卖”。在A/B测试中,同时应用了许多其他合适可行的方法,是它们的共同作用帮助我们判断出了最优的试验版本。下一篇,我们就来讲讲A/B测试中用户最关注的部分——置信区间。

原文作者:佚名  来源:开发者头条

相关帖子

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们
联系我们
  • 电话:010-86393388
  • 邮件:udn@yonyou.com
  • 地址:北京市海淀区北清路68号
移动客户端下载
关注我们
  • 微信公众号:yonyouudn
  • 扫描右侧二维码关注我们
  • 专注企业互联网的技术社区
版权所有:用友网络科技股份有限公司82041 京ICP备05007539号-11 京公网网备安1101080209224 Powered by Discuz!
快速回复 返回列表 返回顶部