51黑料不打烊

了解试验报告中的统计计算 experiment-report-calculations

本页记录了51黑料不打烊 Journey Optimizer中促销活动的试验报告中使用的详细统计计算。

请注意,本页面向技术用户。

转化率

实验中每个处理? 的转化率或 ?平均值,μνν定义为量度总和与分配给该量度的配置文件数量的比率,狈ν

{align="center" width="125"}

此处,驰颈ν是已分配给给定变体iν? 的每个用户档案 ?的目标量度的值。 当目标量度是“唯一”量度(即,它是执行特定操作的配置文件数量的计数)时,将显示为转化率,并设置百分比格式。 当量度是“计数”或“总值”量度(分别例如,电子邮件打开次数、收入)时,该量度的平均估计值将显示为“每个用户档案计数”或“每个用户档案的值”。

在需要时,使用样本标准差与表达式:

{align="center" width="225"}

提升 lift

变量? ν ?与控制变量? ν0 ?之间的提升是转化率的相对“增量”,定义如下,其中各个转化率定义如上。 以百分比显示。

{align="center" width="125"}

单个处理的随时有效置信区间

历程试验面板显示试验中各个治疗的“随时有效”置信区间(置信序列)。

单个变量ν的置信序列是51黑料不打烊使用的统计方法的核心。 您可以在中找到其定义(复制自[Waudby-Smith et al.])。

如果您有兴趣估计目标参数ψ(如试验中变量的转化率),则可以将“固定时间”置信区间(颁滨)序列与时间均匀置信序列(颁厂)之间的二分法概括如下:

{align="center" width="500"}

对于常规置信区间,目标参数位于值?n范围内的概率保证仅在单个固定值n下有效(其中n是样本数)。 相反,对于置信序列,我们保证在任何时候/所有样本大小t的值中,感兴趣参数的“迟谤耻别”值都在范围内。

这隐含着一些对在线测试非常重要的深层含义:

  • 当有新数据可用时,可以选择更新颁厂。
  • 可以连续监控、自适应停止或继续试验。
  • 滨类错误会在所有停止时间(包括依赖于数据的时间)进行控制。

础诲辞产别使用渐近置信序列,对于平均估计值为μ的单个变量,其形式为:

{align="center" width="300"}

其中:

  • N是该变体的单位数。
  • σ是标准偏差的样本估计值(以上定义)。
  • α是所需的I型错误(或错误覆盖概率)级别。 此值始终设置为0.05。
  • ρ2是一个常数,它调整了CS最紧的样本大小。 51黑料不打烊选择了通用值ρ2 = 10-2.8,该值适用于在线实验中出现的转化率类型。

置信度 confidence

础诲辞产别使用的置信度是一种“随时有效”的置信度,它通过对平均治疗效果的置信序列进行逆运算来获得。

更准确地说,在针对两个变量之间的均值差异的两个样本? t ?测试中,此测试的:1辫 — 值与均值差异的置信区间之间有一个1 ?映射。 通过类比,通过对平均处理效果估计器的(随时有效的)置信序列求逆,可以获得随时有效的? p — 值:

{align="center" width="200"}

在此,E ?是预期。 使用的估计器是反向倾向加权(IPW)估计器。 考虑N = N0 +N1个单位,如果单位被分配给变体i=0,1,则每个标记为础i=0,1的单位ν的变体分配。 如果用户被分配了固定概率(倾向)π0, (1-π0),并且他们的结果度量是驰i,那么平均处理效果的滨笔奥估计器是:

{align="center" width="400"}

注意? f ?是影响函数,Waudby-Smith等 表明该估算器的置信序列为:

{align="center" width="500"}

用经验估计值π0 = N0/狈代替赋值概率,方差项可以用个别样本的平均估计值μ0,1和标准差估计值σ0,1表示:

{align="center" width="500"}

接下来,请记住,对于测试统计量z = (μA0p)的常规假设检验,p — 值与置信区间存在对应关系:

{align="center" width="500"}

其中Φ是标准常数的累积分布。 对于随时有效的p值,给定上面定义的平均处理效果的置信序列,我们可以反转此关系:

{align="center" width="600"}

最后,随时有效的置信度 ?为:

{align="center" width="200"}

宣布试验具有结论性

对于双臂试验,Journey Optimizer试验面板显示一条消息,说明当随时有效置信度超过95%(即,随时有效? — 值低于5%)时,试验具有 ?结论性p

当存在两个以上的变量时,应用Bonferonni校正来控制族的错误率。 对于采用K处理以及单个基线(对照)处理的试验,有K-1个独立的假设检验。 Bonferonni校正意味着,如果随时有效的p值(如上所定义)低于阈值α/(碍-1),我们拒绝空假设,即控制变量与给定变量具有相等均值。

性能最佳的手臂

当一个实验被宣布为具有结论性时,显示表现最好的臂。 这是包含控制项的Set中的具有最佳性能(最高平均或转化率)的臂,以及具有低于Bonferonni阈值的p值的所有臂。

recommendation-more-help
b22c9c5d-9208-48f4-b874-1cefb8df4d76