产品团队传统上通过比较完成培训的用户与跳过培训的用户的留存率来评估入职的有效性。这种方法导致了解释上的大量错误:教程通过与留存之间观察到的相关性并不是学习的因果效应,而是高动机用户的选择。随着因果推断(Causal Inference)的发展,行业标准开始区分意向治疗(intention-to-treat,ITT)和治疗效果(treatment-on-the-treated,TOT),并在无法进行经典随机化时使用自然实验。
关键难点在于**内生性(endogeneity)的自我选择:决定进行入职培训与用户的不可观察特征(动机、耐心)相关,这些特征同时影响未来的留存。简单的组比较会导致生存偏差(survivorship bias)和高估效应。此外,分阶段的区域推送为准实验提供了可能,但各地区在文化因素和基础指标上存在差异,这需要对混淆变量(confounding variables)**进行控制。
需要使用双阶段最小二乘法(Two-Stage Least Squares,2SLS),将区域的功能引入标记作为工具变量(Instrumental Variable,IV)。在第一阶段,通过用户的区域是否引入功能来建模入职培训的通过概率(遵从情况)。在第二阶段,使用预测值来评估对留存的影响。为了考虑区域异质性,使用带有区域和时间固定效应的差异中的差异(Difference-in-Differences,DiD)。此外,还构建因果森林(Causal Forest)来评估条件平均治疗效应(Conditional Average Treatment Effect,CATE)并识别入职培训带来最大收益的用户段。重要的是要控制引入前的平行性和检查工具的排除限制(exclusion restriction)。
一款语言学习的移动应用团队引入了强制的3分钟互动教程,作为访问免费内容的前置条件。试点发布显示,完成入职培训的用户在7天留存率上比在教程阶段关闭应用的用户高出35%。商务团队想要将这项功能扩展到所有用户,但分析师怀疑存在生存偏差。
选项1:简单比较(naive approach)。比较完成入职培训与跳过的用户之间的留存率。优点:即时计算,清晰的提升指标。缺点:存在重大选择偏差(selection bias);愿意花3分钟的用户本身就更有参与感;评估高估了3-4倍;未考虑区域对于摩擦的耐受度差异。
选项2:强制入职的A/B测试。在用户级别随机化:A组看到强制教程,B组直接进入内容。优点:纯粹的随机化消除了选择偏差。缺点:A组的不遵从(Non-compliance)(部分用户关闭应用且不再返回)导致不对称的流失;ITT分析给出保守估计,但并不回答对于实际完成培训的用户的效果问题;可能存在社交网络中的负溢出效应(negative spillover)。
选项3:基于时间的回归不连续设计(Regression Discontinuity Design,RDD)。使用功能在区域启动的确切时刻作为切断点。优点:对“边缘”用户具有很高的内部有效性;不需要区域内的对照组。缺点:局部效应(LATE)无法推广至所有用户;需要在切断点附近有高数据密度;启动的季节性和星期几可能会扭曲结果。
选定的解决方案:结合IV方法与区域推送和双重稳健估计(Doubly Robust Estimation)。
区域中启用入职培训的用户被用作实际通过教程的工具(相关条件通过0.82的相关性验证)。应用2SLS对遵循者(compliers)(那些只有在强制性下才会完成入职培训的用户)进行效应评估。还为每个处理区域构建了合成对照法(Synthetic Control),使用具有类似预趋势的对照区域的加权组合。
最终结果:实际的因果效应为7天留存率增加8%,而非原始数据中的35%。结果发现,入职培训仅对低初始参与度的用户(CATE = +15%)有效,但对高参与度用户造成摩擦(CATE = -3%)。实施了一种自适应系统:入职培训仅对基于前10秒会话预测的低参与度用户显示。这使得全球留存率增加了12%,同时不损失高参与度用户。
为什么强制入职的A/B测试即使在随机化的情况下也会产生偏差估计,并如何正确解释结果?
回答:问题在于不遵从(non-compliance)和差异流失(differential attrition)。即使在随机分配到强制入职测试组的情况下,一部分用户会永远流失(never-takers),而对照组则没有这种“惩罚”。这导致不对称的生存偏差。为了正确评估,需要计算意向治疗(Intent-to-Treat,ITT)效应,作为实际分配组之间的差异,然后使用Wald估计器(Wald estimator)来获得遵守者平均因果效应(Complier Average Causal Effect,CACE):CACE = ITT / (遵守者的比例)。必须检查遵守者的比例是否足够(>20%),否则评估将不稳定(弱工具问题)。
如何诊断和纠正负溢出效应,当对照区域的用户得知新的入职培训并在实际启动之前改变行为?
回答:这违反了SUTVA(稳定单位治疗值假设,Stable Unit Treatment Value Assumption)。为了诊断,可以分析对照区域中的安装事件研究图,查看在推送之前是否有异常下降(冷却效应)。如果确认存在溢出,可以采用空间差异中的差异(spatial Difference-in-Differences),将仅远离的没有社交联系的区域作为对照,或使用部分人群实验(partial population experiment)对区域内用户进行随机子样本的处理。选择性使用双向固定效应,将到最近的处理区域的距离作为控制变量。
为什么在选择观察期时重要区分短期摩擦和长期价值积累,哪些方法可以在数据有限时评估长期效果?
回答:入职培训会造成短期摩擦,机械地降低第一天的留存率,但通过更好的产品理解会积累长期价值。在较短窗口(1-3天)内的评估可能显示出负面效果,因为低动机用户的流失,他们本身的LTV就低。为了在数据有限时评估长期效果,可以使用替代指标(Surrogate Index):建立一个模型,将短期指标(第一次会话的深度、浏览的功能数量)与长期结果(30天留存)联系起来,利用在引入前的历史数据。然后评估对替代指标的影响,从而替代长期效果。重要的是通过敏感性分析检查替代指标的无混淆性(unconfoundedness)。