对问题的回答

为了在没有随机化的情况下测量效果，需要通过倾向评分匹配（PSM）构建合成对照组，然后应用差异中的差异（DiD）方法。首先，我们评估获得徽章的概率（逻辑回归）在历史数据上（活动、人口统计、保留），以便将“治疗组”与相似的“对照组”用户进行匹配。然后比较这两组之间的目标指标动态（参与深度），这使得可以将徽章的效果与整体增长趋势分开。

至关重要的是通过事件研究分析检查平行趋势的假设：建立包含滞后和领先处理的回归，确保干预前的系数不显著。为了提高敏感性，可以在Python或R中使用CUPED，通过协变量在实验前减少方差。最终评估ATT（对处理组的平均处理效应）提供了游戏化的净效应的无偏估计。

生活中的情况

公司“EduTech”启动了一项激励计划：用户因对课程留下反馈而获得数字徽章。传统后端的技术限制使得无法随机划分人群，因此分析师面临在自我选择强烈的情况下测量“参与深度”（每周平均观看课程数量）对指标的影响。留下反馈的通常是最活跃的学生，这造成了明显的偏差。

考虑了四种解决该问题的方法。

在实施后对获得徽章和未获得徽章的用户之间进行简单的均值比较。主要优点在于在SQL中快速计算，无需复杂的数据准备。关键缺点是完全忽视自我选择：活跃用户本身就增长得更快（成熟效应），这导致过高估计效果并得出有关有效性的错误结论。

只在徽章组上进行“前后分析”。优点在于排除了组间差异，并对同一用户使用配对t检验。然而，无法将徽章的效果与整体季节性活跃增长（学年开始）或推荐算法的同时变化分开，这使得结果不可靠。

带协变量控制的OLS回归，通过添加过去活动的变量。这在statsmodels中快速实现并给出清晰的系数。但该方法要求严格的线性关系，对离群值敏感，且未考虑用户的个体发展趋势，这可能扭曲评估。

PSM + 差异中的差异（选择的解决方案）。我们在BigQuery中实施了倾向评分匹配，使用了关于启动前预测变量的逻辑回归（登录频率、完成的课程）。然后应用了带有用户和周固定效应的DiD。优点是最小化观察特征的选择偏差，并在保持平行的情况下消除时间趋势。缺点是计算复杂性高，并且对平行趋势假设的要求需要通过事件研究图进行验证。

由于该解决方案能够在仅有观察数据的情况下提供最无偏的估计，因此被选中。分析结果发现，徽章提高了参与度12%，但仅限于使用时间少于三个月的用户。对于“老手”用户，效果统计上不显著，这使得产品团队重新审视了发放规则，并专注于用户引导。

候选人常常忽略的内容

如何检查DiD的平行趋势假设在没有实验的情况下是否未被违反？

候选人常常仅限于图表的视觉比较，忽略了形式检验。有必要建立事件研究回归，包含处理前后的每个时期的虚拟变量。如果“前”时期的系数统计显著（p-value < 0.05），则假设被违反。在这种情况下，可以使用CUPED调整前期趋势或使用合成控制法构建一个与干预组在干预前的趋势尽可能接近的对照组。

为什么倾向评分匹配无法解决来自隐藏特征的内生性问题（选择在不可观察的特征上）？

PSM仅平衡可观察的协变量（年龄、活动），但如果存在隐形动机（例如，“对学习的热爱”）无法量化，偏差仍然存在。为了解决这个问题，需要仪器变量（IV），例如，到最近的线下中心的地理距离，这与获得徽章的概率相关，但不会直接影响参与度。另一种选择是回归不连续设计（RDD），如果获得徽章的阈值严格（例如，恰好3条反馈），这会产生外生变异。

如何处理在游戏化中违反SUTVA（稳定单位处理值假设）的问题，当效果通过社交图“传播”时？

如果朋友看到徽章并开始撰写反馈，标准的DiD就会给出偏倚的估计，将直接和间接效果混合在一起。解决方案是使用按朋友组的聚类标准误差或两阶段抽样，其中排除与“治疗组”相关的对照组用户。可以通过在Python中使用中介分析（库causalml或mediation）明显评估溢出效应，将总体效应分为直接（影响用户本人）和间接（影响朋友），以避免低估真实效果。

您如何评估在无法进行经典的A/B测试情况下，使用准实验方法实施游戏化系统（课程反馈的徽章）对用户在edtech应用程序中的参与深度的因果关系效果？

对问题的回答

生活中的情况

候选人常常忽略的内容