问题的答案

内容个性化自 2010 年代中期以来，已成为现代电子商务平台不可或缺的一部分，当时 亚马逊 和 Netflix 证明了对推荐系统投资的经济合理性。经典的效果评估方法通常依赖于受控实验的进行，但在真实基础设施中，往往存在技术限制，使得标准的 A/B 测试 在不降低性能的情况下变得不可能。

分析师的任务是在没有对照组的情况下，独立出 ML 推荐系统对关键产品指标的真实影响。同时，需要考虑三种扭曲因素：针对冷用户的模型训练中的时间滞后（cold start problem）、由于接口变化导致的短期活动激增（novelty effect），以及新用户和回归用户之间的系统性差异，这导致了 selection bias。

最佳方法是 差异中的差异（Difference-in-Differences, DiD）与 合成控制分析（Synthetic Control Method）的组合。对照组使用的是在变更实施后注册的新用户群体，并通过 倾向评分 来调整基本特征的差异。为了应对 cold start，分析按用户的任期进行分层，并单独对算法的学习曲线进行建模。新奇效应通过分析发布后前 14 天指标的动态并与稳定期进行比较来隔离。此外，还采用了 三重差异方法，利用实施速度不同的地理区域作为自然实验。

生活中的情况

在一个大型时尚市场上，计划用由 ML 模型基于协同过滤生成的动态流来替换手动选择趋势的静态主页。技术团队报告说，由于 Cloudflare 上的 Edge Cache 设置，很难在用户层面进行流量分割，而不会显著降低系统的性能并违反 SLA 的响应时间。发布必须在所有用户中同时进行，在高峰季节（11 月）进行，这又因黑五和节前的购买热潮而复杂化，扭曲了历史行为模式。

第一个方法是使用简单的 前后分析，通过指数调整以考虑往年季节性。这种方法操作简单，并且不需要复杂的数据基础设施，但严重依赖于在各个时段之间基本趋势的不变假设。在电子商务市场上升的情况下，这导致由于宏观经济因素和需求通胀，效果被高估了 40%-60%。

第二种选择包括基于移动应用程序用户行为构建 合成控制，其中个性化早期引入并稳定运行。此方法能够通过历史数据的加权组合考虑产品指标的特殊性和季节波动。然而，它依赖于 Web 和移动之间平行趋势的强假设，由于受众的不同人口统计特征和用户场景的差异（Web 用于深度搜索，应用程序用于快速购买），这一假设并不成立。

第三种方法建议使用 准实验的差异模型（DiD），比较有丰富历史的用户与经历 cold start 的新用户之间指标的动态。此方法能够将推荐系统的效果与模型学习效果隔离，利用时间和用户类型之间的交互作为变异源。关键的限制是需要假设在干预前没有系统性震荡同时对两组产生不同影响，这需要严格检查 平行趋势 的假设。

最终选择了一个混合方法，将 DiD 与按群体进行的后分层和算法学习曲线的调整相结合。此方案能够控制用户细分之间的个体异质性和市场层面的时间趋势。关键因素是能够利用自然适应速度的变异：经验丰富的用户立即获得相关的推荐，而新用户需要 5-7 次会话来积累信号，这为评估系统的净效应提供了 “自然对照”。

分析表明，个性化的真实影响为转化率增加 8.3% 和平均消费增加 12%，但仅在用户首次访问的第 21 天后生效。在前两周，由于 cold start 模型，新用户的转化率出现了 3% 的反常下降，而常客的活动激增（+15%）则抵消了这种影响。如果不考虑数据的时间结构，业务可能会错误地撤回变更，而不等指标稳定，这将导致预计年度收入减少 2.4 亿卢布。

候选人常常忽视的内容

如何在没有明确的训练集和测试集分隔的情况下，正确考虑模型的学习周期？

候选人常常忽视 ML 模型在生产中处于持续在线学习状态（online learning），其中超参数在实时流数据中适应。正确的方法包括通过质量评估（NDCG, MAP）模型学习曲线。需要构建两阶段模型，首先评估时间对推荐质量的影响，然后评估质量对业务指标的影响，同时使用工具变量来解决内生性问题。否则，分析师会将算法改进的效果与用户数据积累的效果混淆，从而得出关于最佳评估时间跨度的错误结论。

为什么在个性化的准实验中，检查平行趋势假设在干预前后都是关键？

在 DiD 中，检查 平行趋势假设 的标准做法仅限于干预前期，然而，在个性化系统中，由于不同细分市场的需求弹性不同，在实施后存在趋势发散的风险。例如，高价值用户在个性化影响下可能会加快购买增长，而流失用户可能会继续线性减少活动。候选人应使用 事件研究 方法（dynamic DiD）在后期可视化趋势偏差，并通过具有用户和时间固定效应的模型来应用对 异质处理效应 的调整。

如何在对基础转化率不同和对个性化敏感度不同的细分结果中进行聚合时避免辛普森悖论？

典型错误是计算整个受众的加权平均效果，而未考虑流量结构的组成变化。如果个性化是在新用户占比（基础转化率低，对推荐的相对增长高）增加的期间推出，则即使在每个细分中都有正效果，聚合效果也可能是负的。因此，必须应用分层并进行后续标准化平均（standardized mean treatment effect），或使用 双重稳健估计，将倾向评分模型与结果模型结合，确保对规范错误的稳健性。