问题解答

历史背景。 在传统的在线零售中，订单缺货（out-of-stock）通常通过取消该商品或手动拨打经理电话来处理，这严重降低了转化率和客户满意度。随着机器学习推荐系统的发展，可以基于语义相似性、价格平价和替代品历史，实时提供替代品。然而，简单地比较有替代品和没有替代品的订单，会给出偏差的评估，因为替代品的存在本身与商品的初始短缺相关，而同意允许自动替换的用户与拒绝替换的用户在系统特征上系统性不同。

问题陈述。 关键难点在于自我选择的内生性：忠诚的用户更倾向于允许自动替代，而随机短缺不均匀地影响各类别（易腐品 vs 电子设备）的样本。此外，实施是在仓库级别进行的，这排除了对用户进行经典的A/B测试，因为它们通过共用库存受到污染。必须将机器学习替代品的纯质量效果与缺货的基本负面影响隔离，并考虑各类别的异质性。

详细解答。 最佳方法是结合仓库层级的差异中的差异（Difference-in-Differences, DiD）与评估效果异质性的因果森林（Causal Forest）。对于已实施机器学习替代品仓库（treatment），使用具有相似需求结构和季节性的无自动替代品的仓库进行对照组选择，通过合成控制法（Synthetic Control Method）。在treatment仓库内部，对接受和拒绝替换的用户应用倾向得分匹配（Propensity Score Matching），根据历史特征（订单频率、平均交易额、类别偏好）进行匹配。效果评估为条件平均处理效应（Conditional Average Treatment Effect, CATE），划分为可替代类别（高/中/低），可以将技术效果与选择效果分开。

生活实例

公司「产品加」实施了缺货商品的智能替代系统。问题在于15%的订单中包含缺货商品，这导致用户流失。分析师需要测量机器学习替代品是否确实减少了短缺的负面影响，或者只是掩盖了采购问题。

第一种选择——在用户之间进行经典的A/B测试，将用户分为“自动替代开启”和“关闭”组。优点：简单的解释和直接比较转化率指标。缺点：在实践中不可行，因为一个仓库服务于两个组，如果商品缺货，无法将其“返回”给对照组，造成物流崩溃和污染。

第二种选择——在相同仓库进行“前后对比”，没有对照组。优点：计算简单，无需与其他仓库同步。缺点：产品需求的季节性和产品组合的变化扭曲了结果，无法将功能效果与整体基数增长分开。

第三种选择——采用城市微型仓库作为随机化单位的准实验设计差异中的差异（Difference-in-Differences，DiD），其中treatment仓库采用机器学习模型，对照仓库则维持人工协商。优点：消除系统性趋势和季节性，允许使用统计显著的结果。缺点：严格假设平行趋势和足够同质化的仓库以构建合成控制。

最终选择的解决方案：团队选择了第三种选择，并额外应用因果森林对用户进行替换倾向进行细分。这使得能够单独隔离“保守者”和“早期追随者”的效果，同时通过倾向得分匹配调整其早期订单历史。

最终结果：确认机器学习替代品仅在高度可替代的类别（乳制品、杂货）中将保留率提高12%，但在小众商品（手工啤酒、农产品）中将满意度降低8%，因为替代品被视为干扰。公司限制了对具有高度相关偏好的类别进行自动替换，从而使NPS增加0.4点，手动重新排序的运营成本降低23%。

候选人常常忽视的内容

如何区分自动替换技术的效果与特定机器学习模型质量的效果，并避免生存偏差（survivorship bias）？

回答：候选人常常将技术效果（替代可能性本身）与质量效果（择优替代的准确性）混为一谈。为了解耦，必须建立剂量反应函数（dose-response function），其中“剂量”为模型度量的替代相关性的概率（NDCG@1）。采用模糊回归不连续性（Fuzzy Regression Discontinuity）围绕模型接受率阈值（例如，信任度 > 0.8 vs 0.6）可以隔离质量纯效应与功能存在的效应。同时，还需考虑生存偏差：第一次订单中收到不良替代的用户可能会永久关闭功能，从而扭曲样本偏向成功案例。为修正此偏差，使用赫克曼选择模型（Heckman selection model），共同建模选择方程（用户在首次体验后的存留概率）和结果方程（满意度）。

如何考虑类别之间的交叉污染（spillover），当一类别中的不成功替代影响整个订单的感觉并导致其他商品的取消？

回答：标准方法隔离地评估类别效果，忽略了对购物车的负向外溢效应（negative spillover）。为考虑跨类别的效应，有必要将订单建模为相互依赖的商品系统，使用图因果模型（Graph Causal Models）或结构方程建模（Structural Equation Modeling，SEM）。具体来说，构建类别依赖关系的图（例如，替代酸奶影响对麦片的感知），并通过控制邻近商品的协变量来评估总体处理效果（Total Treatment Effect）。作为替代，还可以采用中介分析（Mediation Analysis），其中中介为“失望标志”（在显示替代后从购物车中删除其他商品）。这允许将整体效应分解为直接（在类别内）和间接（通过改变量）效应，避免对替代品收益的高估。

如何准确解读结果，如果机器学习模型显示动态学习（learning effects），且替代品质量随时间改善，产生treatment组的时间趋势？

回答：初学者分析师常常忽略效应的非平稳性，假设在整个观察期内ATE是恒定的。在动态学习的情况下，“今天”的效果系统性地与“一个月前”的效果不同，违背了稳定单位处理值假设（Stable Unit Treatment Value Assumption，SUTVA）关于时间稳定性的假设。解决方案是使用时间变动系数模型（Time-Varying Coefficient Models）或贝叶斯结构时间序列（Bayesian Structural Time Series，BSTS）模拟效果趋势作为潜在变量。在DiD框架内，需纳入时间与treatment的交互作用（事件研究设计），验证每个时间切片的平行趋势假设。如果效果在增长，重要的是区分模型的学习曲线（算法的改善）与用户适应性（用户对功能的适应），通过不同用户群体和模型版本群体的分组进行解耦。

应如何评估实施自动替代缺货商品的机器学习系统对客户满意度和退货率的因果影响，特别是在逐步实施到不同仓库的情况下，替代品的质量因商品类别而异，而用户对自动替代品的反应则表现出异质性？

问题解答

生活实例

候选人常常忽视的内容