问题回答

历史上，产品分析中对AR功能的评价方法主要依赖于关联分析或简单的平均值比较，即比较支持技术的用户与不支持技术的用户之间的差异。这种方法论框架在2018年之前占主导地位，当时零售研究人员并未考虑设备价格类别在用户群体中的系统性差异。旗舰智能手机的拥有者，如配备ARKit或ARCore的手机，通常在收入、技术适应性和冲动消费高利润商品的倾向上有显著差异。

因此，直接的比较会导致自我选择偏差高达40%，使得无法将功能效果与用户群体之间的既有差异区分开来。经典的A/B测试也不可行，因为强制在不兼容设备上启用AR会导致技术故障、应用崩溃和扭曲的用户体验，这违背了SUTVA（Stable Unit Treatment Value Assumption）的基本原则，并产生了对干预的负面反应。

最优的解决方案需要围绕设备技术规格的阈值采用回归不连续设计（RDD），例如比较iPhone X和iPhone 8+的用户，这些用户在二手市场上的价格可及性和人口特征相似，但在TrueDepth摄像头的可用性上存在重要差异。为了考虑按商品类别逐步引入的情况，我们补充了具有固定效应的差异中的差异（DiD）方法，控制季节性和产品差异。最后，采用倾向得分匹配（PSM）方法，根据设备的价格段和购买历史调整本地RDD内部的剩余异质性，从而利用逆概率加权来外推局部平均效应（LATE）到总体。

生活中的情况

在大型时尚市场中，2023年秋季启动了使用面部追踪技术的AR试穿太阳镜功能。该功能仅在iPhone X及以上型号和配备Google ARCore的旗舰Android设备上可用，自动排除了60%使用预算设备的用户。初步分析报告显示，拥有AR功能的用户转换为购买的概率是没有AR的用户的3.5倍，而退货率则低30%，但团队怀疑存在强烈的生存偏差：高端手机的拥有者在历史上往往表现出更高的平均消费和忠诚度，独立于新功能的影响。

第一个考虑的选项是使用t检验或Mann-Whitney U检验在AR可用性组之间直接比较平均值，而没有任何调整。此方法的优点包括即刻计算、对数据的最低要求以及对商业利益相关者结果的直观性。缺点则非常严重：收入和技术知识的灾难性内生性使得无法将功能效果与用户群体之间的既有差异分开。

第二个选项是对在观察期间将设备从不兼容升级到兼容AR的用户进行前后的队列分析。优点在于通过被试内比较控制个体异质性，排除了在不可测量的用户特征上的偏差。缺点包括新奇效应（novelty effect）、季节性（设备更新通常在12月和9月的高峰期，和不同的购买模式相关连）以及更新时的自我选择（有动机的用户更频繁更换手机）。

第三个选项是围绕iPhone X（A11 Bionic芯片）模型的阈值应用回归不连续设计，比较iPhone 8+和iPhone X的用户，后者在社会人口特征和二手市场价格类别上统计上是不可区分的，但仅在TrueDepth摄像头的可用性上存在差异。这种方法的优点在于在阈值周围创建了准随机分配，从而确保了有效的因果估计（LATE），而无需随机化。缺点在于外部有效性有限——结果仅适用于在老旧旗舰机和新机购买之间徘徊的“边际”用户，且需要检验协变量的连续性假设（continuity assumption）和避免点状操控（heap）。

最终选择了结合的解决方案：RDD用于评估边际用户在设备阈值下的功能净效应，并与具有分阶段引入的差异中的差异（DiD）整合，以考虑按商品类别的逐步推出（首先是高端品牌，然后是大众市场）。为了将阈值的结果外推到整个用户群体，采用基于设备价格和人口特征分布的逆概率加权（IPW）。最终结果显示，真实效应为转化率提高8%和退货率降低12%，而未经调整的天真分析显示扭曲的转化率提高35%和退货率降低28%，这对商业决策的波及的功能大规模推广产生了关键影响，避免了过高的投资预期。

候选人常常忽视的内容

如何正确处理网络效应（spillover effects），当使用AR的用户在社交媒体或即时通讯应用中分享虚拟试穿的照片，从而影响他们没有兼容设备的联系人购买决策，后者也正式属于对照组时？

候选人往往忽视通过社交图谱的SUTVA违反，假设组别是隔离的。在实际中，如果朋友通过Instagram Stories看到眼镜的试穿并进行购买，这会污染对照组。正确的方法是采用两阶段最小二乘法（2SLS），使用工具变量（特定型号手机在特定地区的发布日期），该变量仅影响“发送方”的AR可用性，但不直接影响“接收方”。作为替代方案，可以使用暴露映射（exposure mapping），其中我们建模用户之间的社交联系强度，并将treatment × exposure的相互作用引入模型，从而定量评估AR的直接效果与病毒式传播的间接效果。

为什么“意向治疗”（Intent-to-Treat, ITT）的方法论后续计算局部平均处理效应（Local Average Treatment Effect, LATE）比尝试对随机一半受众强制进行A/B测试更为优越，即使通过云渲染技术技术上可行？

这个问题考察了对实验伦理和合规限制的理解。通过云渲染在不兼容设备上强制启用AR会导致高延迟（latency）和低分辨率的人工体验，这会导致灾难性的用户体验和大量用户流失（churn），这违反了“不造成伤害”的原则。这造成了非合规选择（selection into non-compliance）：用户会迅速禁用该功能或卸载应用，从而使得效应评估变得不可能且导致合规上的偏差。正确的方法是鼓励设计（encouragement design）：而不是强制启用，我们随机展示一个提示横幅，建议AR试用（仅对兼容设备的用户），从而创造意向治疗（ITT）分析，其中treatment是建议，而非实际使用。然后通过IV回归（工具变量——建议的随机化）获得LATE——这是仅对那些实际使用了功能的用户（compliers）的影响，从而提供一种保守但因果关系干净的评估，且无技术破坏产品的风险。

如何考虑目录覆盖偏差（catalog coverage bias），当AR模型仅为30%的商品创建，主要来自高端细分市场时，这会在仅分析可用SKU时导致平均消费和LTV的偏差？

候选人常常忽视可推广性（generalizability）和截尾偏差（truncation bias）的问题，比较高端细分市场（AR可用）和大众市场（AR不可用）。如果不调整样本，我们错误地将高消费归因于AR的影响，而实际上是在测量细分市场之间的差异。解决方案需要使用逆概率加权（IPW）或双重稳健估计（Doubly Robust Estimation）：首先建模倾向得分——在其可观察特征（价格、品牌、类别、季节性）基础上，商品存在AR模型的概率。然后反向加权观察值，使得AR样本在整个目录中具有代表性。额外使用**合成控制方法（synthetic control methods）**来处理没有AR的类别，创建与AR类别的加权线性组合，以模拟缺失类别的反事实行为，从而评估整个业务层面的影响，而不仅仅是高端商品的子样本。

如果设备的技术规格（TrueDepth摄像头/ARKit）限制了虚拟试衣间（AR试穿）功能的可用性，那么在评估该功能对配饰类别的退货率降低和转化率提升的因果效应时，应采用什么方法？

问题回答

生活中的情况

候选人常常忽视的内容