问题的回答

历史上，忠诚计划的评估主要基于参与者和非参与者的平均消费进行简单比较，这导致了由于选择偏见而高估了效果。现代的产品分析要求在用户根据不可观察的特征（例如，计划的购买量）自我选择加入计划的情况下，隔离真正的因果效应。关键问题在于将计划的效果与组间的现存差异分开，并正确处理奖励的累积和激活之间的时间滞后。

为了解决这个问题，有必要应用倾向评分匹配（PSM）和差异中的差异（DiD）的结合，扩展时间效应的模型。在第一阶段，建立一个基于启动前的协变量（购买历史、人口统计、参与度）的加入计划概率模型。用户通过最近的邻居或权重（IPW）进行匹配，以平衡观察特征的分布。在第二阶段，应用具有用户和时间固定效应的DiD，其中时间段根据现金返还激活的时刻被划分为桶（事件研究设计）。这允许追踪效果的动态变化，考虑到部分用户在一周内激活奖励，而部分用户在一个月内激活。为了控制异食现象（时间上的购物转移），包括依赖变量的滞后，并通过生存分析分析不同观察期的队列。

生活中的案例

我们在电子产品市场推出了5%的现金返还累积计划，用户需要在个人资料中激活该选项。一个月后，指标显示参与者的购买频率增长了40%，但业务对因果关系表示怀疑，因为假设参与计划的都是原本忠诚的用户。问题被复杂化，因为奖励只能在累计14天后消费，制造了第三周活动的人工激增。

第一个考虑的选项是经典的A/B测试，强制随机化访问现金返还的权限。优点：因果效应的纯净评估。缺点：法律限制（未经同意不能强制推行财务计划）和行为扭曲（知道现金返还不可用的用户转向竞争对手）。由于伦理和商业风险，此选项被否决。

第二个选项是通过t检验对“参与者与非参与者”进行简单比较，并调整样本大小。优点：实施速度快，报告简单。缺点：生存偏差（survivorship bias）和忽略内生性的问题；分析显示，在激活之前，参与者的基本购买频率高出2.3倍，使得比较不正确。

第三个选项是根据首次购买金额的阈值进行回归不连续设计（RDD），自动赋予现金返还的权限。优点：阈值附近的局部随机性为边际用户提供了无偏见的评估。缺点：评估仅对阈值附近的狭隘群体有效（局部平均处理效应），而不是对全体受众；而且在我们的情况下，没有严格的阈值——该计划在用户opt-in后立即向所有人开放。

选择的解决方案是结合倾向评分匹配以建立合成对照组和基于队列的差异中的差异，考虑时间滞后。我们根据15个变量（RFM细分、季节性、设备）将参与者与非参与者进行匹配，然后应用具有周和用户固定效应的DiD。为了考虑14天的延迟，我们建立了相对于激活时刻的事件研究，这使得能够将真正的增长与购物转移分开。结果：净增量效果为购买频率增加12%和平均消费增加8%，排除异食现象，而原始数据则显示增长40%。该计划被确认成功，但ROI的预期显著更为谦逊。

候选人常常忽略的内容

如何在奖励的累积和消费之间存在滞后时，正确区分程序效果与购物的时间转移（intertemporal substitution）？

回答需要理解动态处理效应。必须建模不仅是平均效应，还要通过事件研究规范来描述它的动态变化：Y_it = α_i + γ_t + Σ_k β_k · D_i,t-k + ε_it，其中D_i,t-k是相对于激活时刻的虚拟变量。如果激活前的系数β_k显著不等于零（平行趋势测试），而激活后的系数显示出上涨并随后下降至基线以下——这表明是异食现象（borrowed demand）。为了评估纯粹的LTV效果，必须随时间整合效果，并通过合成对照方法与具有类似先前轨迹的捐赠单位进行比较。

为什么带有个体随机化的标准A/B测试可能会破坏现金返还系统中的SUTVA假设？

SUTVA（稳定单位处理价值假设）被破坏，当一个用户的奖励影响其他用户的行为时（例如，家庭账户或企业采购）。如果丈夫激活现金返还并为家庭购物，而妻子停止了自己的单独购物，则个体随机化将提供偏差的评估。需要采用家庭级的集群随机化或使用扩散分析方法（溢出效应），例如使用工具变量的两阶段最小二乘法（2SLS）（例如，激活的阈值在不同集群间变化）。

如何在存在季节性时考虑用户生命周期阶段（customer lifetime stage）对效果的异质性？

候选人常常忽视现金返还对新用户（初始激励效果）和成熟用户（保持效果）的效果不同。必须应用三重差异（DDD）：程序效果 = （Y_post - Y_pre）对于处理 - （Y_post - Y_pre）对于控制，根据使用时间的细分（新/成熟）进行区分。同时，通过与细分交互的月份固定效应来控制季节性。另一种可选的方法是使用异质处理效应通过因果森林或元学习者（S-学习者，T-学习者），这可以识别出具有正CATE（条件平均处理效应）的细分并优化该计划的针对性，从而避免对零或负效应用户的支出。