历史背景
早期的保留策略使用大规模向所有低活跃用户发送折扣的方式。这导致了市场预算的无目标支出和形成了“期待折扣”的行为模式。随着2010年代**提升建模(Uplift Modeling)和倾向评分(Propensity Score)**方法的出现,公司开始只针对高流失概率的用户。然而,这带来了评估的根本问题,因为治疗组是模型自我选择的,违反了因果推断所需的随机化前提。
问题陈述
关键难点在于为被流失预测模型标记为高风险的用户建立有效的对照情境。这些用户与整体人群存在系统性差异——他们的参与度较低,最近有负面经历或特定的行为模式。简单地将他们的保留率与低风险用户或他们自己在干预之前的历史进行比较,会混淆治疗效果和固有差异。此外,对于流失风险最大的用户(控制组)拒绝提供保留提议,造成了无法接受的商业风险和收入损失,使得经典的A/B测试在政治上变得不可能。
详细解决方案
在风险评分的阈值(例如,0.7)周围应用**回归不连续设计(RDD)来启动干预。阈值稍高和稍低的用户在统计上是相似的,除了治疗的分配。这为边际用户提供了局部平均治疗效果(LATE)。为了在整个高风险用户群体上进行推广,将RDD与逆概率加权(IPW)结合,使用在干预前数据上评估的倾向评分。在阈值远处的用户使用双重稳健估计(Doubly Robust Estimation)或因果森林(Causal Forests)建模异质效应。为了应对因先前活动导致的数据污染,在训练中实施“影子模式”,在小范围的保持(5-10%)下,模型生成没有触发条件的预测,创造两阶段最小二乘法(2SLS)分析工具。最后,考虑沟通渠道的饱和度,利用差异中的差异(DiD)**比较风险分 segment 的时间趋势。
一家移动订阅服务(冥想应用程序)推出了ChurnGuard——一套机器学习系统,为预测在7天内流失概率大于0.75的用户发送个性化的30%折扣推送通知。
选项1:比较获得折扣(高风险)与未获得折扣(低风险)用户的保留率
优点:现有BI工具可以立即计算;不需要实验基础设施。缺点:自我选择偏差严重——高风险用户自然更容易流失;此比较可能低估效应甚至显示负相关(处理过的用户仍然比未处理的低风险用户更容易流失)。
选项2:随机对照实验,50%的高风险用户随机失去保留提议
优点:无偏的因果评估;平均治疗效应(ATE)的明确解释。缺点:商业利益相关者因害怕流失有价值用户而拒绝;在干预情况下故意放弃流失的伦理问题;高风险细分样本量大小问题。
选项3:利用模型的0.75阈值的回归不连续设计加上合成对照法来验证时间序列
优点:伦理上可接受——阈值稍低的用户获得标准体验;利用现有算法阈值作为自然实验;可以在历史数据上进行回顾性实施。缺点:仅评估局部效应(对于阈值附近的用户);需要仔细验证连续性前提(没有分数操纵);由于在阈值范围内的有效样本量较小,准确性低于RCT。
选择的解决方案及其理由
选择方案3,阈值周围的0.05带宽,辅以同 cohort 分析比较模型部署前后用户在一周内的变化,并通过行为特征进行倾向评分匹配以调整季节性。选择的原因:在统计严谨性与业务限制之间达到平衡;在不拒绝明显高风险用户的情况下能够衡量效应。
最终结果
发现阈值临近用户在7天内流失率相对下降18%(风险评分0.75-0.80)。但是发现,风险超过0.90的用户由于多次流失推送的“警觉疲劳”导致回归下降。将推送频率限制优化为每周最多2次。净效应为LTV增加120万美元,在折扣成本上的投资回报率为340%。
为什么在获得保留活动与未获得保留活动的用户之间比较保留率(甚至在高风险细分内部)可能会高估或低估真正的干预效应?
即使在高风险细分内,用户何时进入这一细分也是一个重要时刻。早期在生命周期中达到风险阈值的用户与后期达到阈值的用户本质上是不同的。如果不考虑时间变化的混杂因素(例如最近的应用故障或季节性事件,它们同时提高风险并使折扣更有效/无效),简单比较会受到存活偏差和辛普森悖论的影响。正确的方法要求使用**边际结构模型(MSM)**通过逆概率加权处理时间相关的协变量。
流失模型训练集中的“数据泄露”问题如何扭曲流失预防系统评估的有效性?
如果流失模型的训练是基于历史数据,其中部分用户已经接受过保留活动,目标变量的标签就被污染。模型学习识别“被先前活动拯救的用户”,而不是“本来会流失的用户”。这创建了一个反馈循环,模型在验证时表现良好(为处理过的用户预测低流失),但在生产环境中无法识别真正的高风险用户。为了解决这个问题,必须仅使用干预之前的数据进行训练,或者使用重要性抽样对训练数据进行逆概率加权,有效模拟过去活动的缺失。
为什么标准的用户级随机化A/B测试可能不适用于评估流失预防系统,以及应该使用哪些替代实验设计?
标准的A/B测试通常不适用,因为控制组的治疗拒绝违反了个体均衡(Individual Equipoise)(在存在干预的情况下故意假定损害)并遭受溢出效应(Spillover Effects)(处理过的用户可能与控制组分享优惠码)。相反,使用集群随机化(Cluster Randomization)(通过地理区域或时间段通过切换实验(Switchback Experiments)进行随机化)或鼓励设计(Encouragement Designs),其中工具是用户参与模型的权利,而不是治疗本身。另一种方法是部分人群实验(Partial Population Experiments),即模型在控制组中以“影子模式”运行(做出预测但不采取行动),通过**校准分析(Calibration Analysis)**比较预测流失和实际流失,以衡量真实的提升效果。