历史背景: 分账功能(split payment)传统上在旅游和B2B服务领域占主导地位,但在电子商务(电子产品、时尚)的广泛引入相对较晚,随着移动支付的增长,才开始流行。关键的分析复杂性在于用户自我选择进入社会集群(青年群体、家庭),在这些群体中,购买决策是集体做出的,这导致测试组和对照组之间的干扰,并使标准的A/B测试失效。
问题陈述: 需要从分账的纯因果效应中隔离出其对单位经济指标的影响,防止其受到(1)对高价商品的季节性需求波动的影响,(2)年轻群体中平均订单金额自然增长的趋势,(3)社交关系的内生性(富裕朋友邀请富裕朋友),以及(4)按类别的逐步推广导致的时间切片扭曲的影响。
详细解决方案: 最优方法是将差异中的差异(Difference-in-Differences, DiD)与“社交图”的级别集群随机化相结合(非用户),并使用模糊回归不连续设计(Fuzzy Regression Discontinuity Design, RDD)根据功能的激活阈值(例如30,000卢布)进行补充。为了调整社交关系的内生性,采用工具变量(Instrumental Variables, IV)方法,工具变量是推广计划中类别的顺序号(外生变动),在功能实际使用之前。为了评估不同群体的效应异质性,使用因果森林(Causal Forest),可以为不同用户集群提取条件平均效应(CATE)。指标在两种模式下进行评估:意向治疗(Intent-to-Treat, ITT)——按钮存在的效应,以及接受治疗的效果(Treatment-on-the-Treated, TOT)——实际使用的效应,这需要通过**二阶段最小二乘法(Two-Stage Least Squares, 2SLS)**对不合规性进行正确处理。
背景: 一家大型电子产品市场推出了“分享购物车”功能,适用于超过50,000卢布的购买,允许两个用户平均分担支付。试点在“智能手机”类别启动,计划扩展到“笔记本电脑”。在第一个月,商家记录测试类别的平均订单金额增长了25%,但分析师怀疑70%的功能用户是18-22岁的学生,他们历史上ARPU较低,但在试点中开始共同购买iPhone,创造了“拼团购买”的效果。
解决方案选项1:简单的前后比较(t检验平均数)。 优点:立即实施,不需要复杂的基础设施。缺点:完全忽视季节性(学年开始时对小工具的需求增加),以及移动商务的整体增长趋势和高价订单自我选择到50,000卢布的门槛。结果向上偏移了15-18个百分点。
解决方案选项2:以“配件”类别作为对照的差异中的差异。 优点:消除了共同的时间趋势,简单易解释。缺点:违反平行趋势的假设——智能手机类别的需求弹性与配件不同,价格动态也不同。此外,存在溢出效应:用户可能共同购买智能手机,但在对照类别中购买手机壳时又不使用分账功能,这会污染对照组。
解决方案选项3:严格按照50,000卢布门槛的回归不连续设计(RDD)。 优点:使用外生阈值进行准实验,评估门槛订单的局部效应(LATE)。缺点:无法扩展到整个价格范围,忽略了80,000卢布的订单(那里效应可能不同)。此外,模糊特性——用户可能操纵价格(添加配件)来满足条件。
选择的解决方案及其理由: 实施了混合方法:在45,000-55,000卢布范围内使用模糊RDD(在门槛处的净识别)+ 使用合成控制法(Synthetic Control Method, SCM)的差异中的差异——从其他类别创建加权的人工对照,重现智能手机在功能引入前的动态。对于社交效应,通过设备ID的集群分析(用于识别一组人使用的设备)作为社交关系的代理。
最终结果: 真正的增量效应为平均订单金额增加了8.4%(而观察到的增长为25%),18-25岁群体的转化率增长了12%,但在下一个季度购买频率下降了5%(购买被推迟到公司聚会时期)。功能仅在平均订单金额为40,000-70,000卢布的类别中推出,其中效应统计上显著。
1. 通过社交图引起的干扰问题:对照组的用户可能会被测试组的朋友邀请进行联合购买。
回答:在经典A/B测试中假设稳定单位处理价值假设(Stable Unit Treatment Value Assumption, SUTVA)——单元的独立性。在分账情况下,这一假设被破坏,因为一个用户的处理(按钮的存在)影响另一个用户(邀请)的行为。正确的解决方案是对社交组件(好友图)的级别进行集群随机化,或通过曝光映射(exposure mapping)分析网络效应,其中曝光被定义为接触功能的朋友的比例。另一种选择是使用二分图聚类在实验前将图划分为孤立集群。
2. 在功能渗透率低的情况下,ITT(意向治疗)和TOT(接受治疗)效应之间的差异。
回答:许多分析师错误地将看到按钮的所有人的效应(ITT)评估为使用它的人的效应(TOT)。如果只有10%的看到按钮的人点击“分账”,那么ITT将真实效应低估10倍。评估TOT需要IV方法,其中工具变量$Z$是按钮显示的事实(随机),而内生变量$D$是使用的事实。通过2SLS的估计将给出符合条件的局部平均治疗效应(LATE)——那些只有在功能可用时才会使用功能的人。这对业务案例至关重要:倾向于拼团的人的效应是平均效应的3-4倍。
3. 长期的自我侵蚀和前瞻偏见:分账可能并不会创造新的需求,而只是将未来的个人购买重新分配到目前的集体购买中。
回答:候选人往往只关注即时交易指标。需要进行队列分析,观察使用分账的用户与匹配对照组在90天以上的购买频率(purchase frequency)。这需要基于预处理特征(历史订单、季节性)建立倾向性评分匹配(propensity score matching, PSM)。此外,进行成分转移的检查很重要——品类是否偏向于高毛利但购买重复率低的商品(例如,游戏机而非游戏),这会在降低用户终身价值(LTV)的情况下产生订单金额增长的错觉。