在电子商务中,传统的定价方法长期以来依赖简单的相关性分析或短期 A/B 测试来评估运费门槛的变化。然而,随着因果推断理论 (Causal Inference) 的发展,显而易见,全基数实施运费政策的急剧变化带来了自我选择和时间动态的内生性问题。现代产品分析需要应用准实验方法,如 Synthetic Control Method (SCM) 和 Bayesian Structural Time Series (BSTS),这些方法是为评估宏观经济政策而开发的,但已成功适应高波动性指标的数字产品。
提高免运费门槛时出现了识别局部平均处理效应 (LATE) 的复杂问题。购买意愿高的用户会改变行为(购买到达门槛),而边际用户则推迟购买或转向竞争对手。经典的事前事后分析由于季节性、通货膨胀效应和竞争性活动而给出了偏差的估计。此外,还观察到跨时间替代效应 (intertemporal substitution),即用户在时间上整合购买,造成平均订单额的虚假激增,而这并不是真正需求增加的结果,这需要对反应的时间结构进行建模。
最佳方法是结合用户聚合群体水平的 Synthetic Control Method 和针对边际消费者的局部评估效果的 Regression Discontinuity Design (RDD)。在 SCM 中,构建具有类似历史动态的地理区域或细分市场的加权组合,该组合模仿目标群体在干预前的趋势,使用 Abadie-Diamond-Hainmueller 的权重优化算法。对于 RDD, 分析恰好在门槛附近的交易 (optimal bandwidth 通过 Imbens-Kalyanaraman 算法),这使得可以隔离激励的纯效应。此外,基于 BSTS 的 CausalImpact 被用来对与合成趋势的偏差进行动态评估,统计显著性通过对历史数据的 permutation test (placebo tests) 计算。
一家大型时尚市场的决策是在俄罗斯全体用户中一次性将免运费门槛提高到 2500 ₽。产品团队在前两周内记录了平均订单金额增长 22%,但首席财务官质疑这一效应的可持续性,担心有价值用户的流失和通过延迟购买机制的未来销售蚕食。在分析师面前的任务是剥离真实的因果效应与季节性促销和竞争者行为变化的噪声。
第一个考虑的选项是使用 t 检验和百分比提升计算简单比较变更前后的 30 天指标。优点: 一天内最大化实施速度,对于高级管理人员来说易于理解,无需深入统计。缺点: 完全忽略了上升的季节性趋势(春季系列开始),未对外部冲击(竞争对手的广告活动)进行控制,且无法评估购物车积累的动态效应,导致对效应的高估达 40-60%。
第二个选项是地理差异中的差异,使用没有门槛变化的地区(例如,具有物流限制的偏远地区)作为对照组。优点: 自然变异性,能够通过固定效应捕捉价格敏感性区域差异。缺点: 因用户在城市之间迁移而对平行趋势假设的严重违反(违反 SUTVA),并且首都与地区之间竞争环境的重大差异导致对照组系统性不可比。
第三个选项是基于历史购买频率和平均订单金额构建的用户群体水平的 Synthetic Control Method,数据基于变化前的 12 个月。优点: 创建考虑季节性、星期几和趋势的“捐赠”细分的最优权重组合;能够在处理前期间通过视觉验证拟合质量。缺点: 对于长历史数据的需求(至少 10-15 个周期),对结构性断裂 (regime switch) 的敏感性,例如大流行期间行为变化,以及对于企业对权重的解释复杂性。
选择了组合解决方案:使用 SCM 评估收入的总体效应,使用带有二次局部多项式的 RDD 评估 2300-2700 ₽ 区间内边际用户的效应。这使得可以将“追加购买”(basket augmentation)效应与“流失”(churn)效应分开,并通过集成到 CausalImpact 中的贝叶斯结构时间序列模型 (BSTS) 正确考虑季节性。
最终结果显示,观察到的 22% 的订单增长被高估了大约两倍:真实的增量效应为 11%,其中 6% 是由于需求的时间错位 (intertemporal substitution),而 5% 是由于真实的购物车规模增加。分析揭示了对送货敏感的用户细分(15% 的基础),展现出 8% 的高流失和 12% 的订单频率下降,这使得得以调整政策:为低订单量高历史退货频率的细分推出 1990 ₽ 的混合门槛,从而降低对留存的负面影响。
如何正确考虑购物车积累效应(cart pooling)和购买的跨时间替代在评估动态运费门槛时,如果用户战略性地推迟转化?
答案:需要通过 survival analysis (Cox 回归模型)或会话之间的时间间隔分析 (inter-purchase time) 来建模决策的时间结构。关键指标不再是点对点转化,而是随当前购物车金额和距离门槛的变化而变化的购买危险率。还需分析通过追加购买达到门槛的用户群体,在 14 天内商品退货的比例是否增加(退货蚕食),这扭曲了 GMV 指标并需要在模型中对 return rate 进行调整。
为什么标准的置信区间 (confidence intervals) 不适用于 Synthetic Control Method,如何在该方法中评估因果效应的统计显著性?
答案:在 SCM 中,估计受到与捐赠单位权重匹配过程和样本有限性有关的 inferential uncertainty 的影响,这违反了经典频率统计对观测独立性的假设。正确的方法是 permutation test (placebo test),将相同的 SCM 算法应用于来自池中的每个捐赠单位(假装他们接受了处理),创建一种经验性 placebo 效应的分布。如果处理单位的 post/pre-RMSPE 比率超过 placebo 分布的第 95 百分位数,则该效应在 5% 的水平上被视为统计显著,正如 Abadie、Diamond 和 Hainmueller(2010, 2015)工作中所形式化的那样。
如何区分运费门槛变化的效应与质量流量或竞争活动的同时变化在使用 Causal Impact 或 Synthetic Control 时?
答案:在模型中包括不受干预影响的 covariates (未处理的混杂因素)但与目标指标相关的变量是至关重要的——例如,竞争对手网站的访客量(通过 SimilarWeb 或面板数据)、所在地区电子商务的整体市场规模,或有机流量的 CTR。在基于 CausalImpact 的贝叶斯结构 BSTS 中,这些变量作为回归因子进入状态空间模型,以隔离共同冲击。在干预前,还必须检验预测变量与结果之间的 Granger causality,并使用 placebo-in-time 测试,通过将“干预”日期移动到历史时期来检查不存在假阳性。