电子商务从冲动消费向计划消费的演变始于2008年亚马逊订阅与节省的引入,当时零售商意识到,通过降低重复购买的认知负担来保持客户比通过激进的折扣更有效。到2015年,出现了具有机器学习补货预测的智能清单,这些清单分析牛奶或尿布购买间隔。然而,早期的效果评估面临一个根本性问题:创建清单的用户在计划和忠诚度上本身就表现出更高的纪律性,这使得与“冷”受众之间的直接比较在因果关系上并不准确。
关键难点在于自我选择的内生性:清单的创建不是随机干预,而是用户有意识地意图优化其支出。这导致了样本偏倚,其中“治疗”(清单的存在)与未观察到的特征(组织能力、家庭规模、消费规律性)相关。此外,时间动态也干扰了结果:对于易腐产品的清单效果(每周补货)与季节性商品(圣诞装饰品)的效果不同,而ML推荐可能会导致自发添加到购物车的用户减少,从而扭曲整体收入分析。
最优方案是结合差异中的差异(DiD)、倾向得分匹配(PSM)和固定效应以控制季节性。在第一阶段,使用因果森林评估按商品类别的效应异质性,识别出清单确实增加频率的细分市场,而不仅仅是固化现有行为。为了隔离因果关系,采用回归不连续设计(RDD)基于以前订单数量的阈值,其中“保存清单”功能变得可用(例如,在第三次订单后),创造出局部随机化的准实验条件。作为替代,在逐步地区实施中,使用合成控制方法构建加权组合的控制地区,模拟测试地区在引入之前的动态。为考虑到自我侵蚀,分析不仅包括清单用户的指标,还包括转移比率——自发会话的订单流向计划订单的比例。
背景: 超市“美食随时”启动了“智能冰箱”功能—基于AI分析购买历史和保质期的自动补货清单。目标是通过降低家居商品和食品重复购买时的摩擦,提升订单频率20%。
解决方案1:直接比较有清单和无清单用户(前后对比)
分析团队提出比较1万名在第一周创建了清单的用户的平均消费额和订单频率与没有清单的随机用户的对照组。该方法的优点在于实现简单、结果迅速。然而,缺点是样本的极端偏倚:创建清单的家庭往往有孩子,每周下单,而对照组则包含随机的偶尔访问者。观察到的35%的增长是自我选择的伪影,而不是功能的效果。
解决方案2:强制性A/B测试与按钮可见性
产品团队建议将50%的用户的“创建清单”按钮显示为亮绿色,而另50%的则为灰色,隐藏在菜单中,以创造渗透率的差异。优点是能够评估功能可用性的净效应。缺点是道德和用户体验风险:向忠诚用户隐藏有用功能降低了他们的交互体验,而创建清单的低转化率(2%对比15%)导致统计测试的能力不足,无法评估长期习惯的影响。
解决方案3:基于活动阈值的回归不连续设计(所选解决方案)
分析师选择了断点回归法,使用60天内3次订单的阈值:达到该阈值的用户自动获得访问“智能冰箱”的权限,而只有2次下单的用户则没有。这在阈值附近创造了局部随机化的准实验条件。优点是最小化在此阈值狭窄区域内的自我选择偏倚(2次和3次订单的用户在观察到的特征上统计上没有显著差异)。缺点是结果的普遍性仅限于“边界”用户,而不是整个平台;需检查阈值周围协变量的连续性。
最终结果: 分析显示真实的订单频率增长为12%(而非初看上去的35%),并且在“家居化学品和纸制品”类别中平均消费额增长8%。对于易腐产品,因保质期限制,效果统计上并不显著。发现30%的收入增长来自于自发购买的自我侵蚀,转为计划性购买。基于数据,公司调整了ML模型,排除了冲动类商品(如糖果、薯片)的推荐,这不仅保持了总收入的增长,也提高了用户满意度,因为“智能冰箱”不再推荐有害习惯。
为什么不能简单地通过常规的t检验或线性回归比较有清单和无清单用户的指标?
答案在于内生性和自我选择偏倚的根本问题。花时间创建结构化清单的用户与随机访问者在未观察到的特征上系统性地不同:他们的计划消费水平较高,家庭规模较大,生活日程的可预测性更强。OLS回归,即使控制了人口特征,也无法捕捉“计划文化”作为潜在变量。这导致对功能效果的过高评估,因为高指标不是由清单本身解释,而是由用户最初的高参与度导致。为了进行正确评估,必须使用工具变量(IV)、准实验设计(RDD,DiD)或匹配的双重差异方法(PSM-DiD),这些方法可以隔离不依赖于个人偏好的变化。
如何在分析强度和广度的影响范围时,区分“计划”用户类型的效应与清单功能的真实效应?
必须区分强度边际(在已经计划购买的用户中增加频率)和广度边际(吸引冲动消费者进行计划)。为此应用因果森林或异质处理效应分析,以评估在子组中的效应。关键见解是使用有序逻辑回归以及与创建清单数量相关的虚拟变量。如果功能有效,我们将看到从0个清单到1个清单的指标显著增长(广度边际),但从5个清单到6个清单的变化不显著(强度边际,主要由自我选择主导)。分析事件时间(到下一个订单的时间)通过Cox比例风险模型,控制基础流失风险,有助于区分“自然”规律和系统的“人为”提示。
如何正确考虑计划性购买通过清单与自发添加到购物车之间的自我侵蚀,当清单可能只是将收入从一个渠道转移到另一个渠道而没有增加总GMV时?
候选人常常忽视分析转移比率和购物篮组成的必要性。需要构建三重差异模型(DiD加上额外维度),比较引入前后有清单用户与控制组的购物篮结构变化。重要的是跟踪“钱包份额”度量—传统上自发购买(糖果、零食)占总消费额的比例。如果有清单用户中冲动类别的份额下降,而在控制组中上升,这就是自我侵蚀的信号。为定量评估,使用几乎理想需求系统(AIDS)或鹿特丹模型,评估购买渠道间的替代弹性。没有这个分析,公司可能错误地投资于清单功能的发展,尽管在“清单”用户的指标上看似增长,但整体业务层面却没有增量效应。