业务分析产品分析师 / Product Analyst

在实施实时用户行为通知系统(社会证明)对购物车添加转化率的因果效果评估时,应该采用什么方法?由于实施是逐渐在不同的时区进行的,效果还依赖于当前在线观众的密度(网络效应),而用户在设备之间迁移,从而造成测试组和对照组之间的污染。

用 Hintsage AI 助手通过面试

问题的回答

历史背景:社会证明的概念追溯至1980年代罗伯特·查尔迪尼的研究,但在数字产品中,实时通知的广泛应用始于2015年,伴随着WebSocket连接和类似Kafka的流平台的发展。由于网络效应(SUTVA违规),经典的A/B测试方法往往会给出偏差的估计,因为一个用户的结果依赖于其他在线用户的存在。早期的评估尝试简单地对比了带有可见小部件和没有的会话,这导致了样本的严重内生性。

问题:在评估效果时,必须将干预的真实影响与观众密度的内生变量分开。如果仅仅比较有通知和没有通知的会话,我们会得到选择偏差:在高峰时段,转化率本身就更高,此时系统生成更多通知。此外,用户在移动应用和桌面之间的迁移会造成污染,模糊了处理组和对照组之间的界限。

解决方案:最佳的做法是采用差异中的差异(Difference-in-Differences, DiD)方法,并根据时区和商品类别进行双向固定效应的补充,同时使用工具变量(IV-approach)来处理观众密度。作为工具,使用天气条件的外生冲击或区域性的互联网故障,这些因素影响在线活动,但与购买手机的意愿没有直接关系。或者,可以采用合成控制法,其中对照组由没有实施该功能的相似商品/地区构成,按历史转化率和季节性进行加权。

实际案例

在一家电子商务市场中,计划实施“小部件‘现在有15人正在查看该商品’”的功能,并使用来自ClickHouse的实时数据。问题在于,产品团队记录到高峰时段转化率增长18%,但无法将通知的效果与晚上自然高需求分开。此外,还观察到了“空房间效应”:在夜间,小部件显示为零或过时的数据,潜在地降低了信任度。

考虑的第一个选项是经典的A/B测试与地理细分。优点:易于实现且解释清晰。缺点:由于来自不同城市的用户看到不同的商品和基本转化率,网络效应被稀释;此外,在小城市里,当观众密度较低时,小部件显示“现在有0人查看”,这创造了负面社会证明,进一步降低了信任度。

第二个选项是基于特定地区功能启动时间的回归不连续性(Regression Discontinuity Design, RDD)。优点:在截止时有明确的因果识别,并且可以通过图形进行可视化检查。缺点:无法区分新颖效应(novelty effect)和持续效应;此外,逐步推出的时区导致处理及控制之间的界限模糊,这违反了RDD对处理概率急剧变化的关键假设。

第三个选项是使用无实时功能的商品作为对照组的准实验(DiD)。优点:通过固定效应考虑季节趋势;可以评估基于流量层次的效应异质性。缺点:需要平行趋势假设(parallel trends assumption),该假设通过事件研究的规范进行检查,包含领先和滞后。

选择了基于天气数据的DiD和工具变量的方法:地区的雨天意外地提高了在线活动(满足工具相关性),但不直接影响购买手机的意愿(排除限制)。分析显示,当SKU的在线用户密度超过30时,小部件的真实效果为转化率+9%;在较低密度下,由于显示“空白”或过时的数据,效果为负(-4%)。

基于这些结果,实施了自适应算法,在低流量时禁用社会证明。最终的结果是优化了显示规则:系统从持续展示转变为有条件展示,从而使平台的平均转化率提高了7%,并减少了“夜间”用户流失率12%。基础设施成本节省达15%,因为停止了对不活跃商品的流处理。

候选人常常忽视的内容

如何将机制的影响(intensive margin)与功能存在的整体影响(extensive margin)区分开?

候选人常常将简单的系统存在性(reduced form)评估与机制评估(讨论处理密度变化如何影响结果)混淆。正确的方法是采用两阶段最小二乘法(Two-Stage Least Squares, 2SLS),其中第一阶段使用工具(天气)预测通知的实际展示频率,第二阶段则预测基于预测频率的转化率。这使得能够将通知的纯粹效果与“人群效应”(herding behavior)区分开,后者具有相反的因果关系:高转化率吸引更多浏览,从而生成更多通知。

在分析密度和时段的效应异质性时,为什么需要对多重测试进行修正?

分析人员常常寻找最佳功能阈值,测试10、20、50个用户的效果,并选择带来最大提升的阈值。这会导致数据挖掘问题和第一类错误的膨胀。需要应用BonferroniBenjamini-Hochberg程序来处理全家庭错误率,或者在分析之前使用pre-analysis plan,在分析前确定假设。否则,“最佳”阈值可能只是数据中的随机异常。

如何通过共享库存和用户的预算限制来考虑对照组的负面溢出效应?

在市场中的社会证明存在需求转移效应:如果小部件加速了处理组商品的购买,这可能会因预算耗尽或注意力分散而减少对照组的转化率。候选人忽略了一般均衡效应。为了进行修正,需要对用户会话层级的聚合数据(aggregate treatment effects)进行评估,或使用考虑用户注意力限制的市场均衡模型(market equilibrium models)。