业务分析产品分析师

如何评估实时共同浏览功能(co-browsing)对转化率和平均消费的因果影响,如果实施是分阶段进行的,用户之间存在网络效应(测试组与控制组之间的交叉影响),而功能的接受与平台内现有的社交关系相关呢?

用 Hintsage AI 助手通过面试

问题回答

历史背景。 共同浏览(co-browsing)概念来自于B2B领域(客户支持),然后移植到社交商务领域(例如,移动应用中的“共同购物”功能)。传统分析长久以来基于SUTVA(稳定单元处理值假设)的假设,该假设认为用户之间是独立的。然而社交功能破坏了这一假设,因为一个用户的处理影响其网络中其他人的行为,这使得经典A/B测试在方法论上变得不再正确。

问题陈述。 标准平均比较(difference-in-means)由于干扰(interference)给予了偏差的评估:控制组中的用户因来自测试组的朋友的邀请而改变行为,导致溢出效应。社交活动的自我选择扭曲了协变量的分布,而逐步推出(staggered adoption)引入了时间混杂变量,比如季节性和新奇效应,这些因素与群体的接入时间相关。

详细解决方案。 需要在社交关系图的层面应用集群随机化(cluster randomized trial),利用社区检测算法(LouvainLeiden)创建集群,以最大限度地减少它们之间的连通性。如果无法完全随机化,则使用逐步差异的差异法(staggered DiD),通过Callaway-Sant’AnnaSun-Abraham等方法调整异质性效应,正确处理早期群体的负权重。为了隔离直接影响与网络效应,应用曝光建模(exposure mapping):确定控制组中“感染”程度作为测试中的朋友比例,并将其作为协变量纳入回归,或使用2SLS(双阶段最小二乘法)和工具变量(如根据地理集群的功能可用性作为IV用于实际使用)。对于转化时间的分析,可以使用带有脆弱性效应的Cox模型(shared frailty model),考虑社交组内的风险集群化。

生活中的案例

问题描述。 一个市场平台启动了“共同购物”功能,允许两个用户同时浏览目录并实时编辑共享购物车。针对10%的用户群体进行的试点显示转化率增长了8%,但团队怀疑评估存在偏高:控制组中的用户收到了来自测试组朋友的邀请,这造成了组间的交叉影响。此外,使用该功能的用户主要是社交关系已建立的人(因参与度自我选择)。

选项1:简单的“前/后”比较适用于适配用户群体。 这种方法比较使用co-browsing的用户与其历史数据或类似的未使用该功能的用户的指标。优点显而易见:计算耗时数分钟,易于商家解释,不需要复杂的实验基础设施。然而缺点也很致命:该方法完全忽略季节性和成熟效应,并且受到自我选择偏差的影响,因为社交活跃的用户本身就有更高的基础转化率。

选项2:意向治疗(Intent-to-Treat, ITT)分析与按钮可用性的随机化。 在此我们随机向不同的群体提供邀请朋友的机会,不论他们是否会利用此机会,并比较最终的指标。优点包括维护分配的统计随机性和可以评估政策推出的整体效果,包括网络外部性。缺点则与效果的稀释有关,因为许多人可能获得权限但不使用该功能,这需要增加3-4倍的样本量。此外,ITT并未解答真实用户的效益问题(TOT)。

选项3:根据朋友数量的截距回归不连续设计(RDD)。 该方法使用一个明显的截距(例如5个朋友)来激活功能,在截距点周围创建准实验。优点在于在截距附近的分配局部随机性,无需对整个受众进行完全随机化。然而也存在显著缺点:效果仅对“边缘”用户适用,可能存在操控(虚假朋友的增加),该方法无法解决在不同截距两侧的用户间的交叉影响问题,如果他们存在联系。

选定的解决方案和理由。 选择了具有集群随机化的选项2:分析师构建了社交关系图,应用Louvain算法以识别稠密社区,并在社区级别而非用户级别进行随机化访问。这最小化了测试组与控制组之间的交叉影响。为评估使用了频率暴露模型:为每个用户计算在测试集群中的朋友比例(溢出强度),作为回归变量。这使得能够分开功能的直接效果和通过社交证明的间接影响。

最终结果。 真实的直接效果(TOT)为转化率增加+3.2%(相较于粗估计的8%)。然而,在控制组中发现了显著的正向溢出效应(+1.8%),这是由于邀请的社交影响。政策的整体效果(ITT)为+2.1%。如果不考虑网络效应,团队可能会低估该功能的价值,将项目视为“效率不足”,而考虑溢出效应则使该功能在4个月内回本。

候选人常常忽略的事项

1. 为什么标准A/B测试在社交功能中给出偏差评估? 标准测试假设SUTVA:对一个用户的影响不影响其他用户。在共同浏览中,这一假设被破坏:控制用户因从测试用户那里收到邀请而改变行为(溢出),造成干扰偏差。ATE(平均处理效应)的评估成为直接和间接效应的加权混合,往往趋向于零。解决方案:使用集群随机化(在网络集群级别随机化)或逆概率加权方法调整网络结构。

2. 如何将直接效应、溢出效应和总效应在统计上分开? 候选人混淆了ITT(意向治疗)和TOT(对接受者的治疗):ITT评估功能为整个群体提供的效果,包括那些未使用该功能的人,而TOT则隔离真实用户的效果。要分开这些效应,应采用原则性分层(Principal Stratification):按用户的合规类型(遵循者、始终接受者)对用户分类并评估CACE(遵循者的平均因果效应)。溢出效应通过曝光建模进行评估,其中间接影响的强度以测试中联系的比例进行推估。总效应是直接和间接效应在暴露分布上的加权总和。

3. 为什么标准的DiD(差异中的差异)在逐步推出时不准确? 在逐步实施过程中,早期群体为后期群体提供控制,但后期群体从未为早期群体提供控制,从而造成在异质性效应下的负权重问题。在这种设计下,经典的双周期DiD给出的评估是偏差的,因为它混合了不同周期的效应并给出错误的权重。应使用Callaway-Sant’AnnaSun-Abraham估计器,仅将never-treated或not-yet-treated的观察作为控制。另一种选择是为每个群体单独使用合成控制方法,建立在never-treated群体的捐赠池上。