问题回答

历史背景。 共同浏览（co-browsing）概念来自于B2B领域（客户支持），然后移植到社交商务领域（例如，移动应用中的“共同购物”功能）。传统分析长久以来基于SUTVA（稳定单元处理值假设）的假设，该假设认为用户之间是独立的。然而社交功能破坏了这一假设，因为一个用户的处理影响其网络中其他人的行为，这使得经典A/B测试在方法论上变得不再正确。

问题陈述。 标准平均比较（difference-in-means）由于干扰（interference）给予了偏差的评估：控制组中的用户因来自测试组的朋友的邀请而改变行为，导致溢出效应。社交活动的自我选择扭曲了协变量的分布，而逐步推出（staggered adoption）引入了时间混杂变量，比如季节性和新奇效应，这些因素与群体的接入时间相关。

详细解决方案。 需要在社交关系图的层面应用集群随机化（cluster randomized trial），利用社区检测算法（Louvain或Leiden）创建集群，以最大限度地减少它们之间的连通性。如果无法完全随机化，则使用逐步差异的差异法（staggered DiD），通过Callaway-Sant’Anna或Sun-Abraham等方法调整异质性效应，正确处理早期群体的负权重。为了隔离直接影响与网络效应，应用曝光建模（exposure mapping）：确定控制组中“感染”程度作为测试中的朋友比例，并将其作为协变量纳入回归，或使用2SLS（双阶段最小二乘法）和工具变量（如根据地理集群的功能可用性作为IV用于实际使用）。对于转化时间的分析，可以使用带有脆弱性效应的Cox模型（shared frailty model），考虑社交组内的风险集群化。

生活中的案例

问题描述。 一个市场平台启动了“共同购物”功能，允许两个用户同时浏览目录并实时编辑共享购物车。针对10%的用户群体进行的试点显示转化率增长了8%，但团队怀疑评估存在偏高：控制组中的用户收到了来自测试组朋友的邀请，这造成了组间的交叉影响。此外，使用该功能的用户主要是社交关系已建立的人（因参与度自我选择）。

选项1：简单的“前/后”比较适用于适配用户群体。 这种方法比较使用co-browsing的用户与其历史数据或类似的未使用该功能的用户的指标。优点显而易见：计算耗时数分钟，易于商家解释，不需要复杂的实验基础设施。然而缺点也很致命：该方法完全忽略季节性和成熟效应，并且受到自我选择偏差的影响，因为社交活跃的用户本身就有更高的基础转化率。

选项2：意向治疗（Intent-to-Treat, ITT）分析与按钮可用性的随机化。 在此我们随机向不同的群体提供邀请朋友的机会，不论他们是否会利用此机会，并比较最终的指标。优点包括维护分配的统计随机性和可以评估政策推出的整体效果，包括网络外部性。缺点则与效果的稀释有关，因为许多人可能获得权限但不使用该功能，这需要增加3-4倍的样本量。此外，ITT并未解答真实用户的效益问题（TOT）。

选项3：根据朋友数量的截距回归不连续设计（RDD）。 该方法使用一个明显的截距（例如5个朋友）来激活功能，在截距点周围创建准实验。优点在于在截距附近的分配局部随机性，无需对整个受众进行完全随机化。然而也存在显著缺点：效果仅对“边缘”用户适用，可能存在操控（虚假朋友的增加），该方法无法解决在不同截距两侧的用户间的交叉影响问题，如果他们存在联系。

选定的解决方案和理由。 选择了具有集群随机化的选项2：分析师构建了社交关系图，应用Louvain算法以识别稠密社区，并在社区级别而非用户级别进行随机化访问。这最小化了测试组与控制组之间的交叉影响。为评估使用了频率暴露模型：为每个用户计算在测试集群中的朋友比例（溢出强度），作为回归变量。这使得能够分开功能的直接效果和通过社交证明的间接影响。

最终结果。 真实的直接效果（TOT）为转化率增加+3.2%（相较于粗估计的8%）。然而，在控制组中发现了显著的正向溢出效应（+1.8%），这是由于邀请的社交影响。政策的整体效果（ITT）为+2.1%。如果不考虑网络效应，团队可能会低估该功能的价值，将项目视为“效率不足”，而考虑溢出效应则使该功能在4个月内回本。

候选人常常忽略的事项

1. 为什么标准A/B测试在社交功能中给出偏差评估？ 标准测试假设SUTVA：对一个用户的影响不影响其他用户。在共同浏览中，这一假设被破坏：控制用户因从测试用户那里收到邀请而改变行为（溢出），造成干扰偏差。ATE（平均处理效应）的评估成为直接和间接效应的加权混合，往往趋向于零。解决方案：使用集群随机化（在网络集群级别随机化）或逆概率加权方法调整网络结构。

2. 如何将直接效应、溢出效应和总效应在统计上分开？ 候选人混淆了ITT（意向治疗）和TOT（对接受者的治疗）：ITT评估功能为整个群体提供的效果，包括那些未使用该功能的人，而TOT则隔离真实用户的效果。要分开这些效应，应采用原则性分层（Principal Stratification）：按用户的合规类型（遵循者、始终接受者）对用户分类并评估CACE（遵循者的平均因果效应）。溢出效应通过曝光建模进行评估，其中间接影响的强度以测试中联系的比例进行推估。总效应是直接和间接效应在暴露分布上的加权总和。

3. 为什么标准的DiD（差异中的差异）在逐步推出时不准确？ 在逐步实施过程中，早期群体为后期群体提供控制，但后期群体从未为早期群体提供控制，从而造成在异质性效应下的负权重问题。在这种设计下，经典的双周期DiD给出的评估是偏差的，因为它混合了不同周期的效应并给出错误的权重。应使用Callaway-Sant’Anna或Sun-Abraham估计器，仅将never-treated或not-yet-treated的观察作为控制。另一种选择是为每个群体单独使用合成控制方法，建立在never-treated群体的捐赠池上。

如何评估实时共同浏览功能（co-browsing）对转化率和平均消费的因果影响，如果实施是分阶段进行的，用户之间存在网络效应（测试组与控制组之间的交叉影响），而功能的接受与平台内现有的社交关系相关呢？

问题回答

生活中的案例

候选人常常忽略的事项