回答

从2010年代，无限滚动的演变，由Facebook和Twitter普及，大幅改变了内容消费模式。早期的产品分析师依赖于简单的“前后”比较，而没有考虑季节性趋势和用户自我选择。随着跨平台生态系统的发展，问题变得更加复杂，用户在不同版本的界面之间无缝迁移。

需要隔离引入无限滚动对滚动深度和广告货币化指标的因果效应。关键的混淆因素包括渐进式的地理发布，导致了分阶段的处理时间，以及用户之间的跨设备迁移，造成了组之间的干扰。简单的区域比较是无效的，因为受众行为的结构差异。单个会话级别的分析忽视了设备之间的持续影响，扭曲了留存的评估。

我们应用分阶段的双重差分方法，通过Callaway-Sant'Anna或Sun-Abraham的估计量进行异质性效应的校正，这些方法能够正确处理分阶段的引入。为了应对跨设备污染，我们将标准误差按用户级别进行聚类，并加入用户固定效应，将特性实际使用视为处理，并把地区发布计划视为工具变量（IV）。在收益分析中，我们进行中介分析以划分布局变化对广告可见性的直接影响和通过提高参与度的间接影响。我们使用CausalImpact在发布前的数据上进行平行趋势的验证，以构建合成控制。

实际情况

在一款拥有500万月活跃用户的媒体应用中，计划将经典的分页替换为无限滚动，以增加在应用上的时间。测量问题在于渐进发布：首先是莫斯科和圣彼得堡，然后一个月后推广到其他地区。此外，用户在移动应用（新的功能）和平板（旧版本）之间积极切换，导致组之间的强烈干扰。

第一个选项是简单比较发布前后同一区域的指标。优点：计算速度快，数据要求最低。缺点：无法将特性效应与新闻周期的季节性和基础自然增长分开；获得的数字由于圣诞流量偏移了+40%。

第二个选项是纯土地区域A/B测试，比较莫斯科与其他地区。优点：在切片时明确分组。缺点：行为上的结构差异（莫斯科人阅读更多商业新闻），再加上用户在区域和设备之间的迁移导致对照组的流失高达15%，使得评估无效。

最终选择了带有用户固定效应和按区域聚类误差的分阶段DiD。我们使用用户首次进入应用并使用新版本的时刻作为处理开始，区域发布计划作为IV评估的工具。这使我们能够考虑设备之间的交叉污染作为处理和对照的部分对应，确保无偏的评估。

最终结果：滚动深度的净增长为+22%（而在天真的评估中为+35%），但RPM因广告位可见性下降而下降了8%。决定引入“加载更多”的混合模式，每10个卡片强制插入一个广告块。这使得浏览深度增加了+18%，同时保持了基础水平的货币化。

候选人常常忽视的点

如何在地理发布时正确处理错误的空间相关性？

候选人常常仅在用户级别聚类标准误，忽视区域性冲击（天气、地方新闻）会使地理内部的错误相关。需要使用双重聚类（用户+区域）或Conley空间标准误差，如果有精确坐标的话。不这样做，置信区间将过于狭窄，这会在效应显著性检验时导致假阳性。

如何应对应用更新速度的内生性问题，如果活跃用户比非活跃用户更早获得无限滚动？

这是分阶段采用中的自我选择问题。普通的意图治疗（ITT）按区域能给出保守的估算，但接受治疗的治疗（TOT）需要工具。使用地区/时间的指定作为IV（工具变量）来进行特性实际使用，或者使用基于历史活动的倾向得分的逆概率加权（IPW）。否则评估将偏向于基础参与度高的活动用户。

如何在收益分析中将UX改进的效果与广告显示可见性的技术变化分开？

需要进行中介分析或两阶段最小二乘法（2SLS）。第一阶段评估无限滚动对滚动深度的影响（纯粹的UX），第二阶段评估深度对广告曝光的影响。布局的直接影响（屏幕上广告更少）通过因果计算或虚拟广告位的人工控制单独评估。没有这个划分可能会错误地拒绝成功的特性，因其似乎的货币化下降，实际上是由布局变化引起的。

你如何隔离在内容流中将分页替换为无限滚动（infinite scroll）对消费深度和货币化的因果效应，同时考虑到引入是在不同地区逐步进行的，用户在不同设备之间迁移，从而导致测试组和对照组之间的干扰？