问题回答

历史上，外卖服务从“60分钟内交付”演变为具有精确时间窗的超本地物流。这一转变带来了方法论问题：最初高效的餐厅（准备时间短，靠近高需求区域）在第一波接入中自我选择，而问题餐厅则在后期接入或完全不接入。直接比较实施前后的转化率会导致对效果的高估，因为这忽略了早期采用者与滞后者之间的系统性差异。

这一问题因地理集群化而加剧：市中心需求高且稳定的餐厅通常比需求波动大的边缘餐厅更早获得这一功能。季节性波动（例如，春节或夏季低迷）进一步扭曲观察到的趋势，使得使用简单的组间均值差异变得不可能。

为了隔离真实效果，有必要应用结合差异中的差异法（Difference-in-Differences, DiD）与固定效应的模型，并辅以倾向评分匹配（Propensity Score Matching, PSM）来消除自我选择的偏差。在第一阶段，基于协变量（历史交付时间、评分、半径内的骑手密度）构建接入精确时间窗的概率模型，之后为每个处理的餐厅匹配一个还未接入的对照“双胞胎”。然后评估这些配对之间的转化率动态双重差异，能够控制不可观察的恒定特征（例如，厨房质量）。为考虑空间相关性，采用地理单元水平上的标准误差聚类，或使用合成控制法（Synthetic Control Method），创建未接入餐厅的加权组合，以模拟处理单位的反事实场景。

实际情况

在最大型的全国外卖平台中，计划为高端餐厅实施“在指定15分钟内交付”的功能。试点项目在三个城市启动，最先接入的15%合作伙伴具有历史上的较低准备时间和较高的评分。一个月后，分析师记录到接入餐厅的转化率增长了22%，但业务方对此持怀疑态度，不确定这是功能的效果，还是纯粹反映了这些餐厅原本的高质量。

考虑了三种评估方式。第一种简单比较接入前后平均消费和转化的方案立即被弃用：因为它忽略了市场的趋势性增长和节假日的季节性需求复苏，导致了+22%的高估，同时并未考虑到这些餐厅即使没有新功能也在以8-10%的速度快于市场增长。

第二种方案，即对比体验了精确交付时间的用户与体验标准“40-50分钟”的用户进行的队列分析，也是问题突出：高端餐厅所在地区的用户原本就有更高的平均消费和忠诚度，从而导致了选择偏差（selection bias）。试图按照地理剃度样本会损失40%的数据，从而降低了测试的效力。

第三种方案被选定，包括基于50家具有类似销售历史、地理位置和季节性的未接入“供体”餐厅，为每个接入餐厅构建合成控制。这时对这些加权合成组应用DiD方法，并额外控制天气条件（影响交付需求）和星期几。这使得能够隔离出转化率的净效果为+9.3%，重复订单的频率为+14%，同时发现了异质性：效果仅在准备时间少于12分钟的餐厅中显著，而对于准备慢的厨房，精确交付时间并未带来统计学上显著的增长，因为瓶颈不在于物流，而在于生产。

候选人常常忽略的事项

如何在DiD中验证平行趋势假设（parallel trends）是否成立，当早期采用者与对照组系统性不同？

候选人常常宣称使用DiD而未验证关键假设：在实施前，处理组与对照组的指标趋势应平行。在自我选择的情况下，该假设通常会被违反。需要进行事件研究（动态DiD），利用实施前几周的领先指标（lead indicators）。如果这些指标的系数在统计上显著且不为零，趋势则不平行，需要使用**增强的DiD（Augmented DiD）或增加时间趋势的交互作用（interactions with time trends）来控制差异化趋势。此外，可以使用变化中的变化（Change-in-Changes）**模型，这对于平行性破坏的敏感度较低，但要求结果分布单调。

如何考虑空间溢出效应（spillover effects），当一个地区的精确交付实施影响到邻近区域非功能用户的行为？

分析师经常忽视，用户可能在区域之间迁移或因朋友了解该功能而改变偏好。这会导致对照组中的正偏差（SUTVA 违反）。需构建空间DiD，在模型中包括在1-2公里半径内接入餐厅的空间滞后（spatial lags）。如果空间滞后项的系数显著，则存在网络效应。此时，经典的DiD评估将低估效应（attenuation bias），需要使用两阶段最小二乘法（Two-Stage Least Squares, 2SLS），搭建对行政限制水平的工具（例如，特定仓库对分配的准备情况的技术准备），影响餐厅的接入，但与邻近区域的需求无直接相关性。

为什么不能只使用简单的倾向评分匹配而不后续DiD，而是在评估长期效应（dynamic treatment effects）时会出现哪些错误？

初学者常常将PSM作为独立方法使用，在t0时生成可比组，但随后用t1的简单均值进行比较。这忽略了数据的时间结构和潜在的时间冲击。正确的方法是PSM-DiD，在这种方法中，仅将匹配用于选择对照组，效果的评估通过差异的差异进行。此外，候选人也忽略了动态效应的问题：精确交付的效果可能随着时间的推移而增强（用户习惯于该功能）或反之消失（新颖性效应）。为此，需构建有多个实施周期的错位DiD，并使用现代改正方法消除时间上的异质效应造成的偏差（例如，Callaway & Sant'Anna或Sun & Abraham方法，用于正确聚合群体效应），因为常规的双周期DiD在这种情况下会给出对处理后的平均效应的偏差估计（ATT）。

在外卖服务中，如何评估“精确交付时间窗”系统的实施对转化率和订单频率的因果影响，考虑到实施是波动进行的，合作餐厅之间存在自我选择（高效餐厅首先接入），并且指标受到季节性和地理需求异质性的影响？