答案

历史背景表明，语音接口已从简单的指令系统发展到基于变换器的完整NLP解决方案，但其评估方法因技术采纳的异质性而非平凡。问题在于，功能仅在具有特定技术规格的设备上可用，这导致系统性选择偏差，而地理推广扰乱了随机分配原则。为了隔离真正的效果，有必要使用差异中的差异方法与地区和时间的固定效应组合，并结合合成控制法，用于具有独特语言模式的地区，以及使用工具变量来修正功能使用的内生性。

生活中的例子

在一个电子产品市场中，首先在莫斯科和圣彼得堡启动了语音搜索，计划逐步扩展到其他地区。问题在于，该功能仅在iPhone XS及更新版本的iOS 15+设备上以及支持设备内ML的Android旗舰机型上工作，这造成了收入和技术认知上的偏差。此外，明显的季节性问题——推出正好发生在假日需求增长时，从而扭曲了“前后”直接比较。团队考虑了三种评估方法。

第一种选择是简单比较具有语音搜索和不具有语音搜索的地区在相同时间段内的平均指标。优点——实现简单，结果获取快速。缺点——对地区之间系统性差异的关键忽视（莫斯科历史上显示出更高的转化率）以及无法将功能效果与季节性趋势分离。由于存在高风险的假阳性结论，此选项被拒绝。

第二种选择使用倾向得分匹配创建没有语音搜索但设备和行为特点相似的用户控制组。优点——试图消除观察到的特征偏差。缺点——无法考虑无法观察到的因素（例如，技术早期采用的倾向），这些因素同时影响现代设备的拥有和购买意愿。此外，匹配在拥有固定效应的地区时效率降低。

第三种选择将地区级的差异中的差异与用户级的工具变量结合。在分析中使用技术可用性标志作为工具（依赖于智能手机型号和操作系统版本，但与用户的偏好没有直接关系）来预测通过两阶段最小二乘法的实际使用。对于具有独特方言的地区（喀山，新西伯利亚），应用合成控制法，根据之前的转化趋势加权控制地区。优点——将可用性效果与用户自我选择效果分开并控制地区趋势。缺点——解释局部平均处理效应（LATE）的复杂性以及对平行趋势假设的要求。此选项被选为最强健。

分析结果显示，语音搜索在兼容设备用户中带来了18%的浏览深度增量，但未发现对购买转化率的统计显著影响。更重要的是，在技术术语类别（计算机配件）中，由于识别特定词汇的错误，转化率有所下降。这使得团队能够调整路线图：在扩展之前改善技术术语的识别，并将营销集中在“简单”货物（家电）类别上，在这些类别中，语音搜索表现出最佳结果。

候选人常常忽视的问题

如何在评估语音接口时将短期的新颖性效果（novelty effect）与持久的行为变化区分开来？

候选人常常忽视适应的时间动态。需要根据功能首次使用的日期进行队列分析，并在3-4周内跟踪保留使用情况。如果使用强度呈现出指数衰减曲线，并在基本水平之前下降，则效果是新颖的。为进行正确评估，只应使用固定的时期（steady state）或根据队列生命周期加权观察。还需要检查使用频率的效果异质性——强力用户可能表现出持续的行为，而偶然用户则受新颖性效果的影响。

当用户激活语音搜索但由于识别错误未获得结果时，如何正确处理数据中的零值（zeroes）？

由于存在混合分布，标准线性回归或逻辑模型在这里是不正确的：大量零（失败尝试）与连续分布的正结果。需要应用两部分模型（hurdle model）或零膨胀负二项式（Zero-Inflated Negative Binomial）来处理计数指标（浏览次数）。模型的第一部分评估成功搜索的概率（选择方程），第二部分评估在成功条件下的使用强度（结果方程）。忽略这种结构会导致效果低估，因为失败尝试被错误分类为缺乏兴趣，而不是技术障碍。

为什么在这种情况下不能使用简单的意向处理（Intent-to-Treat，ITT）将所有用户在实施地区与对照地区进行比较？

ITT分析将功能的可用性效果与实际使用效果混淆，模糊了评估。如果只有10%的用户拥有兼容设备，且只有20%的人尝试该功能，即使真实用户的效率为100%，ITT也会显示出2%的效果。对于商业决策而言，**为处理的处理效应（Treatment-on-Treated，TOT）或局部平均处理效果（Local Average Treatment Effect，LATE）**是至关重要的，需通过工具变量获取。候选人忽视合规性（compliance）在这里不是100%，并且需要按应遵守比例反向缩放ITT评估，以获取真正的功能效果。