问题的回答

历史上，客户支持经历了从人力操作员的独占到通过基于规则的聊天机器人自动化的发展，然而，基于规则的聊天机器人常常由于固定的场景让用户感到沮丧。现代阶段的特点是引入 大型语言模型 (LLM) 类型的 GPT-4 或 Claude，这些模型能够进行上下文对话并在没有严格编程逻辑的情况下解决复杂问题。评估此类系统有效性的问题变得更加复杂，因为传统的度量标准（解决时间，成本-每-门票）与服务质量之间的关联是非线性的：成本下降可能导致 CSAT 下降，而自动化的提高则可能导致在不成功的升级中增加用户挫败感。

任务的设定要求隔离 AI 助手的纯粹效果，剔除季节性因素（节日促销改变了咨询类型），新颖性效应（用户在最初几周对机器人进行更多实验）和自我选择的内生性（简单请求交给机器人，复杂请求直接交给人类）。经典随机化不可行，因为在高峰时段关闭控制组的支持会带来伦理和商务风险，而聊天从机器人升级到人类会污染纯粹效果。

最佳解决方案是使用 回归不连续设计 (RDD) 在期望等待队列长度的边界。当等待用户的数量超过阈值 N（例如，5 人）时，系统会自动建议 AI 助手作为等待操作员的替代。这创造了一个自然实验：阈值两侧的用户在观察到和未观察到的特征上统计上是相同的。为了考虑学习效应，使用 差异中的差异 方法和代理组——例如，夜间用户（机器人始终工作），与实施前相同时间窗口进行比较。为了分析效应的异质性（不同请求类别的不同影响），使用 因果森林，能够构建条件平均处理效应 (CATE).

生活中的例子

在一个大型电子商务项目中，每月有 50 万个咨询，团队决定引入 LLM 助手来处理诸如“我的订单在哪里”和“更改送货地址”的请求。问题在于试点与节日季节重叠，这时候流量增加了三倍，而历史数据表明，由于物流延误，无论支持的质量如何，CSAT 都会在此季节下降。

第一个考虑的选项是直接比较实施前一个月和实施后一个月的指标。优点：实现简单，不需要基础设施的更改。缺点：完全缺乏对季节性的控制，无法分离 AI 效果与整体流量增长和产品变化（节日商品具有不同的退货特征）的影响。这个方法被立即拒绝。

第二种选择是地理分裂的 A/B 测试，在一些地区启用机器人，在其他地区则不启用。优点：干净的随机化，简单的解释。缺点：网络效应（用户可能住在 A 区域，但为朋友在 B 区域下单），不同的物流基础设施影响咨询的性质，而在高峰时段，一个区域的过载可能会导致客户流失的风险。决定寻找替代方案。

选择的解决方案是 RDD，阈值为 3 人。当队列超过 3 个等待用户时，系统会建议 AI 助手，同时保留等待人工操作员的可能性。为了纠正升级效果，使用 意图治疗 (ITT) 分析：比较所有被提议使用机器人的用户，无论其是否实际使用，这避免了由于技术素养的自我选择偏差。额外构建了一个来自类似咨询类别的历史数据的 合成对照（例如，复杂索赔），以过滤掉季节波动。

最终结果：能够测量到 AI 助手将简单请求的平均解决时间从 8 分钟降低到 2 分钟，而 CSAT 未出现统计学显著下降（置信区间内差异为 0.1 分）。但发现对于“退货”部分有负面效应：从机器人升级到人类时，CSAT 比直接向操作员咨询低 15%，这导致为该类请求创建了一个单独的快速通道。由于降低了一线的负担，运营成本减少了 30%。

候选人常常忽视的内容

如何正确处理升级的内生性，当用户因对机器人失望而转向人工时，他们的沮丧程度会提高？

候选人常常建议仅比较与机器人的成功对话与与人类的对话，而忽视了生存偏倚。正确的方法是通过工具变量分析 局部平均处理效应 (LATE)：利用机器人工作中的随机技术故障（当机器人暂时不可用）作为工具来估计当有这种可能性时，原本会被机器人服务的用户的效果。这使得能够将技术效果与请求类型的选择效应分离开来。

为什么机器人的标准度量，如准确率 (F1-score, BLEU)，对因果影响的产品评估不正确？

分析师经常专注于生成回答的质量，而忽视了产品目标是改变业务指标，而不是技术的完美性。LLM 可能会生成语法正确但不相关的回答，或者与之相反——提供技术上不准确但能解决用户问题的指令（例如，“尝试重新启动应用程序”）。正确的方法是评估用户会话级别的提升，利用 倾向评分匹配 来匹配请求的复杂性，而不是文本生成的准确性。

如何考虑在不断对新数据进行再训练的情况下的效果非平稳性？

候选人往往忽视 LLM 在生产中经历持续学习：模型每天在带标签的对话中进行再训练，因此第 1 周的效果与第 4 周的效果不可比。需要使用 时间变动处理效应 模型，采用滚动窗口评估或 贝叶斯结构时间序列 (BSTS) 进行动态基线调整。忽视这一点会导致低估长期效果，当机器人在产品细节上“学习”时，或高估新颖性效果。