问题回答

历史背景

传统上，数字产品中的反欺诈工作基于严格的规则或手动审核，这导致了高运营负载和系统的静态性。随着机器学习的发展，公司开始实施实时欺诈检测SDK，为每一笔交易打分，根据欺诈概率判断。关键难点在于，任何分类器都会发生两种类型的错误：假阳性（阻止合法用户）直接降低收入，而假阴性（未能识别欺诈）会增加退款。为了优化评分阈值，企业必须衡量这两种错误之间的权衡。

问题陈述

标准的A/B测试是不可能的，因为在对照组中故意放过欺诈交易在声誉和FinCEN/PCI-DSS要求下是不可接受的。简单比较引入前后的指标会因季节性欺诈攻击和用户的自我选择（更高忠诚度的用户会更新应用程序）而失真。高欺诈风险用户的初始转化率与低风险用户不同，因此获批和被拒绝的用户之间的简单比较存在因指征混淆导致的偏差。

详细解决方案

最佳方法是围绕欺诈评分阈值（例如0.7）使用尖锐回归不连续性设计（RDD），在这一阈值附近，批准概率发生急剧变化，从1到0。我们比较得分为0.69（处理组，已批准）和0.71（对照组，被拒绝）的交易，假设在带宽窗口内的局部随机性（±0.05）。使用具有三角核的局部线性回归来估计LATE（局部平均处理效应）。为了提高精度，采用协变量调整的RDD，将预测变量（设备历史，地理位置）作为控制变量。在评估净收入时，计算增量收入：预防欺诈（预计退款）与因假阳性损失的收入之间的差额，这些假阳性通过RDD识别。

生活中的案例

在一个移动市场应用中，集成了外部供应商的欺诈检测SDK后，购买转化率从4.2%降至3.5%，同时欺诈率从2.8%降至0.4%。产品团队怀疑系统过于激进，阻止了合法的支付用户，但由于缺乏对照组，无法定量评估问题的规模。

选项A： 在引入之前和之后进行简单的转化率比较（前后分析）。优点：劳动成本最低，不需要特殊基础设施。缺点：完全忽略季节性（引入后的时期恰逢低位季节），更新应用程序时的自我选择，以及营销组合的变化（启动了一个低转化率的新渠道）。

选项B： 地理划分（城市A组启用系统，B组未启用）。优点：创建干净的对照组。缺点：由于单一的代码库和CDN缓存技术上不可行；用户在城市间迁移；欺诈特征在地区间显著不同（水平异质性）。

选项C： 在0.65的分隔阈值附近，采用回归不连续性设计处理连续的欺诈评分。优点：利用自然实验，确保局部随机性，允许隔离对“边际”交易的因果效应。缺点：需要在阈值窗口中有大量数据；评估的LATE可能与整个群体的ATE不同；对评分操纵敏感（欺诈者可以学会绕过阈值）。

选项D： 合成对照法，创建历史队列的加权组合以模拟对照组。优点：在没有物理对照组的情况下工作，考虑时间趋势。缺点：假设影响因素在时间上是稳定的；对预处理中的异常值敏感；除了通过安慰剂测试外很难验证。

选择了选项C（RDD），带宽为0.08，使用一阶多项式。分析显示，对于金额超过15,000卢布的交易，假阳性率是小额交易的两倍。基于此，设置了按商品类别的动态阈值。

结果： 定量评估显示，0.7个百分点的转化损失中有0.6个百分点来自假阳性。在阈值校准后，恢复了45%的损失收入（≈每月1800万卢布），同时维持了90%的反欺诈效率。

候选人常常忽视的内容

如何区分因果效应和选择偏见，当高欺诈评分的用户即使在不使用欺诈系统的情况下也亏损概率较低？

答案：这是一个经典的指征混淆问题，其中治疗指针（高风险）与结果相关。在RDD中，关键是检查在带宽窗口中的协变量平衡：比较阈值附近上方和下方小组之间的设备年龄、购买历史、地理位置的分布。如果发现不平衡，则需要应用偏差校正RDD，将协变量包含在回归中，或使用局部随机化方法，正式测试分配的随机性假设。在未经过此验证的情况下，效果评估将会与高低风险用户之间的先前差异混淆。

为什么在不同模型版本（v1和v2）经过的用户间简单比较批准率无法准确评估算法改善的效果？

答案：这种比较存在由于未观测因素而产生的选择偏见和成分漂移。新模型v2可能会选择性地应用（例如，仅对新用户或试点地区），从而创建不可比较的组。此外，评分质量的改善会改变被批准用户的组成：v2可能会批准v1拒绝的“灰色区域”，但这些用户的转化率不同。为了进行准确评估，需要使用离线政策评估与逆倾向加权（IPW）或双重稳健估计在历史日志上评估反事实，即评估v1在与v2的相同交易中产生的收入。

如何考虑延迟反馈问题，当欺诈在30天后确认（退款），而分析师需要在7天内进行效果评估以做出快速决策？

答案：这会造成审查数据（censored data）和评估中的不对称性问题。对于最近30天的交易，我们不知道真实标签（欺诈/非欺诈）。解决方案是使用生存分析（Cox比例风险模型）来评估欺诈的时间，允许处理不完整的数据。或者，可以使用与未来欺诈相关的替代指标（例如，速度特征、会话中的设备指纹变化）作为代理。重要的是要理解，假阳性是立即可见的（即时拒绝），而假阴性是延迟的，这会使短期精度向上偏差。对于RDD，建议使用“冻结”的数据，滞后30天以上，以牺牲新鲜度换取因果推断的正确性。