質問への回答

歴史的背景

伝統的に、デジタル製品におけるフラウド対策は、厳格なルールベースの規則や手動でのモデレートに基づいており、これにより高い運用負荷とシステムの静的な構造が生じていました。機械学習の進展に伴い、企業はフラウドの可能性に基づいてトランザクションをスコアリングするリアルタイムフラウド検出SDKを導入し始めました。主な課題は、いかなる分類器も二つのタイプの誤りを犯すことであり、誤認識 (False Positive)（正当なユーザーのブロック）は収益を直接低下させ、見逃し (False Negative)（フラウドの見逃し）はチャージバックを増加させます。ビジネスにとって、これらの誤りのトレードオフを測定することは極めて重要です。

問題の設定

標準的なA/Bテストは不可能です。コントロールグループでフラウドトランザクションを故意に通過させることは、レピュテーションやFinCEN/PCI-DSSの要件の観点から許可されていません。導入前後のメトリクスの単純比較は、フラウド攻撃の季節性とユーザーの自己選択（アプリを更新するのはより忠実なユーザー）のために歪められています。高いフラウドリスクを持つユーザーは、もともと低リスクのユーザーとは異なるコンバージョンを持っており、そのために承認されたトランザクションと却下されたトランザクションの直接比較は、指示による交絡 (confounding by indication) のために偏った評価を提供します。

詳細な解決策

最適な方法は、フラウドスコアのしきい値の周りで行う**シャープ回帰不連続デザイン (RDD)です（例えば、0.7）。ここでは、承認が1から0に急変する確率が発生します。スコア0.69（処置、承認）と0.71（コントロール、却下）のトランザクションを比較し、バンド幅のウィンドウ（±0.05）内での局所的なランダム性を仮定します。ローカル線形回帰を使用してLATE（局所平均処置効果）**を推定します。精度を高めるために、コバリアント調整RDDを使用し、予測因子（デバイスの履歴、 geo）をコントロール変数として追加します。純収益を評価するために、インクリメンタル収益を計算し、（期待されるチャージバック）によって防止されたフラウドと誤認識から失われた収益との間の差を求めます。

実生活からの状況

モバイルアプリのマーケットプレイスで、外部ベンダーのフラウド検出SDKを統合した後、購入における総コンバージョンは4.2%から3.5%に減少しましたが、フラウド率は2.8%から0.4%に低下しました。プロダクトチームは、システムが過度に攻撃的であり、正当な支払い能力のあるユーザーを排除しているのではないかと疑いましたが、コントロールグループがないため、問題の規模を定量的に評価することができませんでした。

オプションA: 導入前後のコンバージョンの単純比較（事前-事後分析）。利点：最小限の労力、特別なインフラは必要ありません。欠点：季節性を完全に無視（導入後の期間は低季節の始まりと一致）、アプリ更新時の自己選択、マーケティングミックスの変化（新しいチャネルの導入でコンバージョンが低い）。

オプションB: 地理的分割（システムが有効な都市Aグループ、無効な都市Bグループ）。利点：クリーンなコントロールグループを作成します。欠点：単一のコードベースとCDNキャッシングのため技術的に不可能；ユーザーは都市間を移動；フラウドプロファイルは地域によって大きく異なる（水平的不均一性）。

オプションC: しきい値0.65の周りで継続的なフラウドスコアに基づく回帰不連続デザイン。利点：自然実験を利用し、局所的なランダム性を保証し、「境界」トランザクションの因果効果を隔離します。欠点：しきい値ウィンドウ内で大量のデータが必要；全体の集団のATEと異なる可能性のあるLATEを評価；スコアの操作に敏感（フラウド者がしきい値を迂回することを学ぶ可能性がある）。

オプションD: 合成コントロールメソッド、コントロールグループを模倣するための歴史的コホートの加重組み合わせを作成します。利点：物理的なコントロールグループが不要で、時間的トレンドを考慮します。欠点：影響因子が時間的に安定であることを仮定；前処理の外れ値に敏感；プラセボテストによる検証が困難。

**結果として、バンド幅0.08および一次の多項式でオプションC (RDD)**が選択されました。分析により、15,000₽を超えるトランザクションに対して、誤認識率が小規模購入の2倍であることが示されました。これに基づき、商品カテゴリごとに動的しきい値が設定されました。