Antwort auf die Frage

Historischer Kontext

Traditionell basierte der Kampf gegen Betrug in Digitalprodukten auf strengen regelbasierten Vorschriften oder manueller Moderation, was zu hoher operativer Belastung und einer statischen Systemarchitektur führte. Mit der Entwicklung des maschinellen Lernens begannen Unternehmen, Real-Time Fraud Detection SDK zu implementieren, die jede Transaktion nach der Wahrscheinlichkeit von Betrug bewerten. Die zentrale Schwierigkeit besteht darin, dass jeder Klassifikator Fehler zweier Arten macht: False Positive (Blockierung legitimer Nutzer) senkt direkt den Umsatz, während False Negative (Übersehen von Betrug) die Rückbelastungen erhöht. Es ist für Unternehmen von entscheidender Bedeutung, den Trade-off zwischen diesen Fehlern zu messen, um die Scoring-Schwellen zu optimieren.

Problemstellung

Standard-A/B-Tests sind unmöglich, da es nicht akzeptabel ist, fälschlicherweise Betrugstransaktionen in der Kontrollgruppe durchzulassen, sowohl aus Sicht des Rufes als auch aus Anforderungen von FinCEN/PCI-DSS. Ein einfaches Vergleichen der Metriken vor und nach der Implementierung ist durch die Saisonalität von Betrugsangriffen und die Selbstselektion der Nutzer (Loyalere aktualisieren die App) verzerrt. Nutzer mit hohem Betrugsrisiko haben von vornherein eine andere Konversion als solche mit niedrigem Risiko, weshalb der naive Vergleich zwischen genehmigten und abgelehnten Transaktionen aufgrund von confounding by indication zu einer verzerrten Schätzung führt.

Detaillierte Lösung

Die optimale Methode ist das Sharp Regression Discontinuity Design (RDD) um den Schwellenwert des Betrugsscores (z.B. 0.7), wo eine plötzliche Änderung der Genehmigungswahrscheinlichkeit von 1 auf 0 erfolgt. Wir vergleichen Transaktionen mit einem Score von 0.69 (Behandlung, genehmigt) und 0.71 (Kontrolle, abgelehnt) und nehmen lokale Zufälligkeit im Bandbreitenfenster (±0.05) an. Wir verwenden Local Linear Regression mit einem dreieckigen Kern zur Schätzung des LATE (Local Average Treatment Effect). Zur Steigerung der Genauigkeit nutzen wir Covariate-Adjusted RDD, indem wir Prädiktoren (Gerätehistorie, Geografie) als Kontrollvariablen hinzufügen. Zur Berechnung des Nettoumsatzes bestimmen wir Incremental Revenue: die Differenz zwischen dem verhinderten Betrug (erwartete Rückbelastungen) und dem verlorenen Umsatz aus False Positives, die über RDD identifiziert wurden.

Lebenssituation

In einer mobilen App eines Marktplatzes fiel die allgemeine Kaufkonversionsrate nach der Integration des Fraud Detection SDK eines externen Anbieters von 4.2% auf 3.5%, während die Betrugsrate von 2.8% auf 0.4% sank. Das Produktteam vermutete, dass das System zu aggressiv ist und legitime zahlungsfähige Nutzer ausschließt, konnte jedoch den Umfang des Problems quantitativ nicht bewerten, da eine Kontrollgruppe fehlte.

Option A: Einfacher Vergleich der Konversion vor und nach der Implementierung (Pre-Post-Analyse). Vorteile: minimale Arbeitsaufwände, keine besondere Infrastruktur erforderlich. Nachteile: ignoriert vollständig die Saisonalität (der Zeitraum nach der Implementierung fiel mit dem Beginn der Nebensaison zusammen), Selbstselektion bei der App-Aktualisierung und изменения im Marketingmix (ein neuer Kanal mit niedriger Konversion wurde gestartet).

Option B: Geografische Aufteilung (Städte Gruppe A mit aktivem System, Gruppe B ohne). Vorteile: schafft eine saubere Kontrollgruppe. Nachteile: technisch unmöglich aufgrund einer einheitlichen Codebasis und CDN-Caching; Nutzer migrieren zwischen Städten; das Betrugsprofil variiert erheblich zwischen Regionen (horizontale Heterogenität).

Option C: Regression Discontinuity Design basierend auf dem kontinuierlichen Betrugsscore um den Schwellenwert von 0.65. Vorteile: nutzt ein natürliches Experiment, garantiert lokale Zufälligkeit, ermöglicht die Isolierung des kausalen Effekts speziell für „Grenz“-Transaktionen. Nachteile: erfordert ein großes Datenvolumen im Schwellenbereich; schätzt LATE, der möglicherweise von ATE für die gesamte Population abweicht; empfindlich gegenüber Manipulationen des Scores (Betrüger können lernen, die Schwelle zu umgehen).

Option D: Synthetic Control Method, Erstellung einer gewichteten Kombination historischer Kohorten zur Imitation einer Kontrollgruppe. Vorteile: funktioniert ohne physische Kontrollgruppe, berücksichtigt zeitliche Trends. Nachteile: setzt voraus, dass Einflussfaktoren über die Zeit stabil sind; empfindlich gegenüber Ausreißern in der Datenvorverarbeitung; schwer zu validieren, außer durch Placebo-Tests.

Es wurde Option C (RDD) mit einer Bandbreite von 0.08 und einem Polynom erster Ordnung gewählt. Die Analyse ergab, dass für Transaktionen über 15.000 ₽ die False-Positive-Rate doppelt so hoch war wie für kleine Einkäufe. Basierend darauf wurden dynamische Schwellenwerte nach Warengruppen eingestellt.

Ergebnis: Es konnte quantitativ bewertet werden, dass 0.6 Prozentpunkte von 0.7 Verlusten der Konversion auf False Positives zurückzuführen sind. Nach der Kalibrierung der Schwellenwerte wurden 45% des verlorenen Umsatzes (≈18 Millionen ₽ pro Monat) bei gleichzeitiger Beibehaltung von 90% der Effektivität bei der Betrugsbekämpfung wiederhergestellt.

Was Kandidaten oft übersehen

Wie unterscheidet man den kausalen Effekt von Selektionsverzerrungen, wenn Nutzer mit hohem Betrugsrisiko von Anfang an eine niedrigere Kaufneigung aufweisen, selbst wenn das Betrugssystem nicht existierte?

Antwort: Dies ist ein klassisches Problem der confounding by indication, bei dem die Indikation für die Behandlung (hohes Risiko) mit dem Ergebnis korreliert. In der RDD ist es entscheidend, das Covalienten-Balance (covariate balance) im Bandbreitenfenster zu überprüfen: den Vergleich der Verteilung des Gerätealters, der Kaufhistorie und der Geographie zwischen den Gruppen knapp unter und über der Schwelle. Wenn ein Ungleichgewicht festgestellt wird, sollte bias-corrected RDD unter Einbeziehung der Kovariaten in die Regression angewendet oder ein Local Randomization-Ansatz verwendet werden, um die Hypothese der Zufälligkeit der Verteilung formal zu testen. Ohne diese Überprüfung wird die Effektbewertung mit vorbestehenden Unterschieden zwischen hoch- und niedrigriskanten Nutzern vermischt.

Warum erlaubt ein einfacher Vergleich der Genehmigungsrate zwischen Nutzern, die durch verschiedene Modellversionen (v1 und v2) gegangen sind, keine korrekte Bewertung des Effekts der Algorithmusverbesserung?

Antwort: Dieser Vergleich leidet unter Selektionsverzerrung hinsichtlich unbeobachtbarer Faktoren und compositional drift. Das neue Modell v2 kann selektiv angewendet werden (z.B. nur auf neue Nutzer oder in Pilotregionen), was zu unvergleichbaren Gruppen führt. Darüber hinaus verändert eine Qualitätsverbesserung des Scorings die Zusammensetzung der genehmigten Nutzer: v2 könnte „Grauzonen“ genehmigen, die v1 abgelehnt hat, aber diese Nutzer haben eine andere Konversion. Für eine korrekte Bewertung ist es notwendig, Offline Policy Evaluation mit Inverse Propensity Weighting (IPW) oder Doubly Robust Estimation auf historischen Protokollen zu verwenden und den Counterfactual zu bewerten, welchen Umsatz v1 bei denselben Transaktionen, die v2 durchlief, generiert hätte.

Wie berücksichtigt man das Problem des verzögerten Feedbacks, wenn Betrug erst nach 30 Tagen bestätigt wird (Rückbelastung), während Analysten eine Bewertung des Effekts nach 7 Tagen für operative Entscheidungen benötigen?

Antwort: Dies schafft ein Problem mit zensierten Daten (censored data) und Asymmetrie bei der Bewertung. Für Transaktionen der letzten 30 Tage kennen wir das wahrhafte Label (Betrug/nicht Betrug) nicht. Die Lösung besteht in der Verwendung von Survival Analysis (Cox-proportional hazards-Modell) zur Bewertung der Zeit bis zum Betrug, die es ermöglicht, mit unvollständigen Daten zu arbeiten. Alternativ können Surrogate Metrics (z.B. Velocity Features, Änderung des Gerätefingerabdrucks während der Sitzung) verwendet werden, die mit zukünftigen Betrugsfällen korrelieren, als Proxys. Es ist wichtig zu verstehen, dass False Positives sofort sichtbar sind (sofortige Ablehnung), während False Negatives mit Verzögerung auftreten, was die Precision kurzfristig nach oben verzerrt. Für RDD wird empfohlen, „eingefrorene“ Daten mit einem Lag von 30+ Tagen zu verwenden und dabei den Verlust an Aktualität zugunsten der Korrektheit der kausalen Inferenz in Kauf zu nehmen.