Antwoord op de vraag

Historische context

Traditioneel was de strijd tegen fraude in digitale producten gebaseerd op strikte regel-gebaseerde regels of handmatige moderatie, wat leidde tot hoge operationele belasting en statische systemen. Met de ontwikkeling van machine learning begonnen bedrijven Real-Time Fraud Detection SDK te implementeren, die elke transactie beoordelen op de waarschijnlijkheid van fraude. De belangrijkste uitdaging is dat elke classifier fouten van twee typen maakt: False Positive (het blokkeren van een legitieme gebruiker) verlaagt direct de inkomsten, terwijl False Negative (het missen van fraude) het chargeback verhoogt. Het is voor bedrijven cruciaal om de trade-off tussen deze fouten te meten om de scoringsdrempels te optimaliseren.

Probleemstelling

Standaard A/B-testen zijn niet mogelijk, aangezien opzettelijk het missen van frauduleuze transacties in de controlegroep onaanvaardbaar is vanuit het oogpunt van reputatie en FinCEN/PCI-DSS vereisten. Een eenvoudige vergelijking van metrics vóór en na de implementatie is vertekend door seizoensgebondenheid van fraudaanvallen en zelfselectie van gebruikers (loyale gebruikers vernieuwen de app). Gebruikers met een hoog frauderisico hebben aanvankelijk een andere conversie dan laag-risicogebruikers, daarom geeft een naïeve vergelijking tussen goedgekeurde en afgekeurde transacties een vertekende schatting vanwege confounding by indication.

Gedetailleerde oplossing

De optimale methode is Sharp Regression Discontinuity Design (RDD) rond de drempelwaarde voor fraudescoring (bijvoorbeeld 0.7), waar een abrupte verandering in de goedkeuringskans van 1 naar 0 plaatsvindt. We vergelijken transacties met een score van 0.69 (behandeld, goedgekeurd) en 0.71 (controlegroep, afgewezen), waarbij we lokale willekeurigheid in het bandbreedtevenster (±0.05) veronderstellen. We gebruiken Local Linear Regression met een driehoekige kernel om de LATE (Local Average Treatment Effect) te schatten. Om de nauwkeurigheid te verhogen, passen we Covariate-Adjusted RDD toe door voorspellers (apparaatgeschiedenis, geo) als controlevariabelen toe te voegen. Om de netto-inkomsten te schatten, berekenen we de Incremental Revenue: het verschil tussen de voorkomen fraude (verwacht chargeback) en de verloren inkomsten door false positives, geïdentificeerd via RDD.

Leefsituatie

In een mobiele applicatie van een marktplaats daalde na de integratie van de Fraud Detection SDK van een externe leverancier de totale conversie naar aankoop van 4.2% naar 3.5%, terwijl het fraudepercentage daalde van 2.8% naar 0.4%. Het productteam vermoedde dat het systeem te agressief was en legitieme betalingsklanten afschreef, maar kon de schaal van het probleem niet kwantitatief beoordelen vanwege het ontbreken van een controlegroep.

Optie A: Eenvoudige vergelijking van de conversie vóór en na de implementatie (pre-post analyse). Voordelen: minimale inspanning, vereist geen speciale infrastructuur. Nadelen: negeert volledig seizoensgebondenheid (de periode na implementatie viel samen met het begin van het laagseizoen), zelfselectie bij het vernieuwen van de app en verandering van de marketingmix (er werd een nieuw kanaal met lage conversie gelanceerd).

Optie B: Geografische splitsing (steden Groep A met ingeschakeld systeem, Groep B zonder). Voordelen: creëert een schone controlegroep. Nadelen: technisch onmogelijk vanwege de enkele codebasis en CDN-caching; gebruikers migreren tussen steden; het fraudprofiel varieert aanzienlijk tussen regio's (horizontale heterogeniteit).

Optie C: Regression Discontinuity Design op de continue fraudescoring rond de drempel van 0.65. Voordelen: maakt gebruik van een natuurlijk experiment, garandeert lokale willekeurigheid, maakt isolatie van het causale effect specifiek voor "grens"-transacties mogelijk. Nadelen: vereist een grote hoeveelheid gegevens in het drempelvenster; schat de LATE, die kan verschillen van de ATE voor de gehele populatie; gevoelig voor manipulaties van de score (fraudeurs kunnen leren om de drempel te omzeilen).

Optie D: Synthetic Control Method, het creëren van een gewogen combinatie van historische cohorten om een controlegroep te imiteren. Voordelen: werkt zonder fysieke controlegroep, houdt rekening met temporele trends. Nadelen: veronderstelt dat de invloedfactoren in de tijd stabiel zijn; gevoelig voor uitschieters in preprocessing; moeilijk te valideren behalve via placebo-tests.

Optie C (RDD) met een bandbreedte van 0.08 en een eerste-graadspolynoom werd gekozen. De analyse toonde aan dat voor transacties groter dan 15.000 ₽ het false positive rate twee keer zo hoog was als voor kleinere aankopen. Op basis hiervan werden dynamische drempels ingesteld op productcategorieën.

Resultaat: Er kon kwantitatief worden beoordeeld dat 0.6 procentpunten van de 0.7 daling in conversie resulteerde uit false positives. Na kalibratie van de drempels werd 45% van de verloren inkomsten (≈18 miljoen ₽ per maand) hersteld, terwijl 90% effectiviteit tegen fraude werd behouden.

Wat kandidaten vaak missen

Hoe onderscheid je het causale effect van selectie-bias, wanneer gebruikers met een hoge fraudescoring aanvankelijk een lagere aankoopneiging hebben, zelfs als er geen frauduleuze systemen bestonden?

Antwoord: Dit is een klassiek probleem van confounding by indication, waarbij de indicatie voor de behandeling (hoog risico) correleert met de uitkomst. In RDD is het cruciaal om de balance covariaten (covariate balance) in het bandbreedtevenster te controleren: vergelijk de distributie van apparaat leeftijd, koopgeschiedenis, geo tussen de groepen net onder en net boven de drempel. Als er een onbalans is, moet bias-corrected RDD worden toegepast met inclusie van covariaten in de regressie of gebruik maken van de Local Randomization benadering, waarbij op formele wijze de hypothese van willekeurige distributie wordt getest. Zonder deze controle zal de schatting van het effect vermengd worden met vooraf bestaande verschillen tussen hoog- en laag-risicogebruikers.

Waarom stelt een eenvoudige vergelijking van de goedkeuringsratio tussen gebruikers die verschillende versies van het model (v1 en v2) hebben doorlopen, niet in staat om het effect van de verbetering van het algoritme correct te beoordelen?

Antwoord: Deze vergelijking lijdt aan selectie-bias voor onobserveerbare factoren en compositional drift. Het nieuwe model v2 kan selectief worden toegepast (bijvoorbeeld alleen op nieuwe gebruikers of in pilotregio's), wat onvergelijkbare groepen creëert. Bovendien verandert verbetering van de scoringskwaliteit de samenstelling van goedgekeurde gebruikers: v2 kan de "grijze zone" goedkeuren die v1 afwees, maar deze gebruikers hebben een andere conversie. Voor een correcte beoordeling is het noodzakelijk om Offline Policy Evaluation met Inverse Propensity Weighting (IPW) of Doubly Robust Estimation op historische logs te gebruiken, waarbij het counterfactual wordt beoordeeld, wat v1 voor dezelfde transacties had opgeleverd als v2.

Hoe gaat men om met het delayed feedback probleem, wanneer fraude pas na 30 dagen wordt bevestigd (chargeback), maar analisten een effectbeoordeling binnen 7 dagen nodig hebben voor operationele beslissingen?

Antwoord: Dit creëert een probleem van gecensureerde gegevens (censored data) en asymmetrie in de beoordeling. Voor transacties van de laatste 30 dagen weten we de ware label niet (fraude/geen fraude). Een oplossing is het gebruik van Survival Analysis (Cox proportional hazards model) voor het schatten van de tijd tot fraude, waardoor met incomplete gegevens kan worden gewerkt. Als alternatief kunnen Surrogate Metrics worden gebruikt (bijvoorbeeld snelheidfuncties, verandering van device fingerprint tijdens de sessie), die correleren met toekomstige fraude, als proxy. Het is belangrijk te begrijpen dat false positives onmiddellijk zichtbaar zijn (onmiddellijke weigering), terwijl false negatives met vertraging komen, wat de precisie op de korte termijn in de richting van overschatting verteert. Voor RDD wordt aangeraden om "bevroren" gegevens met een lag van 30+ dagen te gebruiken, waarbij de verlies van versheid wordt geaccepteerd voor de nauwkeurigheid van de causale inferentie.