Business analyseProductanalist / Product Analyst

Hoe kan men de oorzakelijke effect van de implementatie van verplichte identiteitsverificatie (KYC) kwantitatief beoordelen op gebruikersretentie en monetisatie in een fintech-app, als de implementatie gelijktijdig voor het hele publiek plaatsvond zonder de mogelijkheid van A/B-testen, en de gegevens onderhevig zijn aan sterke seizoensgebondenheid en de zelfselectie-effecten afhankelijk van de tijd van de procedure?

Slaag voor sollicitatiegesprekken met de Hintsage AI-assistent

Antwoord op de vraag

Historische context

In fintech-producten is identiteitsverificatie (KYC) een regelgevingsvereiste die aanzienlijke frictie in de gebruikerservaring veroorzaakt. Klassieke methoden voor het beoordelen van effectiviteit vereisen gerandomiseerde controles, wat om juridische en ethische redenen onmogelijk is bij massale implementatie. Historisch gezien vertrouwden analisten op eenvoudige cohortrapporten die de endogeniteit van zelfselectie en externe marktschokken niet in aanmerking namen.

Probleemstelling

Het is noodzakelijk om het pure effect van KYC-verificatie te isoleren van de natuurlijke gebruikersafname, seizoensgebonden schommelingen in activiteit en verschillen in basiskenmerken tussen degenen die op de eerste dag verifiëren en degenen die de procedure uitstellen. Het probleem wordt bemoeilijkt doordat late adopters systematisch kunnen verschillen in motivatie en financieel gedrag, wat leidt tot een survivorship bias.

Gedetailleerde oplossing

Toepassen van een combinatie van Difference-in-Differences (DiD) met Propensity Score Matching (PSM) om een vergelijkbare controlegroep van gebruikers met uitgestelde verificatie te creëren. Gebruik maken van de Synthetic Control Method als robustness check, door een gewogen combinatie van ongereguleerde segmenten te creëren (bijvoorbeeld gebruikers uit regio's met uitgestelde regelgevende vereisten). Ter compensatie van seizoensgebondenheid moeten tijdelijke vaste effecten (month-of-year fixed effects) worden opgenomen, en een Event Study Design met relatieve tijd moet worden toegepast om de parallel trends aanname te controleren.

Praktijksituatie

Het bedrijf introduceerde een verplichte tweefactorauthenticatie met documenten voor alle gebruikers ouder dan 18 jaar in maart, wat samenviel met het belastingseizoen. Het bedrijf merkte een afname in activiteit op, maar kon het effect van KYC niet scheiden van de seizoensgebonden daling en de massale distributie van pushmeldingen door concurrenten. Analisten moesten het pure effect op 30-daagse retentie en ARPU over 60 dagen na de implementatie beoordelen.

Optie 1: Eenvoudige vergelijking van metrics voor en na (Pre-Post Analyse)

Analisten berekenen de gemiddelde retentie over de maand vóór KYC en vergelijken deze met de cijfers erna. De voordelen van deze benadering zijn maximale eenvoud en snelheid in het verkrijgen van een antwoord zonder complexe modellen. Nadelen zijn onder meer het negeren van seizoensgebondenheid (maart vs april), externe concurrentieactiviteiten en de natuurlijke trend van groei of daling van de basis, wat leidt tot een schatting bias van 40%.

Optie 2: Naïeve DiD met gebruik van jonge gebruikers (16-17 jaar) als controle

Het team stelt voor om de veranderingen in de doelgroep (18+) te vergelijken met die in de groep die niet aan KYC is onderworpen. De voordelen liggen in het in overweging nemen van algemene markttrends en seizoensgebondenheid. De nadelen zijn kritiek: tieners en volwassenen hebben fundamenteel verschillende financiële gedragingen, wat de aanname van parallelle trends verstoort; daarnaast zijn verschillende cohorten onderhevig aan verschillende life-cycle effecten.

Optie 3: Synthetische controle met een tijdsvertraging

Er wordt een kunstmatige controlegroep gecreëerd als een gewogen combinatie van gebruikers uit pilotregio's waar KYC nog niet is geïmplementeerd, waarbij de gewichten worden afgestemd op de voorgaande 6 maanden activiteit. De voordelen zijn het minimaliseren van afhankelijkheid van één controlegroep en het automatisch in aanmerking nemen van seizoensgebonden patronen door een lange geschiedenis. Nadelen zijn de hoge eisen aan gegevensvolume, de complexiteit van het interpreteren van gewichten, en de gevoeligheid voor uitschieters in historische perioden.

Gekozen oplossing en onderbouwing

Er is gekozen voor een hybride aanpak: PSM-DiD met gebruik van gebruikers die technische redenen hadden om KYC 2-3 weken uit te stellen als controlegroep, plus Synthetic Control voor validatie. Deze oplossing stelde ons in staat om de waargenomen kenmerken (leeftijd, apparaat, historische activiteit) te balanceren via PSM, terwijl DiD de temporele effecten vastlegde. De synthetische controle bevestigde dat de resultaten niet gevoelig zijn voor de keuze van een specifieke controlegroep.

Eindresultaat

De analyse toonde aan dat KYC de 7-daagse retentie met 18% verlaagt in de eerste week, maar het gemiddelde bestelbedrag met 22% verhoogt door frauduleuze transacties uit te sluiten. Het netto-effect op de 90-daagse LTV bleek neutraal (-2%, statistisch niet significant). Op basis van deze gegevens heeft het productteam het verificatieproces opgedeeld in drie micro-stappen, wat de frictie met 35% verminderde zonder de anti-fraude-effectiviteit te verliezen.

Wat kandidaten vaak vergeten


Hoe correct om te gaan met rechter censurering (right censoring) van gegevens bij het analyseren van het langetermijneffect van KYC, als het observatievenster beperkt is en cohorten asynchroon verifiëren?

Kandidaten negeren vaak dat gebruikers die KYC later doorlopen, minder tijd hebben om gedrag in het observatievenster te tonen, wat een bias creëert. Het is noodzakelijk om overlevingsanalyse-methoden (Survival Analysis) toe te passen, zoals de Cox proportional hazards model of de Kaplan-Meier estimator, die gecensureerde observaties in overweging nemen. Alternatief kunnen voor metrics als LTV Tobit regressie of modellen voor gecensureerde gegevens worden gebruikt. Het is ook belangrijk om een staggered adoption design in DiD toe te passen met een correcte verwerking van "schone" cohorten (clean controls), omdat de standaard tweeperiodes DiD scheve schattingen zal opleveren bij gefaseerde implementatie.


Waarom kan de standaard methodologie voor propensity scores (PSM) scheve schattingen opleveren in de context van verplichte verificatie, en welke aanpassingen zijn nodig om rekening te houden met tijdsafhankelijkheid?

De standaard PSM negeert tijdsafhankelijkheid en verborgen confounders, zoals gebruikersmotivatie of verwachte transactievolumes. In de context van KYC is het cruciaal om Time-Dependent Propensity Score Matching te gebruiken, waarbij scores per periode worden berekend, of Inverse Probability of Treatment Weighting (IPTW) met tijdsafhankelijke covariaten. Bovendien is het nodig om de overlapconditie (overlap condition) te controleren om extrapolatie buiten de waargenomen gegevens te voorkomen, en gebruik te maken van Coarsened Exact Matching (CEM) om de robuustheid te verhogen bij een kleine steekproefgrootte.


Hoe onderscheid je het werkelijke effect van KYC-verificatie van het anticipatie-effect en controleer je de validiteit van de aanname van parallelle trends?

Om effecten te scheiden, moet een Event Study Design worden toegepast met dummy-variabelen op relatieve tijd (relative time) vóór en na het evenement. Als de coëfficiënten bij de lead-variabelen (periodes vóór KYC) statistisch significant verschillen van nul, wijst dit op een anticipatie-effect of een schending van de parallelle trends. Voor het controleren van de robuustheid moeten Placebo tests worden gebruikt met een verschuiving van de implementatiedatum naar eerdere perioden of Falsification tests op outcome-variabelen die niet hadden moeten veranderen. In het geval van een schending van trends kan een Synthetic Difference-in-Differences (SDiD) worden toegepast, die de mismatch van trends corrigeert door middel van reweighing.