Risposta alla domanda

Contesto storico

Nei prodotti fintech, la verifica dell'identità (KYC) è un requisito normativo che crea un notevole attrito nell'esperienza utente. I metodi classici di valutazione dell'efficacia richiedono un controllo randomizzato, che non è possibile per motivi legali ed etici in caso di implementazione su larga scala. Storicamente, gli analisti si sono basati su semplici report di coorte che non consideravano l'endogeneità dell'auto-selezione e i shock esterni del mercato.

Definizione del problema

È necessario isolare il puro effetto del completamento del KYC dalla naturale perdita di utenti, dalle fluttuazioni stagionali dell'attività e dalle differenze nelle caratteristiche di base tra coloro che completano la verifica il primo giorno e coloro che rimandano la procedura. Il problema è complicato dal fatto che i tardivi adottanti possono differire sistematicamente in termini di motivazione e comportamento finanziario, creando un bias di sopravvivenza.

Soluzione dettagliata

Applicare una combinazione di Difference-in-Differences (DiD) con Propensity Score Matching (PSM) per costruire un gruppo di controllo comparabile di utenti con verifica rimandata. Utilizzare il Synthetic Control Method come verifica di robustezza, creando una combinazione ponderata di segmenti non toccati (es. utenti da regioni con requisiti normativi rimandati). Per tenere conto della stagionalità, includere effetti fissi temporali e applicare un Event Study Design con tempo relativo per verificare l'assunzione di tendenze parallele.

Situazione reale

L'azienda ha implementato il controllo a due fattori obbligatorio con documenti per tutti gli utenti oltre i 18 anni a marzo, che coincideva con la stagione fiscale. Il business ha notato un calo dell'attività, ma non riusciva a separare l'effetto del KYC dal calo stagionale e dalla massiccia diffusione di notifiche push da parte dei concorrenti. Gli analisti dovevano valutare l'impatto netto sulla retention a 30 giorni e sull'ARPU a 60 giorni dopo l'implementazione.

Opzione 1: Semplice confronto delle metriche prima e dopo (Pre-Post Analysis)

Gli analisti calcolano la retention media per il mese precedente al KYC e confrontano i risultati con quelli successivi. I vantaggi di questo approccio risiedono nella massima semplicità e rapidità nella generazione di risposte senza necessità di modelli complessi. Gli svantaggi includono l'ignorare la stagionalità (marzo vs aprile), le attività competitive esterne e il naturale trend crescente o decrescente della base, portando a una stima distorta fino al 40%.

Opzione 2: DiD naif usando utenti giovani (16-17 anni) come controllo

Il team propone di confrontare le variazioni nel gruppo target (18+) con quelle in un gruppo non soggetto al KYC. I vantaggi includono la considerazione di tendenze di mercato comuni e stagionalità. Gli svantaggi sono critici: adolescenti e adulti hanno comportamenti finanziari fondamentalmente diversi, infrangendo l'assunzione di tendenze parallele; inoltre, diverse coorti sono soggette a diversi effetti del ciclo di vita.

Opzione 3: Controllo sintetico con ritardo temporale

Si crea un gruppo di controllo artificiale come combinazione ponderata di utenti provenienti da regioni pilota, dove il KYC non è ancora stato implementato, selezionando i pesi sulla base dei 6 mesi di attività precedenti. I vantaggi includono la minimizzazione della dipendenza da un singolo gruppo di controllo e il conteggio automatico dei modelli stagionali attraverso una lunga storia. Gli svantaggi comportano alte esigenze di volume dati, complessità nell'interpretazione dei pesi e sensibilità agli outlier nei periodi storici.

Soluzione scelta e giustificazione

È stato scelto un approccio ibrido: PSM-DiD utilizzando utenti che, per motivi tecnici, hanno rinviato il KYC di 2-3 settimane, come gruppo di controllo, più Synthetic Control per la validazione. Questa soluzione ha consentito di bilanciare le caratteristiche osservabili (età, dispositivo, attività storica) tramite PSM, mentre DiD ha catturato gli effetti temporali. Il controllo sintetico ha confermato che i risultati non erano sensibili alla scelta del gruppo di controllo specifico.

Risultato finale

L'analisi ha mostrato che il KYC riduce la retention a 7 giorni del 18% nella prima settimana, ma aumenta il valore medio degli acquisti del 22% escludendo transazioni fraudolente. L'effetto netto sul LTV a 90 giorni si è rivelato neutrale (-2%, statisticamente non significativo). Sulla base di questi dati, il team prodotto ha suddiviso il processo di verifica in tre micro-fasi, riducendo l'attrito del 35% senza compromettere l'efficacia antifrode.

Cosa gli candidati spesso trascurano

Come gestire correttamente la censura a destra (right censoring) dei dati durante l'analisi dell'effetto a lungo termine del KYC, se la finestra osservativa è limitata e le coorti completano la verifica in modo asincrono?

I candidati spesso ignorano che gli utenti che completano il KYC in ritardo hanno meno tempo per manifestare comportamenti nella finestra osservativa, creando un bias. È necessario applicare metodi di analisi della sopravvivenza (Survival Analysis), come il Cox proportional hazards model o l'estimatore di Kaplan-Meier, che considerano le osservazioni censurate. In alternativa, per metriche come LTV, si possono utilizzare Tobit regression o modelli di dati censorati. È anche importante applicare un staggered adoption design nel DiD con il corretto trattamento delle "coorti pulite" (clean controls), poiché il DiD standard a due periodi darà stime distorte durante un'implementazione graduale.

Perché il metodo standard dei punteggi di propensione (PSM) può fornire stime distorte nel contesto della verifica obbligatoria e quali modifiche sono necessarie per tenere conto della dinamica temporale?

Il PSM standard ignora la dipendenza temporale e i confondenti nascosti, come la motivazione dell'utente o il volume di transazioni attese. Nel contesto del KYC, è fondamentale utilizzare Time-Dependent Propensity Score Matching, dove i punteggi vengono calcolati per ogni periodo separatamente, oppure Inverse Probability of Treatment Weighting (IPTW) con covarianti variabili nel tempo. È inoltre necessario verificare la condizione di sovrapposizione (overlap condition) per evitare l'estrapolazione oltre i dati osservati e utilizzare Coarsened Exact Matching (CEM) per migliorare la robustezza in caso di dimensione del campione ridotta.

Come distinguere il vero effetto del completamento del KYC dall'effetto di anticipazione (anticipation effect) e verificare l'assunzione di tendenze parallele?

Per distinguere gli effetti è necessario applicare un Event Study Design con variabili dummy sul tempo relativo (relative time) prima e dopo l'evento. Se i coefficienti delle variabili lead (periodi prima del KYC) differiscono statisticamente da zero, ciò indica un effetto di anticipazione o una violazione delle tendenze parallele. Per verificare la robustezza, si dovrebbero utilizzare Placebo tests spostando la data di implementazione su periodi precedenti o Falsification tests su variabili di outcome che non avrebbero dovuto cambiare. In caso di violazioni delle tendenze, è possibile applicare Synthetic Difference-in-Differences (SDiD), che corregge il mismatch delle tendenze attraverso il ri-pesamento.