Risposta alla domanda

Storicamente, la valutazione dell'implementazione di misure di sicurezza frizionali, come il 2FA, è evoluta da confronti naif «prima/dopo» all'applicazione di metodi quasi-sperimentali. Quando il classico A/B testing è impossibile a causa di vincoli tecnici nell'architettura di autenticazione o preoccupazioni etiche per la sicurezza, gli analisti si rivolgono a metodi di stima delle differenze (Difference-in-Differences, DiD), che consentono di separare l'effetto dell'intervento dalle tendenze temporali. La principale difficoltà è che gli utenti disposti ad accettare un'ulteriore friction come il 2FA si differenziano sistematicamente dagli altri per alta motivazione o paranoia, creando endogeneità dell'auto-selezione e distorcendo le semplici stime corrzionali.

Il problema di formulazione richiede l'isolamento del vero effetto dell'autenticazione obbligatoria dai confondenti: picchi stagionali di attività (ad esempio, vendite pre-festive), naturale degradazione della ritenzione di nuove coorti e differenze nelle caratteristiche di base degli utenti che adottano misure di sicurezza. Senza una strategia di identificazione corretta, l'azienda potrebbe erroneamente scambiare il naturale calo stagionale dell'attività per un effetto negativo del 2FA, oppure, al contrario, interpretare l'effetto dell'auto-selezione come un successo della funzione, portando a un'espansione ingiustificata delle misure frizionali all'intero pubblico.

Una soluzione dettagliata prevede l'utilizzo del Staggered Difference-in-Differences (DiD) con un approccio orientato alle coorti, dove diversi gruppi di utenti (coorti) ricevono il 2FA obbligatorio in momenti diversi. Per ogni coorte, il gruppo di controllo è costituito da utenti registrati immediatamente prima dell'introduzione della misura (il confine della regressione del gap), o coorti che non sono ancora state sottoposte all'intervento. Per correggere l'auto-selezione si utilizza il Inverse Probability Weighting (IPW): sulla base del comportamento passato (storia dell'uso della biometria, frequenza di cambio delle password) vengono costruiti i pesi delle osservazioni per bilanciare le caratteristiche dei gruppi. La stagionalità è considerata attraverso effetti fissi nel tempo (variabili dummy settimanali o mensili). Come verifiche robuste vengono utilizzati il Synthetic Control Method (controllo sintetico, che pondera le coorti non trattate per simulare la tendenza delle trattate) e lo Event Study (per visualizzare la dinamica dell'effetto prima e dopo l'implementazione e per verificare l'assunzione di tendenze parallele).

Situazione reale

Nel mobile banking è stata presa la decisione di implementare il 2FA obbligatorio tramite SMS e app TOTP per tutti gli accessi, rinunciando all'opzionalità a causa dell'aumento delle frodi. Il rollout è stato organizzato in base alle coorti di data di registrazione: gli utenti registrati prima del 1° marzo sono rimasti senza cambiamenti (controllo), mentre ogni successiva settimana di nuove registrazioni ha ricevuto il 2FA obbligatorio (trattamento). Due settimane dopo l'inizio, le metriche hanno mostrato un crollo catastrofico del tasso di ritenzione a 30 giorni del 25% tra le coorti "trattate", causando panico nel dipartimento di prodotto e proposte per tornare sui propri passi.

Il primo approccio considerato è stato il confronto semplice del tasso di ritenzione degli utenti con e senza 2FA nello stesso periodo di osservazione. I vantaggi dell'approccio sono la immediata calcolabilità e chiarezza; gli svantaggi sono in un fatale errore metodologico: gli utenti che hanno volontariamente attivato il 2FA prima dell'implementazione obbligatoria erano iper-attivi o paranoici, e la loro naturale ritenzione era superiore del 40%, rendendo tale confronto non utile.

Il secondo approccio è l'analisi delle curve di ritenzione delle coorti (Cohort Retention Curves) senza controllo nel tempo, semplicemente confrontando visivamente le curve degli utenti "marziani" e "febbrili". I vantaggi sono la considerazione di diversi punti di partenza nel ciclo di vita; gli svantaggi sono l'ignoranza della stagionalità (marzo è un periodo di pagamento delle tasse con picchi di attività, dopo i quali segue naturalmente una discesa) e l'impossibilità di separare l'effetto dalla tendenza generale al calo della qualità del traffico dalle nuove fonti pubblicitarie lanciate a marzo.

Il terzo approccio è l'applicazione del Staggered DiD utilizzando il metodo Callaway-Sant'Anna per stimare gli effetti gruppali-temporali (Group-Time ATT) e l'abbinamento per propensione (Propensity Score Matching) all'interno di ogni coorte. I vantaggi sono una corretta lavorazione nei diversi tempi di trattamento, esclusione di "già trattati" come controllo per "appena trattati", controllo della stagionalità tramite effetti fissi; gli svantaggi sono la complessità di interpretazione, la necessità di verificare tendenze parallele e sensibilità agli outlier in piccole coorti.

È stata scelta la terza soluzione, poiché le prime due dimostravano scenari o troppo ottimistici (auto-selezione) o catastroficamente pessimisti (stagionalità). L'analisi ha mostrato che il vero effetto causale sulla ritenzione a 30 giorni era -8% (e non -25%), compensato da un aumento del +20% del valore medio del carrello grazie alla maggiore fiducia nei conti sicuri. Il risultato finale è stato che il team di prodotto ha mantenuto il 2FA obbligatorio, ma ha aggiunto l'opzione "Dispositivo fidato per 30 giorni", che ha ridotto la frizione e ripristinato la ritenzione ai livelli di base dopo 60 giorni, mantenendo comunque una riduzione delle frodi del 60%.

Cosa i candidati spesso trascurano

Perché l'estimatore standard a effetti fissi a due vie (TWFE) in una regressione lineare con effetti fissi per utente e tempo può fornire stime distorte o addirittura di segno opposto in un design di implementazione a più fasce del 2FA, e quale stimatore moderno dovrebbe essere utilizzato al suo posto?

Nel classico approccio TWFE, gli utenti già trattati (2FA) in una prima coorte sono automaticamente utilizzati come gruppo di controllo per gli utenti di coorti più tarde, che non hanno ancora ricevuto il trattamento. Se l'effetto del 2FA cambia nel tempo (ad esempio, gli utenti si adattano e la frizione diminuisce) o varia tra le coorti (early adopters vs late), le unità trattate in precedenza rappresentano un falsi controfattuali, portando al problema dei "pesi negativi" (negative weights) e distorcendo le stime. Invece del TWFE si dovrebbe applicare l'estimatore Callaway-Sant'Anna, che calcola l'effetto medio di trattamento (ATT) separatamente per ogni gruppo e tempo, utilizzando come controllo solo unità never-treated o not-yet-treated, escludendo già trattati dal pool di controllo, garantendo così una corretta identificazione. Per un principiante: immaginate di confrontare l'effetto di una nuova regola per una classe che l'ha ricevuta a settembre, usando come controllo una classe che l'ha ricevuta in ottobre. Se a ottobre la prima classe si è già abituata, mentre la seconda sta ancora provando lo shock, otterrete un quadro distorto: i metodi moderni confrontano solo con coloro che non hanno mai ricevuto la regola.

Come gestire correttamente la situazione di "contaminazione" o "fuoriuscita" del trattamento, quando gli utenti soggetti al 2FA obbligatorio sul dispositivo mobile iniziano ad utilizzare attivamente la versione web dell'app (dove il 2FA non è ancora stato implementato) per bypassare le restrizioni, e perché l'esclusione di tali utenti dal campione crea distorsioni?

L'esclusione semplice dei "traversatori" crea distorsione da truncamento (truncation bias) o selection bias, poiché gli utenti rimanenti nel campione sono quelli che o hanno meno motivazione a evitare la frizione, o hanno meno competenze tecniche, il che distorce la stima dell'effetto sulla popolazione target. L'approccio corretto è l'analisi Intent-to-Treat (ITT), in cui tutti gli utenti sono analizzati nel gruppo a cui sono stati inizialmente assegnati (app mobile con 2FA), indipendentemente dal comportamento effettivo (passaggio al web). Per stimare l'effetto proprio del meccanismo (Treatment-on-Treated, TOT) si utilizza il metodo Two-Stage Least Squares (2SLS), in cui l'uso effettivo del 2FA è strumentato attraverso l'appartenenza alla coorte di implementazione, permettendo di ripulire la stima dall'"insubordinazione" (non-compliance). Per un principiante: questo è simile a una sperimentazione clinica in cui i pazienti del gruppo del farmaco smettono di assumerlo. Se li escludi, perderai informazioni sul fatto che il farmaco "allontana" un certo tipo di pazienti e sovrastimerai l'efficacia. L'ITT analizza la "designazione", non l"assunzione effettiva", mantenendo la randomizzazione.

Come distinguere il puro effetto della frizione (necessità di immettere un codice) dall'effetto di "segnalazione" o "signposting" (sensazione di maggiore sicurezza creata dalla mera presenza del 2FA), e perché è importante condurre un'analisi di mediazione quando si valuta l'impatto sulla monetizzazione?

L'importanza della separazione risiede nel fatto che questi effetti hanno direzioni opposte di influenza sul comportamento: la frizione riduce la conversione e la frequenza di accesso, mentre il segnale di sicurezza aumenta la propensione a effettuare transazioni di grandi dimensioni e fiducia nella piattaforma. Per separare si utilizza l'Causal Mediation Analysis (ad esempio, l'approccio Imai-Keele-Tingley), dove l'effetto totale (Total Effect) viene decomposto in diretto (frizione) e indiretto attraverso la percezione della sicurezza (mediatore). In alternativa, viene creata una gruppo placebo che riceve un banner di "maggiore sicurezza" e un'icona 2FA, ma senza richiedere effettivamente l'immissione di un codice; il confronto [Complete 2FA] vs [Banner senza 2FA] vs [Controllo] consente di isolare i componenti. Se la crescita del valore medio del carrello si osserva anche nel gruppo placebo, domina l'effetto del segnale; se solo nel gruppo completo—l'effetto è dovuto alla procedura stessa di autenticazione. Per un principiante: immaginate che, in un ristorante, ci sia un guardiano all'ingresso. Le persone possono spendere di più, sentendosi al sicuro (segnale), ma qualcuno potrebbe non entrare non volendo subire controlli (frizione). Per capire se vale la pena mantenere il guardiano, è necessario separare questi effetti, altrimenti non capirete se vale la pena assumere un guardiano più amichevole o basta mettere un cartello "Sorvegliato".