Tradizionalmente, i team di prodotto valutavano l'efficacia dell'onboarding confrontando la retention degli utenti che completavano il training con quelli che lo saltavano. Questo approccio ha generato molti errori di interpretazione: la correlazione osservata tra il completamento del tutorial e la retention rifletteva non un effetto causale della formazione, ma la selezione di utenti altamente motivati. Con l'emergere della Causal Inference nell'industria, è diventato standard distinguere tra intention-to-treat (ITT) e treatment-on-the-treated (TOT), così come utilizzare esperimenti naturali quando la randomizzazione classica non è possibile.
La chiave della complessità risiede nell'endogeneity dell'auto-selezione: la decisione di completare l'onboarding è correlata a caratteristiche non osservabili dell'utente (motivazione, pazienza) che influenzano contemporaneamente la retention futura. Un semplice confronto tra gruppi porta a un survivorship bias e a un'elevata sovrastima dell'effetto. Inoltre, il rollout fase per fase nelle regioni crea opportunità per un quasi-esperimento, ma le regioni differiscono per fattori culturali e metriche di base, rendendo necessario un controllo delle confounding variables.
È necessario applicare il Two-Stage Least Squares (2SLS) utilizzando il flag regionale di implementazione come Instrumental Variable (IV). Nel primo stadio si modella la probabilità di completare l'onboarding (compliance) in base all'appartenenza a una regione in cui la funzione è stata implementata. Nel secondo stadio, i valori previsti sono utilizzati per stimare l'effetto sulla retention. Per tenere conto dell'eterogeneità regionale, si applica il Difference-in-Differences (DiD) con effetti fissi per regioni e tempo. Inoltre viene costruito un Causal Forest per stimare il Conditional Average Treatment Effect (CATE) e identificare i segmenti in cui l'onboarding offre il massimo incremento. È importante controllare il pre-trend della parallelità prima dell'implementazione e verificare la exclusion restriction per l'istrumento.
Un team di un'app mobile per l'apprendimento delle lingue ha implementato un tutorial interattivo obbligatorio di 3 minuti prima di accedere ai contenuti gratuiti. Il lancio pilota ha mostrato che gli utenti che hanno completato l'onboarding avevano una retention a 7 giorni superiore del 35% rispetto a coloro che hanno chiuso l'app durante il tutorial. L'azienda voleva scalare la funzione a tutti gli utenti, ma l'analista sospettava un bias di sopravvivenza.
Opzione 1: Confronto semplice (approccio naif). Confronto della retention tra utenti con onboarding completato vs. skipped. Pro: calcolo immediato, metrica di uplift chiara. Contro: bias critico di selezione; gli utenti disposti a dedicare 3 minuti all'inizio sono già più coinvolti; la stima è sovrastimata di 3-4 volte; non tiene conto delle differenze regionali nella tolleranza al friction.
Opzione 2: A/B test con onboarding obbligatorio. Randomizzazione a livello utente: gruppo A vede il tutorial obbligatorio, gruppo B accede subito al contenuto. Pro: La randomizzazione pura esclude la selezione. Contro: Non-compliance nel gruppo A (alcuni utenti chiudono l'app e non tornano) crea un'attrizione asimmetrica; l'analisi ITT fornisce una stima conservativa, ma non risponde alla domanda dell'effetto per coloro che hanno effettivamente completato il training; possibile negative spillover sui social media.
Opzione 3: Regression Discontinuity Design (RDD) nel tempo. Utilizzo del momento esatto del lancio della funzione nella regione come cutoff. Pro: Alta validità interna per gli utenti "al confine"; non richiede un gruppo di controllo all'interno della regione. Contro: L'effetto locale (LATE) non può essere generalizzato a tutti gli utenti; è necessaria un'alta densità di dati nelle vicinanze del cutoff; la stagionalità e il giorno della settimana del lancio possono distorcere i risultati.
Soluzione scelta: Combinazione dell'IV-approach con il rollout regionale e la Doubly Robust Estimation.
Le regioni con onboarding avviato sono state utilizzate come strumento per il completamento effettivo del tutorial (la condizione di rilevanza è stata verificata tramite correlazione 0.82). Abbiamo applicato 2SLS per stimare l'effetto specifico per i compliers (coloro che avrebbero completato l'onboarding solo se fosse stato obbligatorio). Inoltre, è stato costruito un Synthetic Control per ciascuna regione trattata, utilizzando una combinazione ponderata di regioni di controllo con simili pre-trend.
Risultato finale: L'effetto causale reale è stato di +8% sulla retention a 7 giorni anziché +35% nei dati grezzi. Risultato: l'onboarding è efficace solo per gli utenti con basso coinvolgimento iniziale (CATE = +15%), ma crea friction per gli utenti esperti (CATE = -3%). È stato implementato un sistema adattivo: l'onboarding è stato mostrato solo agli utenti con scarso punteggio di coinvolgimento previsto basato sui primi 10 secondi di sessione. Questo ha portato a un incremento del +12% nella retention globale senza perdita di utenti esperti.
Perché l'A/B test con onboarding obbligatorio fornisce una stima distorta anche con la randomizzazione, e come interpretare correttamente i risultati?
Risposta: Il problema della non-compliance e dell'attrition differenziale. Anche con assegnazione casuale al gruppo di test con onboarding obbligatorio, alcuni utenti si allontanano per sempre (never-takers), mentre nel gruppo di controllo non c'è tale "penalità" per il rifiuto. Questo crea uno skew asimmetrico nella sopravvivenza. Per una corretta valutazione, è necessario calcolare l'effetto Intent-to-Treat (ITT) come la differenza tra i gruppi in base all'assegnazione, e quindi utilizzare il Wald estimator per ottenere il Complier Average Causal Effect (CACE): CACE = ITT / (quota di compliers). È importante verificare che la quota di compliers sia adeguata (>20%), altrimenti la stima risulterà instabile (problem di strumento debole).
Come diagnosticare e correggere gli effetti di spillover negativi, quando gli utenti delle regioni di controllo sono informati del nuovo onboarding e cambiano comportamento prima del lancio effettivo?
Risposta: Questa violazione della SUTVA (Stable Unit Treatment Value Assumption). Per la diagnosi, si analizzano i grafici dello event study sulle installazioni nelle regioni di controllo per identificare un'anomalia di riduzione (chilling effect) prima del rollout. Se lo spillover è confermato, si applica il spatial Difference-in-Differences, dove il controllo è fornito solo da regioni remote senza legami sociali, oppure si utilizza un partial population experiment con il trattamento di un sottoinsieme casuale di utenti all'interno della regione. In alternativa, si applicano two-way fixed effects con interazione della distanza dalla regione di trattamento più vicina come variabile controllata.
Perché è importante distinguere tra frizione a breve termine e accumulo di valore a lungo termine nella scelta dell'orizzonte di osservazione e quali metodi consentono di valutare gli effetti a lungo termine con dati limitati?
Risposta: L'onboarding genera frizione a breve termine, riducendo meccanicamente la retention al giorno 0, ma accumula valore a lungo termine attraverso una migliore comprensione del prodotto. Una valutazione su un intervallo breve (1-3 giorni) può mostrare un effetto negativo a causa dell'abbandono di utenti poco motivati, che già avrebbero avuto un basso LTV. Per stimare gli effetti a lungo termine con dati limitati si utilizza l'Surrogate Index: si costruisce un modello che collega metriche a breve termine (profondità della prima sessione, numero di funzionalità visualizzate) con l'outcome a lungo termine (retention a 30 giorni) sui dati storici precedenti all'implementazione. Si stima quindi l'effetto sul surrogate, che funge da proxy per l'effetto a lungo termine. È importante controllare l'unconfoundedness del surrogate attraverso un'analisi di sensibilità.