Storicamente, la valutazione dei programmi di fedeltà si basava su un semplice confronto delle medie degli acquisti tra i partecipanti e i non partecipanti, il che portava a sopravvalutare l'effetto a causa del selection bias. L'analisi di prodotto moderna richiede l'isolamento del vero effetto causale in condizioni in cui gli utenti si autoselezionano nel programma sulla base di caratteristiche non osservabili (ad esempio, il volume d'acquisto previsto). La chiave è separare l'effetto del programma dalle differenze preesistenti tra i gruppi, così come gestire correttamente i ritardi temporali tra l'accredito e l'attivazione dei bonus.
Per risolvere, è necessario applicare una combinazione di Propensity Score Matching (PSM) e Difference-in-Differences (DiD) con specifiche temporali estese. Nella prima fase, si costruisce un modello di probabilità di adesione al programma basato su covariate fino al momento del lancio (storia degli acquisti, demografia, engagement). Gli utenti vengono accoppiati con il vicino più prossimo o pesi (IPW) per bilanciare la distribuzione delle caratteristiche osservabili. Nella seconda fase si applica DiD con effetti fissi per utenti e tempo, dove i periodi sono suddivisi in bucket rispetto al momento di attivazione del cashback (design di studio degli eventi). Questo consente di tracciare la dinamica dell'effetto, tenendo conto che alcuni utenti attivano i bonus dopo una settimana e altri dopo un mese. Per controllare la cannibalizzazione (spostamento degli acquisti nel tempo), si includono ritardi nella variabile dipendente e si analizzano le coorti con orizzonti di osservazione diversi attraverso Survival Analysis.
Abbiamo lanciato un cashback accumulativo del 5% in un marketplace di elettronica, dove gli utenti dovevano attivare l'opzione nel profilo. Dopo un mese, le metriche mostrano un aumento del 40% nella frequenza degli acquisti tra i partecipanti, ma il business aveva dubbi sulla causalità, poiché si presumeva che si unissero al programma utenti già fedeli. La problematica era complicata dal fatto che i bonus potevano essere spesi solo dopo 14 giorni dall'accredito, creando un picco artificiale di attività nella terza settimana.
La prima opzione considerata è stata un classico A/B test con randomizzazione forzata dell'accesso al cashback. Pro: valutazione pulita dell'effetto causale. Contro: limitazioni legali (non è possibile imporre un programma finanziario senza consenso) e distorsione del comportamento (utenti che sapevano dell'indisponibilità del cashback si sono spostati verso i concorrenti). Questa opzione è stata scartata per rischi etici e commerciali.
La seconda opzione è stata un semplice confronto tra "partecipanti vs non partecipanti" tramite t-test con correzioni per dimensione del campione. Pro: rapidità di attuazione e semplicità nella rendicontazione. Contro: bias di sopravvivenza catastrofico e ignoranza dell'endogeneità; l'analisi ha mostrato che i partecipanti prima dell'attivazione avevano una frequenza di acquisto di 2.3 volte superiore, rendendo il confronto non valido.
La terza opzione è stata il Regression Discontinuity Design (RDD) sulla soglia dell'importo del primo acquisto, che dava automaticamente diritto al cashback. Pro: la casualità locale attorno alla soglia fornisce una stima non distorta per gli utenti marginali. Contro: la valutazione è valida solo per un gruppo ristretto alla soglia (local average treatment effect) e non per l'intero pubblico; inoltre, nel nostro caso non c'era una soglia rigida: il programma era accessibile a tutti subito dopo l'opt-in.
La soluzione scelta è stata una combinazione di Propensity Score Matching per creare un controllo sintetico e Cohort-based Difference-in-Differences tenendo conto dei ritardi temporali. Abbiamo abbinato i partecipanti con i non partecipanti su 15 variabili (segmenti RFM, stagionalità, dispositivo), quindi abbiamo applicato DiD con effetti fissi settimanali e per utente. Per tenere conto del ritardo di 14 giorni, abbiamo costruito uno Event Study con bin relativamente al momento di attivazione, il che ha permesso di separare la vera crescita dal trasferimento degli acquisti. Risultato: l'effetto incrementale netto è stato del +12% nella frequenza degli acquisti e +8% nel valore medio del carrello, dopo aver escluso la cannibalizzazione, mentre i dati grezzi mostrano un +40%. Il programma è stato considerato un successo, ma con aspettative di ROI sostanzialmente più modeste.
Come distinguere correttamente l'effetto del programma dal trasferimento temporale degli acquisti (intertemporal substitution) in presenza di ritardi tra l'accredito e l'utilizzo dei bonus?
La risposta richiede la comprensione degli Dynamic Treatment Effects. È necessario modellare non solo l'effetto medio, ma anche la sua dinamica attraverso la specifica dello Studio degli Eventi: Y_it = α_i + γ_t + Σ_k β_k · D_i,t-k + ε_it, dove D_i,t-k è una variabile dummy rispetto al momento di attivazione. Se i coefficienti β_k prima dell'attivazione non differiscono significativamente da zero (parallel trends test), ma dopo l'attivazione mostrano un picco seguito da un calo al di sotto del livello base - questo è un segno di cannibalizzazione (borrowed demand). Per valutare il netto effetto LTV, è necessario integrare l'effetto nel tempo e confrontarlo con un controfattuale attraverso il Synthetic Control Method, costruito su unità donor con traiettorie pre-simili.
Perché un standard A/B test con randomizzazione individuale può violare l'assunzione SUTVA nei sistemi di cashback?
SUTVA (Stable Unit Treatment Value Assumption) è violata quando i bonus di un utente influenzano il comportamento di altri attraverso la rete (ad esempio, conti familiari o acquisti aziendali). Se il marito attiva il cashback e fa un acquisto per la famiglia, mentre la moglie interrompe i suoi acquisti individuali, la randomizzazione individuale fornirà una stima distorta. È necessario applicare la Cluster Randomization a livello di famiglie o utilizzare metodi di analisi della diffusione (Spillover Effects), come il Two-Stage Least Squares (2SLS) con variabili strumentali (ad esempio, soglie per l'attivazione, variabili tra i cluster).
Come considerare l'eterogeneità dell'effetto in base al tempo di vita dell'utente (customer lifetime stage) in presenza di stagionalità?
I candidati spesso ignorano che l'effetto del cashback è diverso per i nuovi utenti (effetto di motivazione primaria) e per quelli maturi (effetto di ritenzione). È necessario applicare un Triple Difference (DDD): effetto del programma = (Y_post - Y_pre) per treatment - (Y_post - Y_pre) per control, differenziato per segmenti di tenure (nuovi/maturi). In questo caso la stagionalità è controllata attraverso effetti fissi mensili di interazione con il segmento. In alternativa, utilizzare Heterogeneous Treatment Effects attraverso Causal Forests o Meta-learners (S-learner, T-learner), che consente di identificare i segmenti con CATE positivo (Conditional Average Treatment Effect) e ottimizzare il targeting del programma su di essi, evitando spese per utenti con effetto nullo o negativo.