Risposta alla domanda.

Storicamente, il marketing via email si è sviluppato nella paradossale massimizzazione dei touchpoint, in cui l'aumento della frequenza delle comunicazioni era correlato a un aumento delle entrate fino a saturazione. Con lo sviluppo della teoria dell'engagement fatigue e l'inasprimento dei filtri antispam (SpamAssassin, Gmail Promotions Tab), è emersa la necessità di ottimizzare la frequenza, ma i classici confronti before/after si sono rivelati inaffidabili a causa degli effetti non lineari della saturazione e degli shock esterni.

Il problema della valutazione risiede nell'impossibilità di creare un gruppo di controllo durante un rollout globale, nella presenza di bias di auto-selezione (differenti segmenti rispondono in modo diverso alla riduzione dei contatti) e fattori confondenti (stagionalità, tendenze macroeconomiche, attività di marketing parallele). L'analisi correlaionale standard mescola l'effetto causale con tendenze generali di crescita o declino del prodotto.

La soluzione ottimale richiede una combinazione di metodi quasi-esperimentali. Utilizziamo Difference-in-Differences (DiD) con Propensity Score Matching (PSM) su metriche storiche di engagement (open rate, click rate, recency). Per ogni segmento costruiamo un controllo sintetico attraverso il Synthetic Control Method, utilizzando serie temporali correlate (traffico organico, accessi diretti all'app) come covariate. Per l'inferenza utilizziamo Causal Impact basato su Bayesian Structural Time Series, che consente di modellare il controfattuale con intervalli di confidenza. Inoltre, applichiamo Causal Forests per valutare heterogeneous treatment effects tra i segmenti RFM. La validazione viene effettuata tramite placebo tests sul periodo pre-intervento per verificare l'assunzione di parallel trends e sensitivity analysis per valutare la robustezza rispetto ai confondenti non osservati.

Situazione reale.

Una piattaforma EdTech con 2 milioni di utenti ha affrontato un aumento del tasso di disiscrizione del 40% nel trimestre e ha deciso di ridurre la frequenza del digest educativo da quotidiana a tre volte a settimana. Il problema era dimostrare al CEO che la riduzione della frequenza non avrebbe distrutto le entrate dai power users, mentre la modifica era stata avviata il 15 dicembre — una settimana prima del tradizionale picco di acquisti di corsi pre-natalizi, creando un forte confondente temporale.

Il primo approccio considerato è stato un semplice confronto delle medie degli importi spesi nella settimana prima e dopo tramite t-test. I vantaggi erano la velocità di attuazione e la comprensibilità per gli stakeholder di business. Gli svantaggi erano critici: l'ignoranza totale della crescita stagionale degli acquisti a dicembre dava un falso positivo di aumento LTV del 15%, mentre effettivamente si poteva osservare un effetto nullo o negativo dalla riduzione delle comunicazioni.

Il secondo approccio prevedeva un'analisi per coorti con un lag di 30 giorni, confrontando le coorti di novembre e dicembre. I vantaggi includevano il riconoscimento del ciclo di vita dell'utente e metriche corrette per la stagionalità. Gli svantaggi si manifestavano nel fatto che le diverse coorti avevano differenti tassi di conversione di base, e la coorte di dicembre era distorta dalle campagne promozionali natalizie, creando un selezione bias inesorabile e l'impossibilità di isolare l'effetto netto della frequenza delle email.

Il terzo approccio — costruzione di un Synthetic Control basato su dati geografici, utilizzando regioni dell'CEI con bassa penetrazione del canale email (dove gli utenti si orientano su push e SMS) come gruppo di controllo per le regioni ad alta dipendenza dai digest via email. Vantaggi: possibilità di modellare il controfattuale «cosa sarebbe successo senza la modifica» a livello di serie temporali aggregate. Svantaggi: l'assunzione di tendenze parallele veniva violata a causa delle differenze regionali nelle tradizioni festive di apprendimento, e i dati delle città erano fortemente disturbati dalla migrazione degli utenti tra le regioni durante le festività natalizie.

Il quarto approccio (scelto) — Difference-in-Differences con matching esatto basato sull'attività storica (aperture, clic, acquisti negli ultimi 90 giorni prima della modifica). Abbiamo utilizzato i power users (che aprivano >70% delle email) come gruppo di trattamento e i dormienti (che aprivano <5% delle email) come controllo, poiché questi ultimi non avvertivano effettivamente la modifica della frequenza. Vantaggi: rigoroso controllo delle caratteristiche osservabili tramite PSM e possibilità di convalida dei parallel trends su dati dei trimestri precedenti. Svantaggi: l'assunzione di assenza di tendenze differenziali tra utenti attivi e inattivi richiedeva ulteriori verifiche. Per robustezza abbiamo applicato Causal Impact, utilizzando metriche dell'app mobile (sessioni, acquisti in-app) come serie temporali di controllo, non correlate direttamente con la frequenza delle email ma riflettenti la tendenza generale del prodotto.

Il risultato finale ha mostrato che per i power users la riduzione della frequenza ha portato a una significativa diminuzione del retention a 30 giorni del 8% (p-value < 0.05, 95% CI [5%, 11%]), ma ha aumentato il valore a vita del 3% grazie alla riduzione dell'abbandono delle liste spam. Per gli utenti mediamente attivi, l'effetto è stato statisticamente neutro. Raccomandazione per il business: ripristinare la frequenza quotidiana solo per il top 10% di utenti con punteggio di coinvolgimento più alto tramite segmentazione, mentre per il resto della base mantenere tre email a settimana.

Cosa i candidati spesso trascurano.

Come distinguere l'effetto della frequenza delle email dall'effetto della qualità dei contenuti, se parallelamente alla riduzione della frequenza il team ha migliorato copywriting e design delle email?

La risposta richiede l'applicazione di mediating analysis e strumental variables (IV). È necessario costruire un modello a due stadi: prima valutare l'impatto della variazione della frequenza sulla probabilità di apertura dell'email (controllando la qualità dei contenuti tramite metriche del punteggio di leggibilità o tasso di coinvolgimento nel periodo di controllo), quindi valutare l'impatto dell'apertura sulla conversione. Si utilizzano pacchetti mediation in R o Python (libreria mediation) per decomporre l'effetto totale in effetto diretto (frequenza) e effetto indiretto (qualità). Un aspetto critico per un professionista alle prime armi è che se la qualità dei contenuti è un collider (dipende dalla frequenza tramite le risorse liberate dal team di copywriter), è necessario un front-door adjustment di Pearl o l'uso di metriche di qualità lagged (valore della qualità con lag=1) come strumento per isolare l'effetto netto della frequenza.

Come interpretare correttamente i risultati in caso di violazione della SUTVA (Stable Unit Treatment Value Assumption), quando gli utenti scambiano codici promozionali dalle email sui social network, creando spillover effects tra i gruppi di trattamento e controllo?

I candidati spesso ignorano l'interferenza di rete, assumendo l'indipendenza delle osservazioni. La soluzione è passare dall'analisi a livello individuale a quella a livello di cluster (cluster robust standard errors) o utilizzare metodi di causal inference under interference. È necessario identificare i cluster tramite grafi sociali (se disponibili dati sulle connessioni) o vicinanza geografica, quindi applicare la mappatura dell'esposizione per dati osservazionali. Per valutare gli spillover si utilizzano definizioni di trattamento basate sui vicinati o modelli di esposizione sinusoidale. È importante capire che in presenza di spillover positivi (viralità dei codici promozionali) le stime standard tendono a sottovalutare l'effetto, poiché il gruppo di controllo riceve parzialmente “trattamento” attraverso la rete. È necessario correggere le stime tramite inverse probability weighting tenendo conto del grado di esposizione dei vicini.

Come condurre un'analisi di sensibilità per valutare la robustezza dei risultati rispetto a confondenti non osservati (unobserved confounding), come una campagna pubblicitaria simultanea su Facebook mirata alla stessa audience?

L'approccio standard nell'analisi dei prodotti è utilizzare E-value (VanderWeele & Ding) per stimare la minima forza di associazione che un confondente non osservato dovrebbe avere per spiegare l'associazione osservata. Si applica anche bounding analysis (Rosenbaum bounds) per test basati su ranking. È criticamente importante per un professionista alle prime armi comprendere la tecnica dei negative controls — utilizzare risultati che non dovrebbero essere influenzati dal trattamento (ad esempio, il numero di sessioni nell'app mobile, se stiamo cambiando solo il canale email), ma che correlano con il presunto confondente. Se la “riduzione delle email” influenza il tempo nell'app (cosa che non dovrebbe accadere), questo è un segnale della presenza di un confondente comune (ad esempio, budget di marketing condivisi o stagionalità).