Risposta alla domanda.

La personalizzazione delle notifiche push richiede un rigoroso approccio quasi-sperimentale a causa dell’auto-selezione degli utenti in base ai tempi di attività. La possibile contaminazione incrociata (cross-contamination) attraverso i social network o gli account familiari complica ulteriormente l'isolamento dell'effetto.

Il metodo chiave è Difference-in-Differences (DiD) con controllo sintetico. Il gruppo di controllo è formato sulla base del propensity score matching in base ai tempi di apertura dell'app e ai pattern storici degli ordini.

Per regolare gli effetti time-of-day si applica la stratificazione per fasce orarie. La cross-contamination è rilevata attraverso l'analisi device ID e indirizzi IP per identificare gli account condivisi.

La metrica di retention è calcolata come hazard ratio utilizzando il Cox proportional hazards model. Questo permette di considerare dati censurati e eterogeneità del rischio di abbandono.

Situazione della vita reale

Nell'app Delivery Club si prevedeva l'implementazione di un modello ML in Python utilizzando CatBoost per personalizzare il tempo di invio delle notifiche push. Il problema era che gli utenti attivi aprivano l'app principalmente durante le ore di pranzo, creando un bias di auto-selezione.

Il rollout parziale sul 20% del pubblico ha provocato un effetto "passaparola". Gli utenti del gruppo di controllo venivano a conoscenza delle promozioni dai colleghi, creando contaminazione incrociata.

La prima soluzione considerata è stata un classico A/B test con segmentazione geografica. La città A era il gruppo di prova, la città B il controllo.

Punti di forza di questo approccio includevano un'isolamento pulito dei gruppi e la facilità di interpretazione dei risultati per il business. Punti deboli includevano differenze nelle preferenze culinarie e nei redditi tra le città, che creavano uno spostamento del 12-15% nella retention di base.

La seconda opzione era l'analisi solo degli utenti con notifiche attivate (analisi per protocollo). Questo permetteva di concentrarsi sul pubblico di riferimento che reagiva alle comunicazioni.

Punti di forza — alta rilevanza per il team di prodotto. Punti deboli — ignorare l'effetto del bias opt-out: gli utenti che disattivavano le notifiche avevano un churn di base 3 volte superiore, distorcendo l'effetto complessivo dell'intervento.

La terza soluzione è stata Causal Impact di Google con costruzione di controllo sintetico. Venivano utilizzati Bayesian Structural Time Series per la modellizzazione del controfattuale.

Punti di forza includevano la considerazione delle tendenze temporali e della stagionalità senza necessità di controllo esplicito. Punti deboli — alta sensibilità alla scelta delle covariate e fragilità dell'ipotesi di tendenze parallele fino all'intervento.

L'approccio scelto è stato un metodo combinato: Inverse Probability Weighting (IPW) per regolare l'auto-selezione in base ai tempi di attività più Diff-in-Diff con clustering degli errori standard a livello di cluster geografici.

Questa soluzione manteneva la variabilità individuale del tempo di invio, critica per la personalizzazione. Contemporaneamente garantiva il controllo sulle spillover intergruppo grazie alla robustezza del clustering.

Il risultato è stata la scoperta di un vero effetto incrementale del +8.3% sulla retention a 7 giorni. Il confronto naive mostrava un +15%. L'effetto era statisticamente significativo solo per il segmento "utenti con 3+ ordini nella storia".

Questo ha permesso di ottimizzare il budget per l'invio, escludendo utenti freddi dal pubblico target delle campagne personalizzate.

Cosa i candidati spesso dimenticano

Come considerare correttamente la stagionalità nel calcolo della previsione LTV per un prodotto in abbonamento con piani annuali e mensili in presenza di eterogeneità di coorte?

I neofiti spesso utilizzano una semplice media delle storiche curve di retention senza considerare che gli utenti che arrivano durante il periodo del Black Friday hanno un profilo di retention qualitativamente diverso. Il loro churn è 2-3 volte superiore rispetto agli utenti organici.

L'approccio corretto è costruire modelli separati BG/NBD o Gamma-Gamma per ogni coorte tenendo conto delle variabili dummy stagionali. Un'alternativa è l'uso di Cohort-Based LTV con correzione tramite Bayesian Hierarchical Modeling per il borrowing strength tra le coorti (partial pooling).

Qual è la differenza tra l'analisi intent-to-treat (ITT) e l'analisi treatment-on-the-treated (TOT) nella valutazione dell'effetto di un onboarding tour e quando applicare quale approccio?

L'analisi ITT valuta l'effetto di offrire a tutti gli utenti del gruppo di prova di partecipare all'onboarding, inclusi i rifiuti. TOT misura l'effetto diretto della partecipazione al tour (complier average causal effect).

L’ITT è conservativo ed è adatto per decisioni aziendali sullo scaling della funzione. Riflette il vero comportamento del pubblico tenendo conto del friction. TOT richiede strumental variables e risponde alla domanda sulla pertinenza dell'onboarding forzato.

Un errore nella scelta del metodo porta a un’overestimation dell'effetto del 40-60%. Per TOT si possono usare bug casuali nella visualizzazione del tour come strumento (instrument).

Come diagnosticare il problema del "peeking" durante la conduzione di A/B testing sequenziali e quali aggiustamenti statistici applicare?

Il peeking si verifica quando il test viene interrotto prematuramente al raggiungimento della significatività. La diagnosi è l'analisi dei p-value nel tempo: nel caso del peeking, la curva mostra un "random walk smussato" con frequenti incroci al di sopra della soglia di 0.05.

Le soluzioni includono Group Sequential Testing con funzioni di alpha-spending (O'Brien-Fleming). Un'alternativa è il Bayesian A/B Testing con l'approccio ROPE (Region of Practical Equivalence).

Efficace è anche la fissazione della dimensione del campione tramite Data Quality Gates in Apache Airflow. Un errore critico è l'uso di naive confidence intervals senza correzione di Bonferroni, il che gonfia il tasso di falsi positivi fino al 25-30% con 5 controlli intermedi.