Risposta alla domanda

Storicamente, le campagne di marketing sono state valutate tramite l'effetto medio di trattamento (ATE), ma l'evoluzione del Causal ML ha portato a modelli uplift, che prevedono l'effetto terapeutico individuale (ITE). Il classico test A/B qui è paradossale: per addestrare il modello sono necessari dati sui gruppi trattati e di controllo per tutti i segmenti, ma per valutare il modello, deve essere applicato, il che distrugge il gruppo di controllo. Questo crea un dilemma tra esplorazione e sfruttamento (exploration-exploitation).

Il problema si complica con la contaminazione incrociata (contamination), quando il comportamento degli utenti del gruppo di test influisce sul controllo attraverso effetti di rete o risorse comuni (ad esempio, esaurimento del limite dei codici promozionali). È necessario un metodo che consenta di addestrare il modello e isolare il suo effetto incrementale rispetto a una distribuzione uniforme o all'assenza di campagna.

La soluzione si basa su un Approccio a Due Fasi. La prima fase è l'esplorazione con randomizzazione (20-30% del traffico) per raccogliere dati non distorti, addestrare il modello (X-learner o R-learner) per valutare il CATE (Effetto Medio di Trattamento Condizionale). La seconda fase è lo sfruttamento con un graduale trasferimento del traffico al modello tramite Thompson Sampling o Contextual Bandits, minimizzando il regret. Per isolare l'effetto si utilizza la Randomizzazione Basata sui Cluster (randomizzazione per cluster geografici) o il Test di Switchback (randomizzazione temporale) con successiva valutazione attraverso il Metodo di Controllo Sintetico (SCM). La metrica di qualità è il Qini-coefficient o l'Area Sotto la Curva di Uplift (AUUC), corretta tramite Inverse Propensity Weighting (IPW) per eliminare il bias di selezione.

Situazione della vita reale

Il problema è emerso in un marketplace al momento del lancio di una campagna con codici promozionali personalizzati. Il product manager voleva utilizzare un modello uplift per inviare sconti solo ai "persuadables" (coloro che acquistano solo con un codice promozionale), evitando i "sure things" e i "lost causes". Un test A/B standard era impossibile, poiché per addestrare erano necessari dati sui non riceventi il codice promozionale in tutti i segmenti, ma mantenere il 50% del pubblico senza codici promozionali riduceva drasticamente le entrate.

Primo opzione — Hold-out Randomization con il 10% degli utenti mantenuti completamente sotto controllo per l'intero periodo. Vantaggi dell'approccio: valutazione pulita dell'ATE e possibilità di addestrare correttamente il modello sul contrasto. Svantaggi: significative entrate perse (opportunity cost), conflitti etici (discriminazione di prezzo senza criteri trasparenti) e lenta convergenza del modello a causa della piccola dimensione del gruppo di controllo.

Seconda opzione — Thompson Sampling con un aumento graduale della quota di traffico. Qui il "manipolatore" del bandito sono le strategie di targeting (modello uplift contro random). Vantaggi: ottimale rapporto esplorazione/sfruttamento, adattamento alla stagionalità e minimizzazione delle perdite economiche. Svantaggi: complessità di interpretazione nelle fasi iniziali, rischio di cadere in un ottimo locale in caso di scelta infelice dei contesti e necessità di grandi volumi di traffico per significatività statistica.

Terzo opzione — Geo-based Synthetic Control. La randomizzazione è stata condotta per regioni: nei test sono stati utilizzati modelli uplift, nei controlli il vecchio sistema. Per la valutazione è stato utilizzato il SCM, che crea una combinazione pesata delle regioni di controllo, emulando i test prima dell'implementazione. Vantaggi: isolamento dell'effetto dalla randomizzazione individuale, lavoro con dati aggregati e assenza di contaminazione incrociata tra città. Svantaggi: richiesta di stabilità delle regioni nel tempo, sensibilità agli outlier in unità geografiche piccole e supposizione di tendenze parallele, che spesso è violata in periodi di alta stagionalità.

È stata scelta una soluzione combinata: Geo-cluster Randomization con Synthetic Control per la validazione offline e Thompson Sampling per l'ottimizzazione online all'interno dei cluster di test. Giustificazione: la randomizzazione geografica ha escluso la contaminazione incrociata (gli utenti di diverse città raramente interagiscono), e il Synthetic Control ha evitato uno split 50/50. Il Thompson Sampling all'interno delle regioni di test ha garantito un rapido adattamento del modello alle preferenze locali.

Risultato: è stato possibile isolare il vero effetto incrementale del modello uplift del +12% sulla conversione rispetto alla mailing di massa, riducendo le spese per i codici promozionali del 35%. Il Synthetic Control ha dimostrato che senza il modello, il trend nelle regioni di test avrebbe seguito la dinamica del controllo sintetico con un'accuratezza del 94% (RMSPE), il che ha confermato la validità della valutazione.

Cosa i candidati spesso tralasciano

Perché non è possibile semplicemente confrontare la conversione di coloro che hanno ricevuto un codice promozionale secondo il modello, con quelli che non lo hanno ricevuto (dati osservazionali), anche utilizzando il Propensity Score Matching?

Risposta: Self-selection bias e unobserved confounders. Gli utenti con un alto punteggio uplift possono differire sistematicamente per caratteristiche non osservabili (ad esempio, ricevere recentemente lo stipendio o cercare un prodotto specifico). Propensity Score Matching (PSM) corregge solo per covariate osservabili, ma se esiste una variabile nascosta che influisce sia sulla probabilità di ricevere il codice promozionale, sia sulla conversione, la valutazione sarà distorta. Ad esempio, gli utenti attivi con molte sessioni possono essere erroneamente classificati come "persuadables", ma potrebbero acquistare anche senza sconto. Per un professionista alle prime armi è cruciale comprendere che la correlazione tra il punteggio uplift previsto e la conversione effettiva non è uguale all'effetto causale: è necessaria una randomizzazione o variabili strumentali (IV) per l'isolamento.

Come influisce la dipendenza temporale (time-varying confounders) sulla valutazione del modello uplift durante un lungo periodo di addestramento, e come affrontarla?

Risposta: Durante l'addestramento a lungo termine emerge un temporal confounding: il comportamento degli utenti cambia (stagionalità, aggiornamenti di prodotto), e i dati della fase di esplorazione invecchiano al momento dello sfruttamento. Un modello uplift classico presuppone la stazionarietà (stationarity), il che è raramente vero. La soluzione è utilizzare adaptive experimentation con decaying weights per i dati vecchi o algoritmi di online learning (ad esempio, Bayesian Updating). È anche necessario monitorare il concept drift attraverso l'Population Stability Index (PSI) per le caratteristiche e le prestazioni del modello. Gli analisti alle prime armi spesso addestrano il modello su dati trimestrali, e lo applicano sei mesi dopo, senza verificare il bias nel comportamento del pubblico (ad esempio, a causa dell'uscita di un concorrente), portando a negative uplift in produzione.

Perché la metrica AUUC (Area Under Uplift Curve) può essere fuorviante quando si confrontano due diversi modelli uplift, e quali alternative utilizzare?

Risposta: AUUC dipende dalla distribuzione del previsto uplift nella popolazione e non è scale-invariante. Se un modello prevede in modo conservativo un basso uplift per tutti, mentre un altro prevede in modo aggressivo con alta dispersione, le loro curve si intersecheranno, e l'AUUC darà un risultato ambiguo. Inoltre, l'AUUC ignora le restrizioni aziendali (budget per i codici promozionali). L'alternativa è il Qini coefficient sensibile ai costi o le Response Attese con budget fisso. È importante per un professionista alle prime armi comprendere che un buon modello secondo l'AUUC ≠ buona metrica aziendale. È necessario utilizzare la Policy Evaluation con simulazione della strategia: ordinare gli utenti secondo l'uplift previsto, prendere il top-K% (secondo il budget), e confrontare il guadagno effettivo con lo scenario controfattuale tramite Doubly Robust Estimation o Inverse Probability Weighting (IPW).