Risposta alla domanda

Contesto storico

L'evoluzione dell'e-commerce dagli acquisti impulsivi al consumo pianificato è iniziata con l'introduzione di Amazon Subscribe & Save nel 2008, quando i rivenditori si sono resi conto che la fidelizzazione attraverso la riduzione del carico cognitivo negli ordini ripetuti è più efficace di sconti aggressivi. Entro il 2015, sono emerse liste intelligenti con previsioni di Machine Learning per il riordino, che analizzavano gli intervalli tra gli acquisti di latte o pannolini. Tuttavia, le prime valutazioni dell'efficacia affrontavano un problema fondamentale: gli utenti che creano liste mostrano inizialmente una maggiore disciplina nella pianificazione e lealtà, rendendo il confronto diretto con un pubblico 'freddo' improprio dal punto di vista della causalità.

Definizione del problema

La difficoltà chiave riguarda l'endogeneità della selezione autonoma: la creazione di una lista non è un'interazione casuale, ma il risultato di un'intenzione consapevole da parte dell'utente di ottimizzare le proprie spese. Ciò porta a un bias del campione, dove il 'trattamento' (presenza della lista) è correlato a caratteristiche non osservabili (organizzazione, dimensione della famiglia, regolarità dei consumi). Inoltre, interviene la dinamica temporale: l'effetto delle liste per i prodotti deperibili (riordino settimanale) è diverso dall'effetto per i prodotti stagionali (decorazioni natalizie), e le raccomandazioni di ML possono causare cannibalizzazione delle aggiunte spontanee al carrello, distorcendo l'analisi complessiva del fatturato.

Soluzione dettagliata

L'approccio ottimale è una combinazione di Difference-in-Differences (DiD) con Propensity Score Matching (PSM) e Fixed Effects per controllare la stagionalità. Nella prima fase utilizziamo il Causal Forest per valutare l'eterogeneità dell'effetto tra le categorie di prodotto, identificando segmenti in cui le liste aumentano effettivamente la frequenza, invece di fissare semplicemente un comportamento esistente. Per isolare la relazione causale, applichiamo il Regression Discontinuity Design (RDD) sulla soglia del numero di ordini precedenti in cui la funzione 'Liste salvate' diventa accessibile (ad esempio, dopo il terzo ordine), creando condizioni quasi sperimentali di randomizzazione locale. In alternativa, con un'implementazione graduale per regioni, utilizziamo il Synthetic Control Method, costruendo una combinazione ponderata di regioni di controllo che imitano la dinamica della regione testuale prima dell'implementazione. Per tenere conto della cannibalizzazione, analizziamo non solo le metriche degli utenti con liste, ma anche il Diversion Ratio — la percentuale di ordini che transitano da sessioni spontanee a pianificate attraverso le liste.

Situazione reale

Contesto: L'ipermercato 'CiboSempre' ha lanciato la funzione 'Frigorifero Intelligente' — liste automatiche di riordino basate su analisi predittive IA della storia degli acquisti e delle scadenze. L'obiettivo era aumentare la frequenza degli ordini del 20% riducendo il freno negli acquisti ripetuti di beni domestici e alimenti.

Opzione di soluzione 1: Confronto diretto tra utenti con liste e senza (Before-After)

Il team di analisi ha proposto di confrontare il valore medio del carrello e la frequenza degli ordini di 10.000 utenti che hanno creato liste nella prima settimana, con un gruppo di controllo di utenti casuali senza liste. I vantaggi di questo approccio sono la massima semplicità di implementazione e la velocità dei risultati. Gli svantaggi sono un catastrofico bias del campione: i creatori di liste si sono rivelati famiglie con bambini che ordinano settimanalmente, mentre il gruppo di controllo includeva visitatori casuali con ordini sporadici. L'aumento osservato del 35% si è rivelato un artefatto della selezione autonoma, piuttosto che un effetto della funzione.

Opzione di soluzione 2: A/B testing forzoso con visibilità del pulsante

Il team di prodotto ha proposto di mostrare il pulsante 'Crea lista' al 50% degli utenti in verde brillante, mentre all'altro 50% in grigio e nascosto nel menu, creando una differenza nella penetrazione. I punti positivi sono la possibilità di valutare l'effetto netto della disponibilità della funzione. Gli svantaggi sono rischi etici e di UX: nascondere una funzione utile agli utenti leali riduce la loro esperienza e la bassa conversione nella creazione di liste (2% contro 15% nel test) portava a una potenza statistica insufficiente e all'impossibilità di valutare l'effetto a lungo termine dell'abitudine.

Opzione di soluzione 3: Regression Discontinuity Design sulla soglia di attività (Soluzione scelta)

Gli analisti hanno scelto il metodo di regressione discontinuity, utilizzando una soglia di 3 ordini in 60 giorni: gli utenti che raggiungono questa soglia ottengono automaticamente accesso al 'Frigorifero Intelligente' con raccomandazioni ML, mentre gli utenti con 2 ordini no. Questo ha creato condizioni quasi sperimentali di randomizzazione locale vicino alla soglia. I vantaggi includono la minimizzazione del bias della selezione autonoma in una stretta fascia attorno al cutoff (gli utenti con 2 e 3 ordini sono statisticamente indistinguibili per caratteristiche osservabili). Gli svantaggi includono la limitata generalizzabilità dei risultati solo per gli utenti 'di confine', e la necessità di verificare la continuità della distribuzione delle covariate attorno alla soglia.

Risultato finale: L'analisi ha mostrato un reale incremento della frequenza degli ordini del 12% (rispetto al apparente 35%) e una crescita del valore medio del carrello dell'8% solo per la categoria 'Detergenti e prodotti cartacei'. Per i prodotti deperibili, l'effetto era statisticamente insignificante a causa dei limiti fisici delle scadenze. È emerso che il 30% della crescita del fatturato era costituito da cannibalizzazione di acquisti spontanei, che sono transitati in pianificati. Sulla base dei dati, l'azienda ha corretto il modello ML, escludendo dalle raccomandazioni categorie impulsive (dolci, snack), preservando la crescita complessiva del fatturato ma aumentando la soddisfazione degli utenti, poiché il 'Frigorifero Intelligente' ha smesso di 'suggerire' abitudini nocive.

Cosa i candidati spesso trascurano

Perché non è possibile semplicemente confrontare le metriche degli utenti con e senza liste attraverso un normale t-test o regressione lineare?

La risposta risiede nel fondamentale problema dell'endogeneità e del bias di selezione autonoma. Gli utenti che investono tempo nella creazione di liste strutturate si differenziano sistematicamente dai visitatori casuali su caratteristiche non osservabili: hanno consumi pianificati più elevati, dimensioni della famiglia superiori, e maggiore prevedibilità della pianificazione della vita. La regressione OLS, anche controllando per la demografia, non riesce a catturare la 'cultura della pianificazione' come variabile latente. Ciò porta a una sovrastima dell'effetto della funzione, poiché metriche elevate sono spiegate non dalle liste stesse, ma dall'originaria alta engagement degli utenti. Per una valutazione corretta è necessario utilizzare variabili strumentali (IV), disegni quasi sperimentali (RDD, DiD) o metodi di doppia differenza con matching (PSM-DiD), che isolano la variazione non legata alle preferenze individuali.

Come si può separare l'effetto del tipo di utente 'pianificatore' dal vero effetto della funzione delle liste quando si analizzano gli ambiti di impatto intensivo ed estensivo?

È necessario distinguere il margine intensivo (aumento della frequenza tra coloro che già pianificano acquisti) e il margine estensivo (coinvolgimento dei clienti impulsivi nella pianificazione). A questo scopo si utilizza il Causal Forest o analisi degli Heterogeneous Treatment Effects, che permette di valutare l'effetto per sottogruppi. L'insight chiave è utilizzare la regressione logistica ordinale con variabili fittizie per il numero di liste create. Se la funzione funziona, vedremo un significativo aumento delle metriche passando da 0 a 1 lista (margine estensivo), ma cambiamenti insignificanti passando da 5 a 6 liste (margine intensivo, dove domina la selezione autonoma). È anche importante analizzare il time-to-event (tempo fino al prossimo ordine) attraverso il Cox Proportional Hazards Model, controllando il rischio di abbandono di base, permettendo di separare la regolarità 'naturale' da quella 'artificiale' suggerita dal sistema.

Come considerare correttamente la cannibalizzazione tra acquisti pianificati tramite liste e aggiunte spontanee al carrello, dato che le liste possono semplicemente spostare il fatturato da un canale all'altro senza aumento del GMV totale?

I candidati ignorano spesso la necessità di analizzare il diversion ratio e la composizione del carrello. È necessario costruire un modello di triple-difference (DiD con una misura aggiuntiva), confrontando le variazioni nella struttura del carrello tra utenti con liste prima e dopo l'implementazione, rispetto a un gruppo di controllo. È importante monitorare la metrica 'share of wallet' — la quota di categorie tradizionalmente acquistate impulsivamente (dolci, snack) nel valore medio del carrello. Se la quota delle categorie impulsive diminuisce per gli utenti con liste, ma cresce per il controllo, questo è un segnale di cannibalizzazione. Per una valutazione quantitativa, si utilizzano il Almost Ideal Demand System (AIDS) o il Rotterdam Model, che valutano l'elasticità della sostituzione tra i canali di acquisto. Senza questa analisi, l'azienda potrebbe investire erroneamente nello sviluppo della funzione delle liste, ottenendo un effetto incrementale nullo a livello di business, nonostante l'aumento delle metriche nel segmento degli utenti 'con lista'.