Risposta alla domanda

I metodi tradizionali di pricing nell'e-commerce si sono a lungo basati su semplici analisi di correlazione o brevi A/B test per valutare le modifiche delle soglie di consegna. Tuttavia, con lo sviluppo della teoria dell'inferenza causale (Causal Inference), è diventato evidente che i cambiamenti drastici nella politica di consegna per l'intera base utenti creano problemi di endogenicità della selezione e dinamica temporale. L'analisi del prodotto moderna richiede l'applicazione di metodi quasi-esperimentali come il Synthetic Control Method (SCM) e il Bayesian Structural Time Series (BSTS), sviluppati per valutare politiche macroeconomiche, ma adattati con successo per prodotti digitali con metriche ad alta volatilità.

Con l'aumento della soglia di consegna gratuita, emerge un problema complesso di identificazione dell'effetto medio locale dell'impatto (LATE). Gli utenti con alta propensione all'acquisto modificano il loro comportamento (acquistano fino alla soglia), mentre gli utenti marginali rimandano l'acquisto o si rivolgono ai concorrenti. L'analisi classica pre-post fornisce una stima distorta a causa di effetti stagionali, inflazionistici e campagne competitive. Inoltre, si osserva un effetto di sostituzione intertemporale (intertemporal substitution), quando gli utenti raggruppano gli acquisti nel tempo, creando un picco artificiale nel valore medio degli ordini che non è correlato a un reale aumento della domanda, il che richiede la modellazione della struttura temporale della risposta.

L'approccio ottimale è una combinazione del Synthetic Control Method a livello di coorti aggregate di utenti e del Regression Discontinuity Design (RDD) per la valutazione locale dell'effetto sugli utenti marginali. Per SCM si costruisce una combinazione pesata di aree geografiche o segmenti con dinamiche storiche simili, che mimano la tendenza del gruppo target prima dell'intervento, utilizzando un algoritmo di ottimizzazione dei pesi Abadie-Diamond-Hainmueller. Per RDD si analizzano le transazioni in una fascia ristretta attorno alla soglia (optimal bandwidth attraverso l'algoritmo Imbens-Kalyanaraman), il che consente di isolare l'effetto netto dell'incentivo. Inoltre, si applica CausalImpact basato su BSTS per la valutazione dinamica della deviazione dalla tendenza sintetica, e la significatività statistica viene calcolata tramite permutation test (placebo tests) sui dati storici.

Situazione della vita reale

Un grande marketplace di moda ha deciso di aumentare la soglia di consegna gratuita da 1500₽ a 2500₽ per l'intero pubblico in Russia in un colpo solo. Il team del prodotto ha registrato un aumento del valore medio degli ordini del 22% nelle prime due settimane, ma il CFO ha messo in dubbio la sostenibilità di questo effetto, temendo la perdita di utenti di valore e la cannibalizzazione delle vendite future tramite il meccanismo degli acquisti rinviati. L'analista ha affrontato la sfida di separare il vero effetto causale dal rumore delle vendite stagionali e del cambiamento nel comportamento dei concorrenti, che hanno lanciato campagne sulla consegna in parallelo.

Il primo approccio considerato è stato un semplice confronto delle metriche per 30 giorni prima e 30 giorni dopo il cambiamento utilizzando il t-test e calcolando l'up- uplift in percentuale. Pro: massima velocità di attuazione in un giorno e alta chiarezza per il top management senza immersione nella statistica. Contro: totale ignoranza della tendenza stagionale crescente (inizio della collezione primaverile), assenza di controllo sugli shock esterni (campagna pubblicitaria del concorrente) e impossibilità di valutare l'effetto dinamico dell'accumulo dei carrelli, che porta a una sovrastima dell'effetto del 40-60%.

Il secondo approccio è stato il Geographic Difference-in-Differences, utilizzando regioni senza modifica della soglia (ad esempio, aree remote con limitazioni logistiche) come gruppo di controllo. Pro: naturale variazione e capacità di cogliere le differenze regionali nella sensibilità al prezzo tramite effetti fissi. Contro: grave violazione dell'assunzione di tendenze parallele (parallel trends) a causa della migrazione degli utenti tra le città (violazione di SUTVA) e sostanziale differenza nell'ambiente competitivo tra le capitali e le regioni, il che rende il gruppo di controllo sistematicamente incomparabile.

Il terzo approccio è stato il Synthetic Control Method a livello di coorti di utenti, formate in base alla frequenza di acquisto storica e al valore medio degli ordini, costruito sui dati degli ultimi 12 mesi prima del cambiamento. Pro: creazione di un set di pesi ottimale per i segmenti di "donatori" che considera la stagionalità, il giorno della settimana e le tendenze attraverso una combinazione convessa; possibilità di validazione visiva della qualità del fit nel periodo pre-trattamento. Contro: richiesta di una lunga storia di dati (minimo 10-15 periodi), sensibilità a cambiamenti strutturali (regime switch), come il cambiamento di comportamento pandemico, e complessità nell'interpretazione dei pesi per il business.

È stata scelta una soluzione combinata: SCM per valutare l'effetto complessivo sui ricavi e RDD con un polinomio locale di secondo grado per valutare l'effetto sugli utenti marginali nella fascia 2300-2700₽. Ciò ha consentito di separare l'effetto dell'"acquisto aggiuntivo" (basket augmentation) dall'effetto della "perdita" (churn) e di considerare correttamente la stagionalità tramite il modello di serie temporali strutturale bayesiano (BSTS), integrato in CausalImpact.

Il risultato finale ha mostrato che l'aumento osservato del valore medio degli ordini del 22% era sovrastimato di circa il doppio: il vero effetto incrementale è stato del 11%, con il 6% attribuito a uno spostamento temporale della domanda (intertemporal substitution) e il 5% a un reale aumento delle dimensioni del carrello. L'analisi ha evidenziato un segmento di utenti "sensibili alla consegna" (15% della base), che mostrano un aumento della perdita dell'8% e una riduzione della frequenza degli ordini del 12%, il che ha consentito di adeguare la politica: introducendo una soglia ibrida di 1990₽ per il segmento a basso valore medio con alta frequenza storica di resi, attenuando l'effetto negativo sul mantenimento.

Cosa i candidati spesso trascurano

Come considerare correttamente l'effetto dell'accumulo dei carrelli (cart pooling) e la sostituzione intertemporale degli acquisti nella valutazione della soglia di consegna dinamica, se gli utenti strategicamentem rinviano la conversione?

Risposta: È necessario modellare la struttura temporale della decisione attraverso survival analysis (modello di Cox con rischi proporzionali) o analisi degli intervalli tra le sessioni (inter-purchase time). La metrica chiave diventa non la conversione puntuale, ma la variazione del tasso di rischio di acquisto in base all'importo attuale del carrello e alla distanza dalla soglia. Inoltre, si dovrebbe analizzare le coorti di utenti che hanno raggiunto la soglia grazie agli acquisti aggiuntivi in termini di quota aumentata di restituzioni di prodotti entro 14 giorni (cannibalizzazione delle resi), che distorce la metrica GMV e richiede un aggiustamento sul return rate del modello.

Perché gli intervalli di confidenza standard (confidence intervals) non sono corretti per il Synthetic Control Method e come si dovrebbe valutare la significatività statistica dell'effetto causale in questa metodologia?

Risposta: Nelle stime SCM si è soggetti a inferential uncertainty, legata al processo di selezione dei pesi delle unità donatrici e alla finitezza del campione, il che viola le assunzioni della statistica classica sulla frequenza riguardo l'indipendenza delle osservazioni. L'approccio corretto è il permutation test (placebo test), dove lo stesso algoritmo SCM è applicato a ciascuna unità donatrice del pool (pretendendo che abbiano ricevuto il trattamento), creando una distribuzione empirica degli effetti placebo. L'effetto è considerato statisticamente significativo a un livello del 5% se il rapporto post/pre-RMSPE per l'unità trattata supera il 95° percentile della distribuzione placebo, come formalizzato nel lavoro di Abadie, Diamond e Hainmueller (2010, 2015).

Come distinguere l'effetto della modifica della soglia di consegna dal contemporaneo cambiamento nella qualità del traffico o nell'attività competitiva utilizzando Causal Impact o Synthetic Control?

Risposta: È fondamentale includere nella modellazione covariates (predittori) non influenzati dall'intervento (untreated confounders), ma correlati con la metrica target — ad esempio, il traffico del sito dei concorrenti (attraverso SimilarWeb o dati panel), il volume totale del mercato e-commerce nella regione, o il CTR del traffico organico. Nella struttura bayesiana BSTS, alla base di CausalImpact, queste variabili entrano come regressori nel modello state-space, isolando gli shock comuni. È necessario anche testare la Granger causality tra i predittori e l'outcome prima dell'intervento ed effettuare test placebo-in-time, spostando la data di "intervento" a periodi storici per verificare l'assenza di falsi positivi.