Risposta alla domanda

Contesto storico. Dalla metà degli anni 2020, l'evoluzione dell'e-commerce ha spostato l'attenzione dalla consegna immediata (same-day) alla logistica sostenibile, dove il consolidamento degli ordini riduce l'impronta di carbonio e i costi dell'ultimo miglio. I primi esperimenti di Amazon Day e servizi simili hanno dimostrato che la combinazione volontaria di consegne comporta auto-selezione degli utenti con bassa urgenza di consumo, creando endogeneità nella valutazione dell'effetto sulle metriche del prodotto. I metodi tradizionali di A/B testing risultano inapplicabili in caso di consolidamento forzato, poiché l'infrastruttura logistica richiede un'ottimizzazione massiccia dei percorsi a livello di intera zona, piuttosto che per singolo utente.

Definizione del problema. Quando si implementa un sistema di consolidamento (ad esempio, consegna solo il martedì e il venerdì), si presenta il problema dell'assenza di distribuzione casuale: gli utenti nelle zone di implementazione differiscono sistematicamente per distanza geografica dai magazzini e tolleranza all'attesa. Inoltre, esiste il rischio di contaminazione spaziale (spillover), dove gli utenti cambiano l'indirizzo di consegna al lavoro o ai parenti nelle regioni vicine senza consolidamento, violando l'assunzione di SUTVA (Stable Unit Treatment Value Assumption). La stagionalità della domanda e la correlazione dell'avvio con l'ottimizzazione logistica nelle regioni ad alto reddito distorcono ulteriormente la valutazione del vero effetto causale.

Soluzione dettagliata. Per isolare l'effetto si applica il Staggered Difference-in-Differences (DiD) con implementazione graduale (rollout) per zone logistiche, dove i periodi pre-implementazione fungono da controllo per i periodi post. È importante verificare l'assunzione di tendenze parallele tramite analisi event study della dinamica delle metriche prima del momento di implementazione, per accertarsi dell'assenza di tendenze differenziali tra i futuri gruppi di trattamento e controllo. Per ogni zona viene costruito un Synthetic Control da regioni donatrici con dinamiche storiche degli ordini simili, ma senza implementazione pianificata, ciò consente di modellare il controfattuale e migliorare la robustezza delle valutazioni.

Per correggere il parziale rispetto (partial compliance) si utilizza la regressione IV (Instrumental Variables), dove lo strumento (Z) è la appartenenza dell'utente alla zona di implementazione (assignment), che predice l'effettivo utilizzo del consolidamento (D), mentre l'uscita (Y) è la retention o la frequenza degli acquisti. Questo permette di valutare l'LATE (Local Average Treatment Effect) — effetto per coloro che hanno modificato il comportamento a causa dell'implementazione (compliers), a differenza dell'ITT (Intent-to-Treat), che mostra l'effetto dell'offerta del servizio. L'analisi dell'eterogeneità per categorie di prodotti (impulse vs stock-up goods) aiuta a separare la vera diminuzione della domanda dalla sostituzione intertemporale (intertemporal substitution).

Situazione reale

Un marketplace di elettrodomestici ha avviato un pilota per il consolidamento delle consegne in tre grandi città con l'obiettivo di ridurre i costi logistici del 30%. L'analisi ha mostrato distorsioni nel confronto tra utenti che hanno accettato il consolidamento (treatment) e non aderenti (control): gli adoptors avevano storicamente una minore frequenza di acquisti e un valore medio dell'ordine più elevato, suggerendo auto-selezione degli acquirenti pianificatori. Un semplice confronto mostrerebbe una falsa diminuzione della retention, mentre in realtà il comportamento potrebbe essere stato stabile, ma distorto da un bias di selezione.

Prima opzione — confronto diretto delle metriche prima e dopo l'implementazione (pre-post analysis) all'interno della zona. I vantaggi qui risiedono nella semplicità di implementazione e nella rapidità di ottenimento dei risultati senza necessità di raccogliere dati da altre regioni. I contro sono evidenti: non è possibile separare l'effetto del consolidamento dalle fluttuazioni stagionali della domanda e dalle tendenze generali di crescita della base utenti, portando a uno sbilanciamento sistematico della valutazione quando l'avvio coincide con periodi festivi o campagne pubblicitarie.

Seconda opzione implica un confronto trasversale tra zone con implementazione e senza a una data fissata. I vantaggi includono la possibilità di controllare le tendenze temporali tramite un'istantanea dei dati e l'assenza di necessità di una lunga storia nei regioni di controllo. I contro sono legati al fatto che le zone per l'implementazione sono state selezionate in base alla elevata densità di ordini e fedeltà del pubblico, creando così un forte bias di selezione e rendendo i gruppi non comparabili per caratteristiche iniziali.

Terza opzione utilizza Staggered DiD con propensity score matching e Synthetic Control. I pro risiedono nell'utilizzo di regioni senza implementazione come gruppo di controllo, consentendo di mantenere effetti fissi regionali e temporali, mentre il matching migliora la comparabilità per le caratteristiche pre-trend. I contro includono la complessità di validazione dell'assunzione di tendenze parallele in presenza di effetti eterogenei nel tempo e il rischio di correlazione spaziale (spatial spillover) tra zone vicine, dove gli utenti possono cambiare indirizzi di consegna.

Soluzione scelta e risultato: È stata scelta la terza opzione con un ulteriore utilizzo della regressione IV ai confini delle zone logistiche (RDD-style boundary analysis) per la validità locale. Questo ha permesso di isolare l'effetto dalle differenze regionali nel comportamento d'acquisto e nel livello di servizio. L'analisi ha mostrato che l'effetto reale del consolidamento è stato una diminuzione della frequenza delle transazioni dell'8% (non del 15% come in un'analisi naive), ma un aumento del valore medio dell'ordine del 22% grazie alla combinazione di piccoli ordini. La retention è rimasta a livello del gruppo di controllo, giustificando l'espansione della funzione nelle altre regioni con un effetto economico previsto.

Di conseguenza, l'implementazione ha consentito all'azienda di ridurre i costi logistici del 35% grazie all'ottimizzazione dei percorsi, compensando il calo della frequenza degli ordini con l'aumento del valore medio dell'ordine. Il modello predittivo basato sui coefficienti ottenuti ha consentito di calcolare il punto di pareggio per il lancio in nuove regioni con densità di popolazione variabile. La metodologia è stata adottata come standard per la valutazione delle innovazioni logistiche in assenza della possibilità di tradizionali A/B testing.

Cosa i candidati spesso trascurano

Come distinguere la vera riduzione della frequenza degli acquisti dalla sostituzione intertemporale (intertemporal substitution), quando gli utenti rimandano semplicemente l'acquisto fino alla prossima finestra di consegna?

Le risposte dei candidati spesso ignorano il carattere dinamico della domanda e presumono che la riduzione della frequenza all'interno del mese sia equivalente alla perdita del cliente. È necessario analizzare le coorti di utenti con un lungo ritardo (180+ giorni) e distinguere le categorie di prodotti: per i deperibili o prodotti impulsivi (snack, accessori) il rinvio equivale a una perdita, mentre per gli acquisti programmati (elettrodomestici) si tratta semplicemente di un rinvio temporale. A livello metodologico si dovrebbero utilizzare modelli di distributed lag o analizzare il comportamento di "stockpiling" attraverso la metrica dei giorni di inventario a casa, calcolata sulla base della storia degli acquisti delle categorie a consumo regolare. Se la quantità totale di prodotti è diminuita negli ultimi 90 giorni, c'è una perdita di domanda; se è rimasta invariata, ma l'intervallo tra gli ordini è aumentato, si tratta di sostituzione.

Come considerare la contaminazione spaziale (spillover effects), quando gli utenti cambiano l'indirizzo di consegna al lavoro o a amici in una zona vicina senza consolidamento, per ricevere il prodotto più velocemente?

Il standard DiD presuppone l'assenza di impatto del trattamento sul gruppo di controllo, ma nella pratica gli utenti del "trattamento" possono utilizzare indirizzi nel "controllo" per ordini urgenti, distorcendo le metriche di controllo verso l'alto. La soluzione è un filtro geografico: analizzare solo gli utenti con un indirizzo domestico "stabile" (storia >6 mesi senza cambiamenti) ed escludere ordini ibridi (consegna in un'altra zona). In alternativa, utilizzare spatial DiD con pesi inversamente proporzionali alla distanza dal confine della zona, o analizzare solo regioni distanti dai confini di oltre 50 km (donut RDD), dove lo spillover è minimo.

Come interpretare correttamente la differenza tra ITT (Intent-to-Treat) e LATE (Local Average Treatment Effect) nel contesto del parziale rispetto (partial compliance), quando non tutti gli utenti nella zona di implementazione utilizzano il consolidamento?

I candidati spesso confondono l'effetto dell'"offerta del servizio" con quello dell"uso effettivo". ITT valuta l'effetto su tutti gli utenti nella zona di implementazione, inclusi coloro che hanno ignorato la funzione, ed è utile per il business case dell'espansione. LATE (tramite IV-regressione con strumento "presenza del servizio nella zona") valuta l'effetto solo per i compliers — coloro che hanno modificato il comportamento a causa dell'implementazione. Se il compliance è basso (ad esempio, il 30% utilizza il consolidamento), l'ITT sarà sottovalutato di 3 volte rispetto al vero effetto per gli utenti della funzione. È importante riportare entrambi gli indicatori: ITT per la previsione dell'effetto aziendale globale durante l'espansione, LATE per comprendere il valore per un segmento specifico che prende decisioni sull'uso.