Risposta alla domanda

Storicamente, i servizi di consegna di cibo sono evoluti dal modello "consegna entro 60 minuti" alla logistica iperlocale con slot orari precisi. Questa transizione crea un problema metodologico: i ristoranti con un'alta efficienza operativa iniziale (breve tempo di preparazione, vicinanza a zone con alta densità di ordini) si auto-selezionano nelle prime ondate di implementazione, mentre i punti problematici si connettono più tardi o mai. Un confronto diretto della conversione prima e dopo l'implementazione porta a una stima sovrastimata dell'effetto, poiché ignora le differenze sistematiche tra early adopters e laggards.

Il problema è aggravato dalla clusterizzazione geografica: i ristoranti nel centro città, dove la domanda è alta e stabile, ricevono più frequentemente accesso alla funzione prima rispetto ai punti periferici con domanda volatile. Le fluttuazioni stagionali (ad esempio, festività natalizie o diminuzione estiva) distorcono ulteriormente le tendenze osservate, rendendo impossibile l'uso della semplice differenza tra gruppi.

Per isolare l'effetto vero è necessario applicare una combinazione di Difference-in-Differences (DiD) con effetti fissi per ristorante e tempo, integrata con Propensity Score Matching (PSM) per eliminare il bias di auto-selezione. Nella prima fase viene costruito un modello di probabilità di connessione al sistema di slot di tempo precisi basato su covariate (tempo di consegna storico, rating, densità di fattorini nel raggio), dopodiché a ciascun ristorante trattato viene abbinato un "gemello" di controllo tra quelli che non si sono ancora collegati. Si valuta poi la doppia differenza nella dinamica della conversione tra queste coppie, permettendo di controllare caratteristiche fisse non osservabili (ad esempio, qualità della cucina). Per tenere conto della correlazione spaziale vengono applicati cluster standard delle errori a livello di celle geografische o viene utilizzato il Synthetic Control Method, che crea una combinazione pesata di ristoranti non collegati, simulando uno scenario controfattuale per le unità trattate.

Situazione reale

Nel più grande aggregatore di consegna nazionale si pianificava l'implementazione della funzione "Consegna in un intervallo di 15 minuti scelto" per ristoranti premium. Il pilota è partito in tre città, dove per primi si sono collegati il 15% dei partner con storicamente tempi di preparazione bassi e alti rating. Dopo un mese, gli analisti hanno registrato un aumento della conversione del 22% nei ristoranti collegati, ma l'azienda era incerta se questo fosse l'effetto della funzione o semplicemente il riflesso della qualità inizialmente alta di questi punti.

Sono stati considerati tre approcci per la valutazione. Il primo è stato il semplice confronto degli scontrini medi e della conversione prima e dopo la connessione, subito scartato: ignorava la crescita di tendenza del mercato e il risveglio stagionale della domanda durante le festività, il che portava a una stima sovrastimata di +22%, ma non considerava che questi ristoranti stavano crescendo più velocemente del mercato anche senza la nuova funzione, a un tasso dell'8-10%.

Il secondo approccio, un'analisi di coorte comparando gli utenti che hanno visto la consegna a tempo preciso con quelli che hanno visto il classico "40-50 minuti", si è rivelato problematico: gli utenti nelle aree con ristoranti premium avevano inizialmente un maggiore scontrino medio e fedeltà, creando quindi un'influenza di selezione. Tentare di ridurre il campione per geografia avrebbe comportato la perdita di il 40% dei dati e una diminuzione della potenza del test.

Il terzo approccio, che è stato scelto, prevedeva la costruzione del Synthetic Control per ogni ristorante collegato basato su 50 "donatori" non collegati con una storia di vendite simile, geografia e stagionalità. La metodologia DiD è stata applicata a questi gruppi sintetici ponderati con ulteriore controllo delle condizioni meteorologiche (che influenzavano la domanda di consegna) e dei giorni della settimana. Questo ha permesso di isolare un effetto netto del +9.3% sulla conversione e del +14% sulla frequenza degli ordini ripetuti, rivelando inoltre eterogeneità: l'effetto era significativo solo per i ristoranti con un tempo di preparazione inferiore a 12 minuti, mentre per le cucine più lente la finestra di tempo precisa non portava a un aumento statisticamente significativo, poiché il collo di bottiglia rimaneva nella produzione, non nella logistica.

Cosa i candidati spesso trascurano

Come verificare l'ipotesi dei trend paralleli (parallel trends) nel DiD, quando gli early adopter differiscono sistematicamente dal gruppo di controllo?

I candidati spesso dichiarano di applicare il DiD senza verificare l'ipotesi chiave: prima dell'implementazione, i trend delle metriche nei gruppi di trattamento e controllo dovrebbero essere paralleli. In condizioni di auto-selezione, questa ipotesi è solitamente violata. È necessario condurre uno event study (DiD dinamico) con indicatori di fase di anticipazione (lead indicators) per alcune settimane prima dell'implementazione. Se i coefficienti di questi indicatori sono statisticamente significativi e diversi da zero, i trend non sono paralleli e c'è bisogno di applicare Augmented DiD o di aggiungere interazioni con le tendenze temporali (interactions with time trends) per controllare i trend differenziali. Si può anche utilizzare il modello Change-in-Changes, che è meno sensibile alla violazione del parallelismo, ma richiede un monotonicità della distribuzione degli esiti.

Come considerare gli effetti spillover spaziali (spillover effects), quando l'implementazione della consegna precisa in un'area influenza il comportamento degli utenti in aree vicine senza la funzione?

Spesso gli analisti ignorano che gli utenti possono migrare tra aree o cambiare le loro preferenze, venendo a conoscenza dell'esistenza della funzione da amici. Questo crea un bias positivo nel gruppo di controllo (SUTVA violation). Per la diagnosi è necessario costruire un Spatial DiD, includendo nella modellazione ritardi spaziali (spatial lags) della concentrazione di ristoranti collegati nel raggio di 1-2 km da ogni punto. Se il coefficiente del ritardo spaziale è significativo, esistono effetti di rete. In tal caso, la valutazione classica del DiD fornisce una stima sottostimata dell'effetto (attenuation bias), e si richiede un uso di Two-Stage Least Squares (2SLS) con strumenti a livello di restrizioni amministrative (ad esempio, la preparazione tecnica di un determinato magazzino per la classificazione negli slot di tempo), che influenzano il collegamento del ristorante, ma non si correlano direttamente con la domanda nelle aree vicine.

Perché non si può usare il semplice Propensity Score Matching senza successivo DiD, e quali errori sorgono nella valutazione dell'effetto a lungo termine (dynamic treatment effects)?

I professionisti alle prime armi spesso applicano il PSM come metodo autonomo, ottenendo gruppi comparabili al momento t0, ma poi confrontandoli con semplici medi al momento t1. Questo ignora la struttura temporale dei dati e possibili shock temporali. L'approccio corretto è PSM-DiD, dove il matching viene utilizzato solo per la selezione del gruppo di controllo, mentre la valutazione dell'effetto avviene tramite la differenza delle differenze. Inoltre, i candidati trascurano il problema degli effetti dinamici: l'effetto della consegna precisa può accumularsi nel tempo (gli utenti si abituano alla funzione) o, al contrario, svanire (effetto novità). Per questo è necessario costruire un staggered DiD con molteplici periodi di implementazione e utilizzare correzioni moderne per eliminare il bias che emerge con effetti eterogenei nel tempo (ad esempio, il metodo Callaway & Sant'Anna o Sun & Abraham per una corretta aggregazione degli effetti di coorte), poiché il classico DiD a due periodi in questo caso fornisce una stima distorta dell'effetto medio sugli elaborati (ATT).