L'evoluzione dell'e-commerce nell'ultimo decennio è passata da cataloghi statici a formati interattivi, mutuati dai social media. Il formato Stories, inizialmente popolarizzato da Snapchat e Instagram, è stato adattato dai marketplace come strumento per ridurre il carico cognitivo nella scelta dei prodotti tramite brevi narrazioni visive. Tuttavia, a differenza dei classici test A/B degli elementi UI, la valutazione dell'effetto del contenuto efimero affronta il problema della contaminazione incrociata (contamination), quando un utente vede le Stories di un amico del gruppo di test, anche se si trova nel gruppo di controllo.
L'isolamento del puro effetto è complicato da tre fattori di endogeneità. In primo luogo, i brand si auto-selezionano in base alla capacità di produrre contenuti video di alta qualità (i grandi attori sono i primi a lanciarsi), creando un bias di sopravvivenza. In secondo luogo, gli effetti di rete all'interno del grafo delle iscrizioni portano a un spillover effect, dove l'impatto “si trascina” dal test al controllo attraverso legami sociali. In terzo luogo, gli utenti della Gen Z mostrano un coinvolgimento 3-4 volte superiore nelle Stories rispetto al pubblico over 45, richiedendo uno strato di analisi.
La metodologia ottimale è staggered Difference-in-Differences (DiD) con variazione spazio-temporale, dove le categorie di prodotti fungono da cluster di intervento, implementati in momenti diversi. Per controllare la contaminazione di rete, si applica una leave-out strategy: vengono esclusi utenti con sovrapposizioni di abbonamenti a brand di categorie diverse (treatment e control). Per correggere il bias di auto-selezione dei brand si utilizza il Propensity Score Matching (PSM) su metriche storiche di engagement e dimensione del pubblico prima dell'introduzione. La varianza si riduce attraverso CUPED (Controlled-experiment Using Pre-Experiment Data), e l'eterogeneità dell'effetto viene valutata attraverso Causal Forest, che consente di identificare gli effetti medi condizionali dell'intervento (CATE) per diversi segmenti di età.
In un grande marketplace di moda, era previsto l'inserimento delle Stories per i brand nella categoria “Abbigliamento Sportivo” (gruppo di test) mantenendo la scheda prodotto classica nella categoria “Abbigliamento Formale” (gruppo di controllo). Il problema era che Nike e Adidas (test) avevano ordini di grandezza superiori di iscritti rispetto ai brand classici (controllo), e il 40% degli utenti erano iscritti contemporaneamente a brand di entrambe le categorie, creando una forte contaminazione. Era necessario valutare l'effetto sul mantenimento a 7 giorni (D7 retention) e sulla conversione d'acquisto entro 48 ore dalla visualizzazione delle Stories.
Opzione 1: Confronto semplice before-after per la categoria di test
Gli analisti hanno proposto di confrontare le metriche della categoria sportiva per un mese prima e dopo il lancio delle Stories. I punti a favore di questo approccio includevano la rapidità di ottenimento dei risultati e l'assenza della necessità di un'infrastruttura complessa. I punti a sfavore erano critici: l'impossibilità di separare l'effetto del formato dalla crescita stagionale della domanda di abbigliamento sportivo a gennaio (New Year Resolution effect) e dalle campagne di marketing dei brand lanciate in contemporanea con la nuova funzionalità.
Opzione 2: Classico test A/B a livello utente con split 50/50
Questa opzione prevedeva una divisione casuale degli utenti per la visibilità delle Stories indipendentemente dalla categoria. I vantaggi consistono nella pulizia del design sperimentale e nella semplicità di interpretazione. Gli svantaggi includevano l'impossibilità tecnica (il contenuto era creato dai brand, non dalla piattaforma) e limitazioni etiche: nascondere il contenuto a una parte degli iscritti al brand distruggeva il modello di monetizzazione e portava a lamentele da parte degli inserzionisti.
Opzione 3: Staggered DiD con abbinamento di controllo sintetico e filtraggio delle connessioni di rete
È stato deciso di utilizzare la variazione temporale di implementazione (categoria sportiva — settimana 1, abbigliamento urbano — settimana 3, classica — settimana 6) e costruire un Synthetic Control sulla base di una combinazione ponderata delle categorie che non avevano ancora ricevuto la funzione. Per eliminare la contaminazione, sono stati esclusi gli utenti con sovrapposizioni di abbonamento >15% del numero totale (soglia determinata tramite analisi del grafo sociale). CUPED è stato applicato per la correzione rispetto al D7 retention storico.
Soluzione scelta:
Il team ha scelto Opzione 3, completandola con Causal Forest per la segmentazione per età. Ciò ha consentito non solo di isolare il puro effetto, ma anche di comprendere per chi le Stories funzionano meglio. Un fattore chiave della scelta è stata la possibilità di mantenere i processi aziendali (tutti gli iscritti vedono il contenuto), ottenendo al contempo una valutazione causale valida.
Risultato finale:
L'analisi ha evidenziato un incremento statistico significativo del D7 retention dell'8.4% (p < 0.01) per il segmento 18-25 anni, con assenza di effetto per il 45+. Tuttavia, è stato riscontrato uno spillover negativo: gli utenti che hanno visualizzato più di 5 Stories per sessione mostravano una diminuzione della conversione d'acquisto del 3% (effetto di saturazione). Sulla base di questi dati, il team di prodotto ha implementato un algoritmo adattivo per regolare la frequenza di visualizzazione delle Stories per età, portando a una crescita del GMV del 4.2% nella categoria di test senza compromettere l'esperienza utente delle coorti più anziane.
Come considerare correttamente l'effetto di spillover negativo, quando un'eccesso di Stories di un brand riduce la percezione del contenuto di altri brand nella stessa sessione?
I candidati si concentrano spesso solo sui effetti di rete positivi, ignorando la saturazione. L'approccio corretto richiede un'analisi a livello di sessione: dividere le sessioni in "alta densità di Stories" (>3 brand unici) e "bassa densità", quindi valutare l'effetto di interazione (interaction term) tra treatment e grado di densità dei contenuti. Se il coefficiente è negativo e significativo, questo indica una cannibalizzazione dell'attenzione all'interno del formato. È inoltre necessario verificare la dinamica temporale: gli utenti costruiscono una "resistenza" (ad stock) al formato nel tempo attraverso la decomposizione dell'effetto per settimane di implementazione.
Come separare l'effetto del formato Stories dall'effetto della qualità del contenuto, se i brand con alto valore di produzione si auto-selezionano nelle prime ondate di implementazione?
Un DiD standard non risolverà il problema, poiché le caratteristiche dei brand sono correlate con il livello iniziale delle metriche. È necessario applicare Instrumental Variables (IV): come strumento viene utilizzato il valore soglia del numero di iscritti al brand, al di sopra del quale la funzione Stories diventa disponibile (ad esempio, >100k followers). Questo crea una variabilità casuale attorno alla soglia (regression discontinuity design, RDD), consentendo di confrontare brand con 99k e 101k followers, statisticamente identici per qualità del contenuto, ma differenti per accesso allo strumento. In questo modo si isola il puro effetto del formato, non della qualità dei creativi.
Perché le metriche standard click-through rate (CTR) e view-through rate (VTR) non sono sufficienti per valutare l'effetto a lungo termine del contenuto efimero, e quali metriche dovrebbero essere utilizzate?
I candidati si concentrano sull'engagement immediato, trascurando l'attribuzione degli acquisti posticipati. Le Stories scompaiono dopo 24 ore, ma creano un "segno" nella memoria dell'utente (mental availability). Una valutazione corretta richiede la costruzione di un Surrogate Index: l'uso di metriche intermedie (frequenza di apertura dell'applicazione negli 7 giorni, aggiunta alla Wishlist senza acquisto) come proxy per il LTV a lungo termine. Si applica il metodo Long-term Causal Effects attraverso una valutazione a due fasi: prima si modella la connessione tra surrogate e il LTV finale su dati storici, poi questa connessione viene applicata ai dati sperimentali. Questo consente di cogliere l'effetto della "conversione ritardata", quando un utente vede le Stories, ma acquista una settimana dopo la scomparsa del contenuto.