Storicamente, lo sviluppo dell'e-commerce ha seguito un percorso da schede prodotto isolate a strumenti complessi per il supporto decisionale. Negli anni 2010, l'emergere delle funzioni di confronto delle caratteristiche è stato una risposta all'aumento dell'assortimento e al sovraccarico cognitivo degli utenti, tuttavia le metriche classiche di correlazione tra l'uso del confronto e l'alta spesa si sono sempre scontrate con l'endogeneità: la funzione è utilizzata da acquirenti già motivati con alta intenzione di acquisto.
Il problema di misurazione si complica per tre fattori: auto-selezione per coinvolgimento (selection bias), rollout graduale per categorie che interrompe la sincronicità (staggered adoption) ed effetti di rete all'interno della categoria, dove il confronto sottrae domanda da un SKU all'altro. Senza il controllo di questi fattori, l'analista otterrà una stima distorta, sovrastimando l'effetto per gli utenti attivi e ignorando gli effetti esterni sugli utenti che non hanno utilizzato la funzione.
Una soluzione dettagliata richiede una combinazione di Instrumental Variables (IV) e Difference-in-Differences (DiD). Come strumento viene utilizzata la visibilità quasi casuale del pulsante di confronto, ad esempio, tramite A/B test sulla posizione dell'elemento UI o fattori esogeni come la risoluzione dello schermo che influenzano il rendering. Questo consente di isolare la variazione non dipendente dalle intenzioni dell'utente. Per controllare le tendenze temporali, si utilizza il DiD con inizio sfalsato (staggered DiD), confrontando categorie in cui la funzione è già attiva con quelle non ancora coinvolte, con correzione per cohort fixed effects. La metrica chiave diventa il Local Average Treatment Effect (LATE)—l'effetto per i "compliance" (compliers), coloro che hanno utilizzato il confronto solo grazie alla visibilità del pulsante, fornendo una stima conservativa ma causalmente pulita.
Contesto: un grande marketplace di elettronica ha lanciato la funzione "Confronto delle caratteristiche" per smartphone e laptop. Dopo un mese, l'analisi ha mostrato che gli utenti che hanno aperto il confronto avevano un valore medio del carrello superiore del 40%, ma visualizzavano 4 volte più pagine prima di acquistare.
Opzione di soluzione 1: Confronto diretto dei gruppi (t-test). L'analista confronta semplicemente le metriche medie degli utenti con il flag "ha utilizzato il confronto" contro "non ha utilizzato" in SQL. Vantaggi: richiede una sola query, il risultato è disponibile in pochi minuti. Svantaggi: totale ignoranza dell'auto-selezione; alto coinvolgimento precede l'uso della funzione, piuttosto che derivarne; la stima è biasata verso l'alto.
Opzione di soluzione 2: Analisi Before/After nel tempo. Confronto delle metriche di tutta la piattaforma prima e dopo il lancio della funzione. Vantaggi: semplicità di interpretazione, tendenza generale visibile. Svantaggi: stagionalità (il lancio coincide con la presentazione dei nuovi iPhone), campagne di marketing e crescita generale del business mascherano completamente il vero effetto; impossibilità di separare l'influenza della funzione dai shock esterni.
Opzione di soluzione 3: Regression Discontinuity (RD). Utilizzo di una regola soglia: il pulsante di confronto appare solo dopo la visualizzazione di 3 prodotti della stessa categoria. Vantaggi: una netta discontinuità (cutoff) crea una variazione quasi esperimentale attorno alla soglia. Svantaggi: gli utenti manipolano il comportamento aprendo schede vuote per raggiungere la soglia; la "sfocatura" del confine (fuzziness) compromette le assunzioni della RD.
Opzione di soluzione 4: Strumenti di variabili con test UI. Viene condotto un test A/B indipendente sulla visibilità del pulsante (luminosità, dimensione), che non modifica la funzionalità, ma influisce sulla probabilità di clic. Questo test funge da strumento per la regressione Two-Stage Least Squares (2SLS). Vantaggi: la randomizzazione garantisce l'esogenità dello strumento; si misura l'effetto solo per coloro che sono "costretti" a confrontare grazie alla visibilità del pulsante. Svantaggi: richiede un grande campione per la forza dello strumento (first-stage F-statistic > 10); complessità nell'interpretazione del LATE per il business.
Soluzione scelta e giustificazione: combinazione dell'Opzione 4 (principale) e dell'Opzione 2 (robustness check). La stima IV fornisce un effetto causale per gli utenti marginali, mentre il DiD conferma l'assenza di bias globali tra le categorie. Questo approccio consente di separare l'effetto della funzione dall'attività innata degli utenti.
Risultato finale: Il vero effetto incrementale sull'AOV è stato del +8% (anziché il +40% osservato), mentre il tempo di decisione non è cambiato statisticamente in modo significativo. La funzione è stata mantenuta, ma l'algoritmo di raccomandazione è stato corretto per non mostrare il pulsante di confronto agli utenti con basso coinvolgimento storico, dove l'effetto è vicino a zero, riducendo il carico sui server senza perdita di ricavi.
Come gestire correttamente la correlazione degli errori all'interno della sessione durante l'analisi delle scelte tra più alternative?
Quando un utente confronta i prodotti, le sue decisioni su ciascun SKU sono correlate all'interno di una sessione, compromettendo l'assunzione di indipendenza delle osservazioni (i.i.d.). Gli errori standard delle stime risulteranno sottovalutati, portando a conclusioni falsamente positive sulla significatività dell'effetto. Per la correzione è necessario utilizzare clustered standard errors a livello di utente o sessione, oppure applicare il hierarchical linear modeling (HLM). Questo è particolarmente critico quando si lavora con dati panel, dove un utente genera molteplici confronti, e ignorare la clustering può aumentare la t-statistica di 2-3 volte.
Come misurare l'effetto esterno negativo (negative spillover) sui prodotti che non sono stati inclusi nel campione di confronto?
La funzione di confronto può cannibalizzare le vendite di prodotti che non sono stati inclusi nell'elenco di confronto, ma sono sostituti vicini. I candidati spesso guardano solo al livello SKU all'interno del carrello, trascurando l'equilibrio complessivo della categoria. Per valutare tali effetti, è necessario analizzare le metriche aggregate a livello di categoria (category-level DiD) e controllare i livelli di inventario (inventory levels). Se il confronto sottrae domanda a specifici modelli, causando loro scarsità, l'aumento osservato delle vendite dei concorrenti nel set di confronto potrebbe essere un artefatto di stock-out, e non una preferenza dell'utente.
Come separare l'effetto dell'implementazione della funzione dall'effetto dell'apprendimento degli utenti (learning-by-doing) e dell'novità (novelty effect)?
Gli utenti che scoprono una nuova funzione accumulano contemporaneamente esperienza nell'utilizzo della piattaforma, che influisce separatamente sulla conversione. Gli analisti principianti spesso interpretano l'aumento delle metriche tra i primi utenti come il puro effetto del prodotto. Per separare questi effetti è necessario includere user tenure fixed effects o limitare il campione agli utenti con lo stesso numero di sessioni storiche. In alternativa, si utilizza l'analisi delle coorti, confrontando nuovi utenti a cui la funzione è disponibile fin dal primo giorno, con coorti "pre-lancio" con correzione per il tempo calendario, il che consente di isolare l'influenza dell'esperienza dall'influenza dello strumento di confronto.