Risposta alla domanda

L'evoluzione dell'e-commerce dalla ricerca testuale a un'interfaccia multimediale è iniziata con l'emergere delle Convolutional Neural Networks (CNN) nelle applicazioni mobili nella metà degli anni 2010. Gli approcci tradizionali all'A/B testing qui si scontrano con la frammentazione hardware: lo stesso algoritmo di ricerca visiva dimostra precisioni diverse su dispositivi flagship e smartphone economici.

Ricerche precoci hanno mostrato che gli utenti con dispositivi low-end mostrano sistematicamente pattern di navigazione differenti, creando una minaccia per l'assunzione di violazione sull'indipendenza dell'errore dalle covariati nei modelli econometrici standard. Questo rende comparazioni semplici tra gruppi tramite t-test o regressione base metodologicamente non valide.

L'endogeneità fondamentale nasce dall'auto-selezione a livello di adozione: gli utenti tecnicamente esperti (early adopters) sono simultaneamente inclini a provare una nuova funzionalità e hanno una conversione di base alta. Inoltre, c'è una cannibalizzazione strutturale: la ricerca visiva "ruba" richieste dalla ricerca testuale, ma trasforma richieste testuali poco informative in embedding visivi altamente informativi.

L'eterogeneità tecnica della qualità della fotocamera introduce un ulteriore strato di errore di misurazione, correlato al profilo SES dell'utente. I metodi standard di controllo per la selection bias, come il Propensity Score Matching, risultano inadeguati a causa della presenza di eterogeneità non osservata nella competenza visiva degli utenti.

La strategia ottimale è l'Two-Stage Least Squares (2SLS) utilizzando le capacità hardware della fotocamera (presenza di Telephoto Lens, supporto per Night Mode) come variabile strumentale (IV). La restrizione di esclusione è soddisfatta con la condizione che le specifiche della fotocamera influenzino la conversione solo attraverso la possibilità di utilizzo della ricerca visiva, e non attraverso caratteristiche correlate con il reddito.

La verifica della validità dello strumento è effettuata tramite il Overidentification Test utilizzando variazione esogena nei lotti di fotocamere. Per la cannibalizzazione si applica la Principal Stratification: suddivisione degli utenti in strati secondo il modello di classe latente, dove le classi sono definite dalla probabilità di passaggio dalla ricerca testuale.

Gli effetti di trattamento eterogenei sono valutati tramite i Causal Forests con clustering a livello di tipo di dispositivo per tenere conto della correlazione degli errori all'interno delle classi hardware. Inoltre, vengono controllati i metadati di ripresa (dati EXIF sull'esposizione) per isolare l'effetto specificamente dal riconoscimento, e non dalle condizioni esterne.

Situazione della vita reale

Il team del marketplace "FashionHub" ha lanciato la ricerca visiva su il 20% del traffico, osservando un aumento della conversione del 18% tra gli adopters. Tuttavia, un audit ha rivelato che il 70% degli utenti con iPhone 12+ (fotocamera di alta qualità) è stato inserito nel gruppo di test, mentre il segmento Android economico è rimasto nel controllo, creando un confondimento basato sull'hardware. La metrica chiave - il numero medio di schede prodotto visualizzate prima dell'acquisto - cresceva in modo sproporzionato nel segmento dei dispositivi premium.

Un confronto grossolano tra adopters vs non-adopters darebbe una stima del +18% nella conversione, ma porterebbe un bias di sopravvivenza. Gli utenti che hanno scattato una foto del prodotto già dimostravano un alto intento di acquisto e tolleranza per il friction nell'UX. Il vantaggio dell'approccio è la semplicità di interpretazione e la velocità di ottenere risultati. Lo svantaggio è l'impossibilità di separare l'effetto causale della funzionalità dall'auto-selezione di audience tecnicamente competenti con alta conversione di base.

Il rollout geografico con il Difference-in-Differences prevedeva un lancio iniziale a Mosca (alta penetrazione di smartphone di fascia alta), per poi espandere nelle regioni un mese dopo. Vantaggio: possibilità di tenere conto delle tendenze temporali e della stagionalità della moda. Svantaggio: le regioni differivano per reddito disponibile e valori di moda, violando l'assunzione di tendenze parallele; il pubblico di Mosca aveva un'elasticità sistematicamente diversa rispetto alla novità nelle funzionalità digitali.

Variabili strumentali con Propensity Score Matching utilizzava l'impossibilità tecnica di avviare la ricerca visiva su dispositivi senza Auto-Focus e OIS (Optical Image Stabilization) come esperimento naturale. Gli utenti con dispositivi compatibili venivano accoppiati con simili per demografia e cronologia della ricerca testuale, ma con dispositivi non supportati. Vantaggio: esogenità dello strumento (hardware precede la decisione di acquisto). Svantaggio: la rilevanza dello strumento veniva verificata tramite il primo stadio della statistica F (45, >10 soglia), e la restrizione di esclusione richiedeva convinzione che la fotocamera influisse sull'acquisto solo tramite la ricerca.

È stata scelta una soluzione IV con controllo addizionale delle condizioni di illuminazione attraverso un'API per determinare il momento della giornata e analisi dei metadati EXIF delle foto (ISO, tempo di esposizione). Il risultato finale: il vero Local Average Treatment Effect (LATE) è stato del +4,2% alla conversione (tutto il resto è stato bias di selezione), essendo l'effetto concentrato nella categoria "scarpe" (dove la corrispondenza dei colori è critica), e assente negli "accessori" (dove il marchio domina le caratteristiche visive).

Cosa i candidati spesso trascurano

Perché non è possibile semplicemente effettuare un A/B test a livello utente, se l'infrastruttura lo consente?

I candidati ignorano gli effetti di rete nell'addestramento del Visual Embeddings Model: quando gli utenti scattano foto, questi dati finiscono nel campione di addestramento della Siamese Network, migliorando la qualità della ricerca per tutti gli utenti, inclusi quelli del gruppo di controllo (spillover effects). Inoltre, l'assunzione SUTVA (Stable Unit Treatment Value Assumption) viene violata tramite la contaminazione del ranking: se la ricerca visiva eleva prodotti pertinenti nel feed generale di raccomandazioni, ciò influisce sul comportamento del gruppo di controllo.

La soluzione è la Cluster Randomization a livello di tipo di dispositivo o l'uso della Exposure Mapping con aggiustamento per l'intensità di utilizzo della funzionalità nel cluster tramite Inverse Probability Weighting.

Come separare la cannibalizzazione della ricerca testuale dalla creazione di nuova domanda, quando l'intento non è latente?

L'approccio standard di confronto tra richieste totali ignora il volume corretto per qualità. È necessario applicare il Principal Stratification Framework: definire quattro strati (Compliers, Never-takers, Always-takers, Defiers) sulla base dei potenziali risultati dell'utilizzo della ricerca testuale con/ senza visiva.

Successivamente, valutare il Complier Average Causal Effect (CACE) per coloro che passerebbero dalla ricerca testuale a quella visiva solo se disponibile. Utilizzare anche la Embedding Space Distance tra le richieste testuali dell'utente e le categorie di prodotto: se la ricerca visiva riduce la distanza semantica tra richiesta e acquisto, questo è un effetto incrementale e non una sostituzione.

Qual è il rischio di condizionare il numero di riconoscimenti riusciti nell'analisi della retention?

Questo rappresenta un classico Collider Bias (struttura M): la condizione di "successo del riconoscimento" (che dipende sia dalla qualità della fotocamera che dalla difficoltà della richiesta) apre percorsi spuriali tra hardware e retention. I candidati spesso filtrano "upload falliti", creando una selezione sulla variabile dipendente.

L'approccio corretto è la Heckman Two-Step Correction o il Tobit Model per risultati zero-inflated, dove si modellano congiuntamente la decisione di utilizzare la funzionalità e l'esito condizionato all'uso, tenendo conto dell'Inverse Mills Ratio dalla prima equazione del modello probit con i predittori (illuminazione, ora del giorno, categoria del prodotto).