Risposta alla domanda

Storicamente, gli approcci per valutare le funzionalità AR nell'analisi dei prodotti si sono basati su analisi correlate o semplici confronti delle medie tra utenti con tecnologia supportata e senza di essa. Questo framework metodologico ha dominato fino al 2018, quando i ricercatori dettaglianti in retail non hanno preso in considerazione le differenze sistematiche nella segmentazione del pubblico per categorie di prezzo dei dispositivi. I possessori di smartphone di fascia alta con ARKit o ARCore differiscono statisticamente in modo significativo per quanto riguarda il reddito, l'adattabilità tecnologica e la propensione ad acquisti impulsivi di articoli ad alta marginalità.

Pertanto, il confronto diretto crea un'autoselezione distorta del 40%, rendendo impossibile separare l'effetto della funzionalità dalle differenze preesistenti tra i gruppi. Il A/B testing classico è anche impossibile, poiché l'attivazione forzata di AR su dispositivi incompatibili porta a malfunzionamenti tecnici, crash dell'app e un'esperienza utente distorta, violando il principio fondamentale di SUTVA (Stable Unit Treatment Value Assumption) e creando un effetto di reazione negativa sull'intervento.

La soluzione ottimale richiede l'uso della Regression Discontinuity Design (RDD) attorno alla soglia delle specifiche tecniche del dispositivo, ad esempio, confrontando gli utenti dell'iPhone X e dell'iPhone 8+, che hanno una disponibilità di prezzo simile sul mercato secondario e caratteristiche demografiche paragonabili, ma differiscono criticamente per la presenza della camera TrueDepth, necessaria per AR. Per tenere conto dell'implementazione graduale delle categorie di prodotto, aggiungiamo Difference-in-Differences (DiD) con effetti fissi categoria-tempo (Two-Way Fixed Effects), controllando per la stagionalità e le differenze di assortimento. Infine, applichiamo Propensity Score Matching (PSM) per segmento di prezzo del dispositivo e storia degli acquisti per correggere l'eterogeneità residua all'interno della zona locale RDD, permettendo di estrapolare l'effetto medio locale (LATE) sull'intera popolazione tramite Inverse Probability Weighting.

Situazione della vita reale

In un grande marketplace di moda, nel’autunno del 2023 è stata lanciata la prova AR per occhiali da sole utilizzando la tecnologia di tracciamento facciale. La funzione funzionava esclusivamente su iPhone X+ e flagship Android con Google ARCore, escludendo automaticamente il 60% del pubblico con dispositivi a budget. Un rapporto analitico preliminare mostrava che gli utenti con accesso a AR convertono in acquisti 3.5 volte più spesso e restituiscono il prodotto il 30% in meno, ma il team sospettava un forte bias di sopravvivenza: i possessori di telefoni costosi storicamente mostrano un valore medio degli acquisti e una lealtà più elevata indipendentemente dalle nuove funzionalità.

La prima opzione considerata è stata un confronto diretto delle medie tramite t-test o Mann-Whitney U test tra i gruppi con disponibilità AR senza alcun aggiustamento. I pro di questo approccio includevano il calcolo immediato, requisiti minimi di dati e chiarezza dei risultati per gli stakeholder aziendali. I contro erano critici: l'endogamia catastrofica del reddito e della consapevolezza tecnologica rendeva impossibile separare l'effetto della funzionalità dalle differenze preesistenti tra i segmenti di utenti.

La seconda opzione era un'analisi cohort before-after per gli utenti che hanno aggiornato i loro dispositivi da incompatibili a compatibili con AR durante il periodo di osservazione. I pro consistevano nel controllo dell'eterogeneità individuale attraverso un confronto intra-soggetto, eliminando il bias dovuto a caratteristiche non misurabili dell’utente. I contro includevano un forte impatto dell'effetto novità (novelty effect), della stagionalità (l’aggiornamento dei telefoni a picchi a dicembre e settembre si correla con diversi schemi di acquisto), e anche l'autoselezione riguardo il momento dell'aggiornamento (utenti motivati cambiano i telefoni più di frequente).

La terza opzione prevedeva l'applicazione della Regression Discontinuity Design attorno al limite del modello iPhone X (chip A11 Bionic), confrontando utenti dell'iPhone 8+ e iPhone X, statisticamente indistinguibili per caratteristiche socio-demografiche e categoria di prezzo nel mercato secondario, ma differenti soltanto per la presenza della camera TrueDepth. I pro di questo metodo includevano la creazione di una distribuzione quasi casuale nella zona locale intorno al confine, fornendo una valutazione causale valida (LATE) senza necessità di randomizzazione. I contro consistevano nella validità esterna limitata: i risultati sono applicabili solo a "utenti marginali" oscillanti tra l'acquisto di un vecchio e un nuovo flagship, e nella necessità di verificare l'assunzione di continuità delle covariate (continuity assumption) e l'assenza di manipolazione puntuale (heap).

È stata scelta una soluzione combinata: RDD per valutare il puro effetto della funzione sugli utenti marginali al confine del dispositivo, integrata con Difference-in-Differences con adozione scalonata per tenere conto del rollout graduale delle categorie di prodotti (prima marca premium, poi massa market). Per eseguire l'estrapolazione dei risultati dal confine all'intera popolazione, è stato impiegato Inverse Probability Weighting (IPW) basato sulla distribuzione dei prezzi dei dispositivi e delle caratteristiche demografiche. Il risultato finale ha mostrato che il vero effetto era +8% sulle conversioni e -12% sui resi, mentre l'analisi ingenua senza aggiustamenti mostrava risultati distorti di +35% e -28% rispettivamente, il che ha cambiato in modo critico la decisione aziendale di scalare la funzione e ha permesso di evitare aspettative di investimento sovrastimate.

Cosa i candidati spesso trascurano

Come trattare correttamente gli effetti di spillover (spillover effects), quando gli utenti AR condividono foto della prova virtuale sui social media o nei messaggi, influenzando le decisioni d'acquisto dei loro contatti che non hanno dispositivi compatibili e appartengono formalmente al gruppo di controllo?

I candidati ignorano spesso la violazione di SUTVA attraverso il grafo sociale, assumendo l’isolamento dei gruppi. In pratica, se un amico vede la prova degli occhiali attraverso Instagram Stories e svolge un acquisto, questo inquina il gruppo di controllo. Un approccio corretto è l'applicazione di Two-Stage Least Squares (2SLS) con una variabile strumentale (data di rilascio di un determinato modello telefonico in una specifica regione), che influisce solo sulla disponibilità di AR per il "mittente" ma non sul "ricevitore" direttamente. In alternativa si utilizza la exposure mapping, dove modelliamo l'intensità delle connessioni sociali tra gli utenti e introduciamo nel modello l'interazione treatment × exposure, permettendo di valutare quantitativamente l'effetto diretto di AR rispetto all'effetto indiretto della viralità.

Perché la metodologia Intent-to-Treat (ITT) con successiva stima del Local Average Treatment Effect (LATE) è preferibile rispetto a tentativi di condurre un "forzato" A/B-test, forzando l'attivazione della funzione AR per metà casuale del pubblico, anche se tecnicamente possibile tramite rendering cloud?

Questa domanda verifica la comprensione dell'etica sperimentale e delle restrizioni di conformità. L'attivazione forzata di AR tramite rendering cloud su dispositivi incompatibili crea un'esperienza utente artificiale con alta latenza e bassa risoluzione, portando a un'esperienza catastrofica e a un alto tasso di abbandono degli utenti, violando il principio del "no harm". Questo crea selection into non-compliance: gli utenti disattiveranno rapidamente la funzione o rimuoveranno l'app, rendendo impossibile la valutazione dell'effetto e causando un bias nella conformità. L'approccio corretto è il design di incoraggiamento: invece di attivazione forzata, mostriamo casualmente un banner per invitare a provare AR (solo per i possessori di dispositivi compatibili), creando un'analisi ITT dove il treatment è l'offerta e non l'effettivo utilizzo. Poi attraverso IV-regression (variabile strumentale - randomizzazione dell'offerta) otteniamo LATE - l'effetto solo per coloro che hanno realmente utilizzato la funzione (compliers), fornendo una stima conservativa ma causale e priva di interferenze tecniche sul prodotto.

Come considerare il bias di copertura del catalogo (catalog coverage bias), quando i modelli AR sono creati solo per il 30% dei prodotti, prevalentemente nel segmento premium, creando così un bias nella valutazione del valore medio dell’acquisto e LTV, se analizziamo solo gli SKU disponibili?

I candidati dimenticano il problema della generalizzabilità e del truncation bias, confrontando il segmento premium (dove AR è disponibile) con il mercato di massa (dove non è presente). Se non correttiamo il campione, attribuiamo erroneamente l'alto valore all'effetto di AR, mentre in realtà misuriamo la differenza tra i segmenti di prezzo. La soluzione richiede l'applicazione dell'Inverse Probability Weighting (IPW) o della Doubly Robust Estimation: prima modelliamo il propensity score - la probabilità di avere un modello AR per un prodotto in base alle sue caratteristiche osservabili (prezzo, marca, categoria, stagionalità). Poi ponderiamo le osservazioni in modo inverso rispetto a questa probabilità, per rendere il campione con AR rappresentativo dell'intero catalogo. Inoltre, utilizziamo i metodi di controllo sintetico per le categorie senza AR, creando una combinazione lineare ponderata di categorie con AR, che imita il comportamento controfattuale delle categorie mancanti, permettendo di valutare l'effetto a livello di business complessivo, e non solo su un sottoinsieme di prodotti premium.