Risposta alla domanda

Contesto storico

Il problema della valutazione della qualità dei risultati di ricerca è legato a un paradosso fondamentale delle osservazioni: vediamo i clic solo nelle posizioni che l'utente ha visualizzato, ma la probabilità di visualizzazione diminuisce esponenzialmente con il rango. I lavori classici di Joachims et al. sul position bias e di Richardson sull'examination hypothesis hanno posto le basi per comprendere che il clic non è equivalente alla pertinenza. Nel contesto dell'analisi dei prodotti, questo porta alla necessità di separare la vera preferenza dell'utente dagli artefatti dell'interfaccia, soprattutto quando il cambiamento dell'algoritmo di ranking coinvolge contemporaneamente l'intera base utenti.

Definizione del problema

In caso di un aggiornamento globale del motore di ricerca, le metriche osservabili (CTR, profondità di visualizzazione, conversione) cambiano sotto l'influenza di due confonditori: il cambiamento dell'ordine stesso dei documenti e il cambiamento della probabilità di visualizzazione. Senza la possibilità di separare gli utenti in gruppi di controllo e test, il classico A/B testing non è possibile, e le oscillazioni stagionali creano tendenze temporali che si correlano con il momento del rilascio. L'obiettivo dell'analista è isolare il puro effetto del ranking da questi rumori in presenza di dati limitati.

Soluzione dettagliata

L'approccio ottimale combina metodi di quasi-sperimentazione e correzioni per bias. Nella prima fase si applica il Difference-in-Differences con controllo sintetico: si costruisce una combinazione pesata di periodi storici o segmenti di prodotto che minimizzano l'errore di previsione pre-trattamento delle metriche. Per la correzione del position bias si utilizza il Inverse Propensity Weighting (IPW), dove i propensity scores sono stimati in base alla probabilità di visualizzazione della posizione sulla base di log randomizzati passati o attraverso l'algoritmo Expectation-Maximization assumendo il Examination-Cascade Model. Inoltre, per effetti non lineari si applicano Causal Forests, che consentono di modellare l'eterogeneità dell'effetto tra le categorie di prodotto e i segmenti di utenti.

Situazione reale

In un marketplace di elettronica, il team di ricerca ha sostituito il BM25 con un BERT-based ranker basato su rete neurale, ottimizzato per la marginalità. Due settimane dopo il rilascio, la metrica GMV per sessione di ricerca è aumentata del 18%, ma la profondità di visualizzazione è diminuita del 25%. L'azienda era incerta se la crescita fosse dovuta all'algoritmo o all'inizio delle vendite, che coincidevano con il rilascio, e si preoccupava del degrado dell'esperienza utente per le query a lungo termine.

La prima opzione era considerare un semplice confronto delle metriche prima e dopo il rilascio attraverso il t-test. Il vantaggio era la rapidità e l'assenza di necessità di una complessa infrastruttura. Tuttavia, i difetti erano evidenti: impossibilità di separare l'effetto stagionale delle vendite dall'effetto dell'algoritmo, ignorare il position bias (il nuovo algoritmo potrebbe mostrare prodotti costosi più in alto semplicemente perché rendono di più, non perché siano più pertinenti), e l'assenza di considerazione dell'inflazione generale della domanda durante le promozioni.

La seconda opzione era un'analisi Interrupted Time Series (ITS) con decomposizione stagionale attraverso Prophet o SARIMA. Questo avrebbe permesso di considerare tendenze e stagionalità, costruendo un valore predittivo controfattuale delle metriche senza il rilascio. I vantaggi includevano la rigorosità statistica e la possibilità di modellare autocorrelazioni. I difetti, d'altra parte, consistevano nella sensibilità rispetto al punto di rottura (se il rilascio era graduale), alla difficoltà di interpretazione dei coefficienti per il business e all'assunzione di linearità delle tendenze, spesso violata nell'e-commerce durante le campagne promozionali di massa.

La terza opzione era lo sviluppo del Synthetic Control Method a livello delle categorie di prodotti: creazione di un paniere pesato di query o categorie non coinvolte, dove l'algoritmo non era cambiato (ad esempio, a causa di vincoli tecnici su singole località), come gruppo di controllo per il confronto. I vantaggi includevano la chiarezza visiva e l'intuitività per gli stakeholder, oltre a una minore sensibilità alle assunzioni sulla forma della distribuzione degli errori. Gli svantaggi includevano la necessità di identificare unità di controllo appropriate con dinamiche simili (cosa difficile in caso di rilascio globale) e il rischio di overfitting durante la selezione dei pesi.

Alla fine è stata scelta una metodologia ibrida: Diff-in-Diff con controllo sintetico a livello delle categorie di prodotto, combinata con una correzione IPW per la posizione di visualizzazione. Questo ha permesso di separare l'effetto del cambiamento del ranking dai picchi stagionali e di correggere la distorsione causata dal fatto che i prodotti costosi venivano ora mostrati più frequentemente nelle posizioni superiori. La scelta è stata dettata dalla necessità di considerare simultaneamente la struttura temporale dei dati e le distorsioni strutturali nell'esposizione.

Il risultato è stato stabilire che il 14% del 18% di crescita del GMV è spiegato proprio dall'algoritmo, mentre il restante 4% dalla stagionalità. Inoltre, si è scoperto che per le query head (top 20% per frequenza) la conversione è aumentata del 22%, mentre per le query tail è diminuita del 15%, il che è stato compensato da un aumento del valore medio dell'ordine. Questo ha portato a decidere di implementare uno schema ibrido: un ranking neurale per le query popolari e uno classico per le rare, bilanciando così le metriche.

Cosa i candidati spesso trascurano

Come considerare correttamente il position bias in assenza di esperimenti randomizzati?

Senza specifiche esposizioni randomizzate, è possibile stimare la propensity attraverso l'algoritmo Expectation-Maximization, assumendo che clic = examination × relevance. I candidati spesso propongono semplicemente di aggiungere la posizione come caratteristica nella regressione, ma ciò ignora l'interazione non lineare tra posizione e pertinenza. L'approccio corretto è utilizzare i Click Models (Cascade Model o DBN — Dependent Click Model) per stimare la probabilità di esame, e poi pesare le osservazioni in modo inversamente proporzionale a questa probabilità (IPW). Senza ciò, la valutazione dell'effetto del ranking sarà distorta a favore dei risultati top-heavy.

Perché un semplice confronto dei clic prima e dopo l'implementazione dell'algoritmo fornisce una valutazione distorta anche considerando la stagionalità?

Oltre al position bias, esiste l'effetto exploration vs exploitation e user learning. Un nuovo algoritmo può esplorare (explore) meno, offrendo risultati più prevedibili, riducendo l'engagement a breve termine. Oppure, al contrario, gli utenti possono adattarsi alla nuova struttura dei risultati, modificando i modelli di scroll (scrolling behavior), cosa che viola l'assunzione di stazionarietà nell'analisi delle serie temporali. I candidati trascurano la necessità di verificare l'assunzione di tendenze parallele nel Diff-in-Diff sui dati pre-periodo e l'importanza dei ritardi nell'aggregazione (non si possono confrontare giorno per giorno a causa degli effetti del day-of-week, è necessaria almeno un'aggregazione settimanale).

Come distinguere l'effetto di miglioramento del matching tra query e prodotto dall'effetto del cambiamento della composizione dell'assortimento nella parte alta dei risultati?

Questa distinzione è cruciale per comprendere l'impatto a lungo termine su LTV. Se il nuovo algoritmo sposta semplicemente i risultati verso prodotti costosi (assortment shift), e non comprende meglio l'intenzione dell'utente (relevance improvement), l'aumento della conversione può essere a breve termine a causa dell'effetto novità. Per la separazione è necessario utilizzare Causal Forests o Meta-learners (S-Learner, T-Learner) con effetti fissi sui prodotti (product fixed effects), per confrontare lo stesso prodotto in diverse posizioni prima e dopo il cambiamento. Se l'effetto si osserva solo grazie al cambiamento della composizione dei prodotti nella parte alta (ad esempio, la scomparsa di opzioni economiche), questo richiede una diversa reazione di prodotto rispetto a se CPC è aumentato in posizioni fisse per quel prodotto.