Risposta alla domanda

Il contesto storico di tali cambiamenti risale al 2017, quando Netflix abbandonò la scala a cinque stelle a favore di un sistema binario "thumbs up/thumbs down", e YouTube seguì l'esempio nascondendo i dislikes. Questi cambiamenti furono motivati dal fatto che le valutazioni a cinque stelle mostravano un'inflazione "asiatica" (accumulo attorno a 4-5 stelle) e correlavano male con il reale consumo di contenuti. Il problema risiede nell'isolamento del puro effetto del cambio nel meccanismo di raccolta del feedback dai fattori di confondimento: stagionalità delle categorie, auto-selezione degli utenti attivi e degrado temporale dei modelli di Collaborative Filtering a causa della scarsità di nuovi segnali.

La soluzione adottata è stata il Staggered Difference-in-Differences (DiD) con categorie di contenuto, in cui le categorie trattate (treatment) vengono confrontate con quelle non ancora trasferite (control), considerando i tempi di implementazione differenti. Per categorie senza analoghi diretti è stato utilizzato il Synthetic Control Method, che crea una combinazione pesata delle categorie di controllo per simulare un controfatto. L'endogeneità dell'auto-selezione degli utenti valutatori è stata corretta tramite Heckman Correction o Propensity Score Matching basato sulla cronologia delle visualizzazioni e sul tenure. Per valutare la qualità delle raccomandazioni è stata applicata la Counterfactual Evaluation con metriche NDCG e MAP su campioni hold-out, escludendo il periodo di burn-in della durata di 2-4 settimane per stabilizzare la matrice dei fattori.

Situazione reale

Il servizio di streaming "CinemaFlow" prevedeva la sostituzione del sistema a cinque stelle obsoleto con uno binario per aumentare l'engagement. Il problema principale era che il team sospettava una perdita di potere predittivo delle raccomandazioni a causa della diminuzione della granularità del segnale e temeva un crollo dell'attività degli utenti, abituati alla scala dettagliata. Era necessario trovare un metodo di valutazione che considersse il rollout graduale per genere (prima i documentari, poi le commedie) e gli effetti di rete, in cui la visibilità delle valutazioni esistenti influenzava la volontà dei nuovi utenti di votare.

È stata considerata l'opzione del classico A/B testing con la separazione degli utenti a livello di user_id. I vantaggi di questo approccio includevano la pulizia dell'esperimento e la semplicità dell'interpretazione dell'effetto causale. I contro erano critici: l'algoritmo Collaborative Filtering perdeva integrità a causa della mescolanza di due tipi di segnali in un'unica matrice, creando artefatti nelle raccomandazioni per entrambi i gruppi; esisteva il rischio di contaminazione incrociata tramite funzioni sociali (gli utenti vedevano le valutazioni degli amici di un altro gruppo); l'azienda temeva reazioni negative per un'esperienza utente frammentata all'interno di un unico prodotto.

Un'alternativa era stata un'analisi prima/dopo che confrontava le metriche prima e dopo la transizione per ciascuna categoria separatamente. I vantaggi erano la semplicità tecnica e l'assenza di necessità di mantenere il vecchio sistema per parte degli utenti. Gli svantaggi includevano l'incapacità di separare l'effetto dell'intervento dalle fluttuazioni stagionali delle visualizzazioni (ad esempio, i film natalizi ricevono valutazioni diverse a dicembre), né considerare l'effetto di comportamento gregario e auto-selezione dei primi sostenitori del nuovo sistema, portando a una valutazione distorta.

È stato scelto un approccio ibrido Staggered DiD con Synthetic Controls e Instrumental Variables. Questo metodo ha permesso di utilizzare categorie che non erano ancora passate al sistema binario come controllo per quelle già trasferite, correggendo le tendenze temporali. Synthetic Control ha compensato l'eterogeneità tra i generi, mentre l'approccio IV utilizzando il tempo del giorno di pubblicazione dei contenuti (quando ci sono meno utenti online e l'herding è più debole) come strumento ha aiutato a isolare il puro effetto dell'interfaccia di valutazione. La scelta è stata dettata dalla necessità di mantenere la funzionalità del sistema di raccomandazione durante la transizione e di ottenere valutazioni non distorte in presenza di dati parzialmente disponibili.

Il risultato finale ha mostrato che il volume di valutazioni è aumentato del 220% grazie alla diminuzione del carico cognitivo, ma l'accuratezza delle raccomandazioni (misurata con NDCG@10) è diminuita del 12% nelle prime tre settimane. Questo periodo corrispondeva all'overfitting del modello di Matrix Factorization, dopodiché le metriche si sono riprese fino al baseline grazie all'aumento della densità della matrice. Sulla base di questi dati, il team di prodotto ha deciso di effettuare un rollout completo con un budget aggiuntivo per il cold start per i nuovi utenti.

Cosa spesso gli candidati trascurano

Come tenere correttamente conto del periodo di degrado della qualità delle raccomandazioni durante il riaddestramento del modello e separarlo dal vero effetto del nuovo sistema?

Risposta: È necessario formalizzare il concetto di "periodo di burn-in", di solito di 2-4 settimane, durante il quale le metriche di qualità delle raccomandazioni vengono escluse dall'analisi causale principale. Utilizza la Counterfactual Evaluation su set storici hold-out, confrontando le metriche offline (NDCG, MAP, Precision@K) prima e dopo la transizione, stratificando però anche in base al livello di attività degli utenti. È importante monitorare le metriche coverage e diversity separatamente dall'accuracy, poiché segnali binari possono aumentare il bias di popolarità con una regolarizzazione insufficiente.

Come affrontare l'endogeneità dell'auto-selezione degli utenti disposti a lasciare valutazioni sotto il nuovo sistema e distinguere il loro comportamento dall'effetto stesso dell'interfaccia?

Risposta: Gli utenti che valutano contenuti sotto il sistema binario differiscono sistematicamente da coloro che valutavano con stelle (tendono a preferenze estreme). Applicare la Heckman Correction (modello a due stadi con equazione di selezione) o il Inverse Probability Weighting basato su punteggi di propensità calcolati in base a caratteristiche osservabili (storia delle visualizzazioni, tenure, durata della sessione). Come Instrumental Variable utilizzare le variazioni casuali dell'interfaccia (ordine dei pulsanti like/dislike) o A/B testing della visibilità delle valutazioni aggregate per isolare il puro effetto del meccanismo di raccolta dati.

Come valutare quantitativamente l'effetto di comportamento gregario (herding) e separarlo dalla vera preferenza dell'utente nell'analisi del volume di valutazioni?

Risposta: Separare gli utenti in "pionieri" (first-movers), che vedono un contatore di valutazioni vuoto, e "seguaci", che vedono un numero non nullo di voti. Applicare il Regression Discontinuity Design (RDD) attorno ai confini di visibilità della valutazione (ad esempio, quando i contenuti entrano nelle top-10 della categoria). Confrontare la probabilità di valutazione tra gli utenti che vedono il risultato aggregato e quelli che vedono "sii il primo". Per la correzione dinamica, utilizzare Thompson Sampling o metodi bayesiani per stimare la vera qualità del contenuto, filtrando gli effetti di rete attraverso i lag temporali tra pubblicazione e valutazione.