Contesto storico. Le tradizionali piattaforme edtech hanno a lungo utilizzato percorsi di apprendimento statici con livelli di difficoltà fissi per tutti gli utenti. Con lo sviluppo del Machine Learning e delle capacità di elaborazione dei dati in tempo reale, sono emersi sistemi adattivi che modificano dinamicamente i contenuti in base alle capacità cognitive individuali degli studenti. Tuttavia, la valutazione dell'efficacia di tali sistemi affronta un problema metodologico fondamentale: non è possibile mostrare agli stessi utenti sia la versione adattiva che quella statica del corso per un confronto puro senza compromettere l'esperienza utente.
Impostazione del problema. Il classico A/B Testing non è applicabile in modo puro, poiché l'algoritmo di adattamento opera in tempo reale basandosi su dati di interazione in streaming, e la fissazione dell'utente in un gruppo statico compromette la logica del prodotto e crea rischi etici nel fornire un'esperienza educativa manifestamente subottimale. Inoltre, esiste una forte endogeneità: gli utenti con diversi livelli di conoscenza iniziale rispondono in modo asimmetrico all'adattamento (alcuni richiedono semplificazione, altri - complicazione), il che richiede metodi di valutazione degli effetti eterogenei.
Soluzione dettagliata. L'approccio ottimale è composto dalla combinazione di Regression Discontinuity Design (RDD) al limite di attivazione dell'algoritmo e di Difference-in-Differences (DiD) per i gruppi di utenti con diversi tempi di implementazione. In primo luogo, se l'algoritmo si attiva al raggiungimento di un certo livello di errori nella risoluzione dei compiti (ad esempio, >30% di risposte sbagliate consecutive), si può utilizzare il Sharp RDD, confrontando gli utenti direttamente prima e dopo il limite di attivazione dell'adattamento. In secondo luogo, per valutare l'effetto a lungo termine sulla retention si applica il Synthetic Control Method: si costruisce una combinazione pesata di utenti da coorti storiche che non avevano accesso al sistema adattivo, massimizzando l'imitazione del comportamento del gruppo di test attuale prima dell'implementazione. Si utilizza inoltre il Causal Forest o i Meta-learners per quantificare l'eterogeneità dell'effetto per segmenti di preparazione iniziale. I dati vengono aggregati tramite SQL con funzioni di finestra per monitorare le sessioni, e l'analisi statistica è condotta in Python utilizzando le librerie causalml, pymc per la stima bayesiana dell'incertezza e sklearn per costruire variabili proxy.
Nella scuola online di programmazione "CodeStart" è stato implementato un algoritmo di tracciamento adattivo, che semplificava o complicava automaticamente i task di Python in base alla velocità di risoluzione delle attività precedenti e ai modelli di errori. Il product manager richiedeva di valutare se questo aumentasse il tasso di completamento del corso dal 45% al 60%, ma il team di analisi si trovava ad affrontare che disattivare l'algoritmo per il gruppo di controllo portava a una massiccia perdita di utenti il secondo giorno di formazione, rendendo il confronto non valido.
Sono stati considerati tre opzioni per risolvere il problema della valutazione.
Opzione 1: Classico A/B test con completa disattivazione dell'algoritmo per il 50% del traffico. I vantaggi di questo approccio includono la semplicità nell'interpretazione dei risultati e la diretta comparabilità delle metriche tra i gruppi. Gli svantaggi includono l'alto rischio di perdita di utenti nel gruppo di controllo a causa della frustrazione per la complessità eccessiva o, al contrario, della noia per compiti troppo semplici, creando così un bias di sopravvivenza e violando le norme etiche di accesso equo a un'istruzione di qualità.
Opzione 2: Analisi dei dati storici prima dell'implementazione (pre-post analysis) senza gruppo di controllo. Vantaggi: non è necessario privare parte del pubblico dei miglioramenti e si può ottenere rapidamente risultati. Svantaggi: impossibilità di separare l'effetto dell'algoritmo da fattori esterni, come la stagionalità (inizio dell'anno scolastico), variazioni nella qualità del traffico da canali pubblicitari e eventi macroeconomici, rendendo la valutazione dell'effetto inaffidabile e non oggettiva.
Opzione 3: Utilizzare il Regression Discontinuity Design al limite di attivazione dell'adattamento con variabili strumentali. Questa opzione è stata scelta poiché l'algoritmo si attivava rigorosamente in modo automatico al superamento del limite di errori del 25% nel modulo, creando un esperimento naturale. Abbiamo confrontato gli utenti con il 24% e il 26% di errori - gruppi praticamente identici per caratteristiche osservabili, ma con uno stato di adattamento diverso. Per la valutazione a lungo termine, è stato costruito un controllo sintetico da coorti dello scorso anno con una distribuzione simile di skill iniziali, utilizzando il Propensity Score Matching.
Il risultato finale ha mostrato che l'algoritmo adattivo aumenta il tasso di completamento del corso di 18 punti percentuali (dal 45% al 53%) per gli utenti con un livello di preparazione medio, ma ha un effetto negativo (-5%) per gli studenti avanzati, ai quali il sistema semplificava erroneamente i contenuti a causa di modelli di risoluzione atipici. Sulla base di questi dati è stato introdotto un fattore correttivo della soglia di difficoltà per gli utenti esperti, il che ha portato la conversione complessiva al 58%.
Come gestire la situazione quando l'algoritmo di adattamento si auto-aggiorna (online learning) e le sue previsioni cambiano nel tempo, rendendo non valida la valutazione statica dell'effetto?
Risposta. È necessario utilizzare il thompson sampling o i contextual bandits come parte del design sperimentale già nella fase di implementazione. Invece di un impatto fisso, si modella la distribuzione delle probabilità dell'effetto, che viene aggiornata con ogni nuova osservazione. Per la valutazione si applicano metodi di off-policy evaluation, come il inverse propensity weighting (IPW) o gli estimatori doppiamente robusti, che correggono il bias derivante dal cambiamento della politica dell'algoritmo durante la raccolta di dati storici. È fondamentale registrare la versione del modello e i suoi parametri per ogni decisione presa in ClickHouse o in un archivio simile, per poi stratificare l'analisi per versioni dell'algoritmo e tenere conto della sua evoluzione.
Perché il confronto standard delle medie (t-test) tra i gruppi con algoritmo attivato e disattivato fornisce una stima distorta anche con randomizzazione e come correggerlo?
Risposta. Il problema risiede negli effetti di rete (spillover effects) e nella violazione dell'assunzione SUTVA (Stable Unit Treatment Value Assumption). Se gli utenti interagiscono tra loro attraverso forum, progetti di gruppo o chat, il gruppo di controllo "si contagia" dall'impatto attraverso l'apprendimento sociale e lo scambio di esperienze. Per correggerlo si utilizza la cluster randomization (randomizzazione a livello di classi/gruppi, non di singoli utenti) o il exposure mapping - modellizzazione della probabilità di contatto con la versione adattiva del corso. In alternativa, si utilizza two-stage least squares (2SLS) con una variabile strumentale (ad esempio, soglia di errori per l'attivazione dell'adattamento) per isolare l'effetto medio locale del trattamento (LATE).
Come distinguere il vero effetto dell'adattamento dall'effetto novità (novelty effect), quando gli utenti interagiscono più attivamente solo perché l'interfaccia è cambiata, e non a causa di un miglioramento nella qualità della selezione dei task?
Risposta. È necessario condurre un analysis by cohorts con diverse date di attivazione e monitorare le dinamiche temporali dell'effetto nel tempo. Se le metriche di coinvolgimento tornano al livello di base dopo 2-3 settimane dall'inizio dell'uso - questo è un classico effetto di novità. Per la separazione si utilizza la segmented regression con un punto di rottura (interrupted time series) o il confronto con un holdout group, a cui l'algoritmo "si finge" adattivo, ma in realtà mostra contenuti casuali o fissi (placebo test). È anche importante analizzare non solo le metriche proxy (tempo sulla piattaforma), ma anche le hard metrics (risultati dell'esame finale o progetto pratico), che sono meno soggette a fluttuazioni a breve termine della motivazione e riflettono il reale apprendimento del materiale.