Contexte historique. Les plateformes edtech traditionnelles ont longtemps utilisé des trajectoires d'apprentissage statiques avec une difficulté fixe pour tous les utilisateurs. Avec l'avènement de Machine Learning et des capacités de traitement des données en temps réel, des systèmes adaptatifs ont vu le jour, ajustant dynamiquement le contenu aux capacités cognitives individuelles des élèves. Cependant, l'évaluation de l'efficacité de tels systèmes rencontre un problème méthodologique fondamental : il est impossible de montrer simultanément à un même utilisateur à la fois une version adaptative et une version statique du cours pour une comparaison pure sans compromettre l'expérience utilisateur.
Problématique. Le A/B Testing classique n'est pas applicable ici dans sa forme pure, car l'algorithme d'adaptation fonctionne en temps réel sur la base de données d'interaction en continu, et la fixation de l'utilisateur dans un groupe statique compromet la logique du produit et crée des risques éthiques en offrant intentionnellement une expérience éducative sous-optimale. De plus, il existe une forte endogénité : les utilisateurs avec différents niveaux de connaissances réagissent de manière asymétrique à l'adaptation (certains nécessitant une simplification, d'autres une complexification), ce qui nécessite des méthodes d'évaluation des effets hétérogènes de l'impact.
Solution détaillée. L'approche optimale consiste en une combinaison de Regression Discontinuity Design (RDD) au seuil d'activation de l'algorithme et de Difference-in-Differences (DiD) pour les cohortes d'utilisateurs avec des temps d'implémentation différents. Tout d'abord, si l'algorithme s'active à l'atteinte d'un certain niveau d'erreurs dans la résolution de problèmes (par exemple, >30% de réponses incorrectes consécutives), on peut utiliser le Sharp RDD, en comparant les utilisateurs juste avant et après le seuil d'activation de l'adaptation. Deuxièmement, pour évaluer l'effet à long terme sur la rétention, on utilise la Synthetic Control Method : une combinaison pondérée d'utilisateurs de cohortes historiques n'ayant pas eu accès au système adaptatif, imitant au maximum le comportement du groupe de test actuel avant l'implémentation. En outre, on utilise le Causal Forest ou les Meta-learners pour quantifier l'hétérogénéité de l'effet par segments de préparation initiale. Les données sont agrégées via SQL avec des fonctions de fenêtre pour le suivi des sessions, et l'analyse statistique est réalisée en Python à l'aide des bibliothèques causalml, pymc pour l'estimation bayésienne de l'incertitude et sklearn pour la création de variables proxy.
Dans l'école en ligne de programmation « CodeStart », un algorithme de suivi adaptatif a été mis en œuvre, qui simplifiait ou complexifiait automatiquement les tâches de Python en fonction de la vitesse de résolution des tâches précédentes et des modèles d'erreurs. Le chef de produit a demandé d'évaluer si cela augmentait le taux de complétion du cours de 45% à 60%, mais l'équipe d'analyse a constaté que la désactivation de l'algorithme pour le groupe de contrôle entraînait un taux de désabonnement massif le deuxième jour de formation, rendant la comparaison incorrecte.
Trois options de solution ont été considérées.
Option 1 : Test A/B classique avec désactivation complète de l'algorithme pour 50% du trafic. Les avantages de cette approche comprennent la simplicité d'interprétation des résultats et la comparabilité directe des métriques entre les groupes. Les inconvénients incluent un risque élevé de perte d'utilisateurs dans le groupe de contrôle en raison de la frustration face à des tâches trop difficiles ou, au contraire, à l'ennui provoqué par des tâches trop simples, ce qui crée un biais de survie (survivorship bias) et compromet les normes éthiques d'accès égal à une éducation de qualité.
Option 2 : Analyse des données historiques avant l'implémentation (analyse pré-post) sans groupe de contrôle. Avantages : absence de nécessité de priver une partie du public d'améliorations et possibilité d'obtenir rapidement des résultats. Inconvénients : impossibilité de dissocier l'effet de l'algorithme des facteurs externes, tels que la saisonnalité (début de l'année scolaire), les changements de qualité du trafic des canaux publicitaires et les événements macroéconomiques, ce qui rend l'évaluation de l'effet peu fiable et subjective.
Option 3 : Utilisation de la Regression Discontinuity Design au seuil d'activation de l'adaptation avec variables instrumentales. Cette option a été choisie, car l'algorithme s'activait strictement automatiquement lorsque le seuil d'erreurs de 25% sur le module était dépassé, créant ainsi une expérience naturelle. Nous avons comparé les utilisateurs avec 24% et 26% d'erreurs - des groupes pratiquement identiques en termes de caractéristiques observées, mais avec des statuts d'adaptation différents. Pour l'évaluation à long terme, nous avons construit un contrôle synthétique à partir des cohortes de l'année précédente avec une distribution similaire des compétences initiales, en utilisant le Propensity Score Matching.
Le résultat final a montré que l'algorithme adaptatif augmente le taux de complétion du cours de 18 points de pourcentage (de 45% à 53%) pour les utilisateurs ayant un niveau de préparation initial moyen, mais a un effet négatif (-5%) pour les étudiants avancés, pour qui le système a par erreur simplifié le matériel en raison de modèles de résolution atypiques. Sur la base de ces données, un facteur correctionnel a été introduit pour le seuil de difficulté pour les utilisateurs expérimentés, ce qui a porté la conversion globale à 58%.
Comment traiter la situation lorsque l'algorithme d'adaptation apprend en continu (online learning), et que ses prévisions changent au fil du temps, rendant l'évaluation statique de l'effet non valide ?
Réponse. Il est nécessaire d'utiliser le thompson sampling ou les contextual bandits dans le cadre du design expérimental dès la phase d'implémentation. Au lieu d'un impact fixe, une distribution de probabilités de l'effet est modélisée, qui est mise à jour avec chaque nouvelle observation. Des méthodes d'off-policy evaluation sont utilisées, comme le inverse propensity weighting (IPW) ou les doubly robust estimators, qui corrigent les biais résultant du fait que la politique de l'algorithme a changé au cours de la collecte des données historiques. Il est essentiel de journaliser la version du modèle et ses paramètres pour chaque décision prise dans ClickHouse ou un dépôt similaire, afin de stratifier ultérieurement l'analyse par versions de l'algorithme et de prendre en compte son évolution.
Pourquoi la comparaison standard des moyennes (t-test) entre les groupes avec l'algorithme activé et désactivé donne une estimation biaisée même avec randomisation, et comment corriger cela ?
Réponse. Le problème réside dans les effets de réseaux (spillover effects) et la violation de l'hypothèse SUTVA (Stable Unit Treatment Value Assumption). Si les utilisateurs interagissent entre eux via des forums, des projets de groupe ou des chats, alors le groupe de contrôle est "infecté" par l'impact à travers l'apprentissage social et l'échange d'expériences. Pour corriger cela, on utilise la randomisation par grappes (randomisation au niveau des classes/groupes, plutôt qu'au niveau des individus) ou une exposition mapping — modélisation de la probabilité de contact avec la version adaptative du cours. De manière alternative, on utilise les deux étapes des moindres carrés (2SLS) avec une variable instrumentale (par exemple, le seuil des erreurs pour l'activation de l'adaptation) pour isoler l'effet moyen local du traitement (LATE).
Comment distinguer l'effet réel d'adaptation de l'effet de nouveauté (novelty effect), lorsque les utilisateurs interagissent plus activement simplement parce que l'interface a changé, et non en raison de l'amélioration de la qualité de l'ajustement des tâches ?
Réponse. Il est nécessaire d'effectuer une analyse par cohortes avec différentes dates de mise en œuvre et de suivre la dynamique temporelle de l'effet au fil du temps. Si les métriques d'engagement retournent au niveau de base après 2-3 semaines d'utilisation, cela indique un effet classique de nouveauté. Pour la séparation, on utilise une régression segmentée avec un point de rupture (interrupted time series) ou une comparaison avec un groupe de contrôle, auquel l'algorithme "fait semblant" d'être adaptatif, mais montre en réalité un contenu aléatoire ou fixe (test placebo). Il est également important d'analyser non seulement les métriques proxy (temps sur la plateforme), mais aussi les hard metrics (résultats de l'examen final ou projet pratique), qui sont moins sujettes à de courtes fluctuations de motivation et reflètent l'acquisition réelle du contenu.