Réponse à la question

Pour mesurer l'effet sans randomisation, il est nécessaire de construire un contrôle synthétique via Propensity Score Matching (PSM), puis d'appliquer la méthode Difference-in-Differences (DiD). Nous commençons par évaluer la probabilité de recevoir un badge (régression logistique) sur des données historiques (activité, démographie, rétention), afin de faire correspondre les « traités » avec des utilisateurs « contrôles » similaires. Ensuite, nous comparons la dynamique de la métrique cible (profondeur d'engagement) entre ces groupes, ce qui permet de séparer l'effet du badge des tendances générales de croissance.

Il est crucial de vérifier l'hypothèse de tendances parallèles via une analyse event-study : nous construisons une régression avec des lags et des leads de traitement et nous nous assurons que les coefficients avant l'implémentation ne sont pas significatifs. Pour augmenter la sensibilité, nous utilisons CUPED en Python ou en R, réduisant la variance grâce aux covariables avant l'expérience. L'évaluation finale de ATT (Average Treatment Effect on the Treated) donne une estimation non biaisée de l'effet net de la gamification.

Situation de la vie réelle

La société « EduTech » a lancé un programme de motivation : les utilisateurs recevaient des badges numériques pour avoir laissé des retours sur les cours. Les contraintes techniques du backend hérité n'ont pas permis de diviser l'audience de manière aléatoire, ce qui a conduit l'analyste à mesurer l'impact sur la métrique « profondeur d'engagement » (nombre moyen de leçons visionnées par semaine) avec un fort auto-sélection : les retours étaient laissés par les étudiants les plus actifs, ce qui créait un biais évident.

Quatre approches ont été envisagées pour résoudre le problème.

Comparaison simple des moyennes après implémentation entre ceux ayant reçu un badge et ceux ne l'ayant pas reçu. L'avantage principal est la rapidité du calcul en SQL sans préparation complexe des données. Le principal inconvénient est l'ignorance totale de l'auto-sélection : les utilisateurs actifs croissent de toute façon plus rapidement (effet de maturation), ce qui conduit à une surestimation de l'effet et à des conclusions erronées sur l'efficacité.

Analyse « avant-après » exclusivement sur le groupe avec badges. Les avantages résident dans l'élimination des différences intergroupes et l'utilisation du test t apparié pour les mêmes utilisateurs. Cependant, il est impossible de séparer l'effet du badge de la croissance saisonnière générale de l'activité (début de l'année scolaire) ou des changements simultanés dans les algorithmes de recommandations, ce qui rend les conclusions peu fiables.

Régression OLS avec contrôle des covariables en ajoutant des variables sur l'activité passée. Cela est rapidement mis en œuvre dans statsmodels et donne des coefficients clairs. Mais la méthode exige une stricte linéarité des relations, est sensible aux valeurs aberrantes et ne tient pas compte des tendances individuelles de développement de l'utilisateur au fil du temps, ce qui peut fausser l'évaluation.

PSM + Difference-in-Differences (solution choisie). Nous avons effectué Propensity Score Matching dans BigQuery, en utilisant régression logistique sur les prédicteurs avant le lancement (fréquence de connexion, cours suivis). Nous avons ensuite appliqué DiD avec des effets fixes utilisateur et par semaine. Les avantages incluent la minimisation du biais de sélection sur les caractéristiques observables et l'élimination des tendances temporelles tout en respectant la condition de parallélisme. Les inconvénients incluent une complexité de calcul élevée et la criticité de l'hypothèse de tendances parallèles, nécessitant une vérification via des graphiques event-study.

La solution a été choisie en raison de sa capacité à fournir l'estimation la moins biaisée en présence de données uniquement observables. L'analyse a révélé que les badges augmentaient l'engagement de 12 %, mais seulement pour les utilisateurs ayant moins de trois mois d'ancienneté. Pour les « vétérans », l'effet s'est avéré statistiquement non significatif, ce qui a poussé l'équipe produit à revoir les règles d'attribution et à se concentrer sur l'onboarding.

Ce que les candidats oublient souvent

Comment vérifier que l'hypothèse de tendances parallèles dans DiD n'est pas violée si nous n'avons pas d'expérience ?

Les candidats se contentent souvent d'une comparaison visuelle des graphiques, négligeant la vérification formelle. Il est nécessaire de construire une régression event-study, en incluant des variables indicatrices pour chaque période avant et après le traitement. Si les coefficients pour les périodes « avant » sont statistiquement significatifs (p-value < 0.05), l'hypothèse est violée. Dans ce cas, CUPED peut être appliqué pour ajuster les pré-trends ou utiliser la Synthetic Control Method pour construire un groupe témoin avec une tendance aussi proche que possible de la tendance du groupe traité avant l'intervention.

Pourquoi le Propensity Score Matching ne résout-il pas le problème d'endogénéité lié aux caractéristiques cachées (selection on unobservables) ?

Le PSM équilibre uniquement les covariables observées (âge, activité), mais s'il existe une motivation cachée (par exemple, « amour de l'apprentissage ») qui est difficile à quantifier, le biais persiste. Pour y remédier, des variables instrumentales (IV) sont nécessaires, par exemple, la distance géographique au centre hors ligne le plus proche, qui est corrélée à la probabilité de recevoir un badge, mais n'influence pas directement l'engagement. Une alternative est le Regression Discontinuity Design (RDD), si le seuil pour obtenir un badge est strict (par exemple, exactement 3 retours), ce qui crée une variation exogène.

Comment traiter la violation de la SUTVA (Stable Unit Treatment Value Assumption) dans la gamification, lorsque l'effet est « contagieux » à travers le graphe social ?

Si les amis voient les badges et commencent également à écrire des retours, le DiD standard donne une estimation biaisée, mélangeant les effets directs et indirects. La solution consiste à utiliser des erreurs standards clusterisées par groupes d'amis ou un échantillon en deux étapes, où les utilisateurs liés aux « traités » sont exclus du groupe témoin. Il est possible d'évaluer les effets de spillover explicitement via une mediation analysis en Python (bibliothèques causalml ou mediation), en séparant l'effet global en effet direct (sur l'utilisateur lui-même) et effet indirect (sur les amis), afin d'éviter de sous-estimer l'effet réel.