Historiquement, les campagnes de marketing étaient évaluées par l'effet moyen de traitement (ATE), mais le développement du Causal ML a conduit à des modèles uplift, prédisant l'effet thérapeutique individuel (ITE). Le test A/B classique est ici paradoxal : pour entraîner le modèle, des données sur les groupes traités et de contrôle sont nécessaires pour tous les segments, mais pour évaluer le modèle, il faut l'appliquer, ce qui détruit le groupe de contrôle. Cela crée un dilemme d'exploration et d'exploitation.
Le problème est compliqué par la contamination croisée, lorsque le comportement des utilisateurs du groupe test influence le contrôle par des effets de réseau ou des ressources partagées (par exemple, l'épuisement d'un quota de codes promotionnels). Une méthode est nécessaire pour entraîner simultanément le modèle et isoler son effet incrémental par rapport à une distribution uniforme ou à l'absence de campagne.
La solution repose sur une Approche en Deux Étapes. La première étape — exploration avec randomisation (20-30% du trafic) pour collecter des données non biaisées, formation du modèle (X-learner ou R-learner) pour évaluer le CATE (Conditional Average Treatment Effect). La deuxième étape — exploitation avec un transfert progressif du trafic vers le modèle via le Thompson Sampling ou les Bandits Contextuels, ce qui minimise le regret. Pour isoler l'effet, on utilise la Randomisation Basée sur les Clusters (randomisation par clusters géographiques) ou le testing Switchback (randomisation temporelle) avec une évaluation ultérieure via la Méthode de Contrôle Synthétique (SCM). La métrique de qualité — coefficient de Qini ou Area Under the Uplift Curve (AUUC), corrigée par le Inverse Propensity Weighting (IPW) pour éliminer le biais de sélection.
Le problème est survenu dans un marketplace lors du lancement d'une campagne avec des codes promotionnels personnalisés. Le chef de produit voulait utiliser un modèle uplift pour envoyer des réductions uniquement aux "persuadables" (ceux qui n'achèteront qu'avec un code promotionnel), en évitant les "sure things" et "lost causes". Le test A/B standard était impossible, car des données sur ceux qui n'ont pas reçu de code promo dans tous les segments étaient nécessaires, mais le maintien de 50% du public sans codes promise réduisait de manière critique les revenus.
Première option — Randomisation Hold-out en maintenant 10% des utilisateurs sous contrôle total pendant toute la période. Les avantages de l'approche : évaluation nette de l'ATE et possibilité d'un entraînement correct du modèle sur le contraste. Les inconvénients : revenus manqués significatifs (coût d'opportunité), conflits éthiques (discrimination de prix sans critères transparents) et convergence lente du modèle en raison de la petite taille du groupe de contrôle.
Deuxième option — Thompson Sampling avec augmentation progressive de la part du trafic. Ici, le "braqueur" du bandit est représenté par des stratégies de ciblage (modèle uplift contre aléatoire). Les avantages : ratio optimal exploration/exploitation, adaptation à la saisonnalité et minimisation des pertes économiques. Les inconvénients : complexité d'interprétation aux premiers stades, risque de tomber dans un optimum local avec une sélection de contextes malheureuse et besoin de volumes de trafic importants pour une signification statistique.
Troisième option — Contrôle Synthétique Basé sur la Géographie. La randomisation a été réalisée par région : le modèle uplift était utilisé dans les groupes test, tandis que l'ancienne système était appliquée dans les groupes de contrôle. Pour l'évaluation, on a utilisé la SCM, créant une combinaison pondérée des régions de contrôle imitant les testées avant l'implémentation. Les avantages : isolement de l'effet de la randomisation individuelle, travail avec des données agrégées et absence de contamination croisée entre les villes. Les inconvénients : exigence de stabilité des régions dans le temps, sensibilité aux valeurs aberrantes dans de petites unités géographiques, et l'hypothèse de tendances parallèles, qui est souvent violée pendant des périodes de forte saisonnalité.
Une solution combinée a été choisie : Randomisation par Cluster Géographique avec Contrôle Synthétique pour la validation hors ligne et Thompson Sampling pour l'optimisation en ligne au sein des clusters tests. Justification : la randomisation géographique a exclu la contamination croisée (les utilisateurs de différentes villes interagissent rarement), et le Contrôle Synthétique a permis d'éviter un partage 50/50. Le Thompson Sampling dans les régions test a assuré une adaptation rapide du modèle aux préférences locales.
Résultat : il a été possible d'isoler l'effet incrémental réel du modèle uplift à +12% de conversion par rapport à l'envoi de masse, avec une réduction des dépenses sur les codes promotionnels de 35%. Contrôle Synthétique a montré que sans modèle, la tendance dans les régions test aurait suivi la dynamique du contrôle synthétique avec une précision de 94% (RMSPE), confirmant la validité de l'évaluation.
Pourquoi ne peut-on pas simplement comparer la conversion de ceux qui ont reçu un code promotionnel selon le modèle, avec ceux qui ne l'ont pas reçu (données d'observation), même en utilisant le Propensity Score Matching ?
Réponse : biais d'auto-sélection et confondants non observés. Les utilisateurs avec un score uplift élevé peuvent systématiquement différer par des caractéristiques non observées (par exemple, un récent salaire reçu ou la recherche d'un produit spécifique). Le Propensity Score Matching (PSM) corrige uniquement les covariables observées, mais si une variable cachée influence à la fois la probabilité de recevoir un code promo et la conversion, l'évaluation sera biaisée. Par exemple, les utilisateurs actifs avec de nombreuses sessions peuvent être incorrectement classés comme "persuadables", mais ils achèteront même sans remise. Pour un spécialiste débutant, il est crucial de comprendre que la corrélation entre le uplift prédit et la conversion réelle n'est pas égale à l'effet causale — une randomisation ou des variables instrumentales (IV) sont nécessaires pour l'isoler.
Comment la dépendance temporelle (confondants variant dans le temps) affecte-t-elle l'évaluation du modèle uplift sur une période d'apprentissage prolongée, et comment y faire face ?
Réponse : lors d'un apprentissage à long terme, il se produit un confounding temporel : le comportement des utilisateurs change (saisonnalité, mises à jour du produit), et les données de la phase d'exploration deviennent obsolètes au moment de l'exploitation. Le modèle uplift classique suppose la stationnarité, ce qui est rarement vrai. La solution consiste à utiliser l'expérimentation adaptative avec des poids décroissants pour les anciennes données ou des algorithmes d'apprentissage en ligne (par exemple, Mise à jour Bayesian). Il est également nécessaire de surveiller le drift conceptuel via l'Indice de Stabilité de la Population (PSI) pour les caractéristiques et la performance du modèle. Les analystes débutants forment souvent le modèle sur des données trimestrielles, mais l'appliquent après six mois sans vérifier le changement de comportement du public (par exemple, en raison de la sortie d'un concurrent), ce qui entraîne un uplift négatif en production.
Pourquoi la métrique AUUC (Area Under Uplift Curve) peut-elle prêter à confusion lors de la comparaison de deux modèles uplift différents, et quelles alternatives utiliser ?
Réponse : AUUC dépend de la distribution du uplift prédit dans la population et n'est pas invariant à l'échelle. Si un modèle prédit de manière conservatrice un faible uplift pour tous, tandis qu'un autre le fait de manière agressive avec une forte dispersion, leurs courbes se croiseront, et l'AUUC donnera un résultat ambigu. De plus, l'AUUC ignore les contraintes commerciales (budget pour les codes promotionnels). Une alternative — coefficient de Qini sensible aux coûts ou Réponse Attendue avec un budget fixe. Pour un spécialiste débutant, il est important de comprendre que un bon modèle selon l'AUUC ≠ une bonne métrique commerciale. Il est nécessaire d'utiliser Évaluation de Politique avec simulation de stratégie : classer les utilisateurs par uplift prédit, prendre le top-K% (selon le budget), et comparer le gain réel avec le scénario contrefactuel via Estimation Doublement Robuste ou Inverse Probability Weighting (IPW).