Réponse à la question

Contexte historique

Traditionnellement, les équipes produit évaluaient l'efficacité de l'onboarding en comparant la rétention des utilisateurs ayant terminé la formation à celle de ceux qui l'avaient sautée. Cette approche a engendré des erreurs massives d'interprétation : la corrélation observée entre le passage du tutoriel et la rétention reflétait non pas un effet causal de la formation, mais la sélection d'utilisateurs hautement motivés. Avec l'évolution de l'Inference Causale, il est devenu standard de faire la distinction entre intention à traiter (ITT) et traitement sur les traités (TOT), ainsi que d'utiliser des expériences naturelles lorsque la randomisation classique est impossible.

Problématique

La principale difficulté réside dans l'endogénéité de l'auto-sélection : la décision de suivre l'onboarding est corrélée à des caractéristiques non observables de l'utilisateur (motivation, patience), qui influencent simultanément la rétention future. Une simple comparaison de groupes entraîne un biais de survie et une surestimation de l'effet. De plus, le déploiement par phases dans les régions offre une opportunité de quasi-expérimentation, mais les régions varient en raison de facteurs culturels et de métriques de base, ce qui nécessite un contrôle des variables confondantes.

Solution détaillée

Il est nécessaire d'appliquer les Moindres carrés à deux étapes (2SLS) en utilisant le drapeau régional d'implémentation comme Variable Instrumentale (IV). Dans un premier temps, la probabilité de suivre l'onboarding (conformité) est modélisée en fonction de l'appartenance à une région où la fonctionnalité est lancée. Dans un second temps, les valeurs prédites sont utilisées pour évaluer l'effet sur la rétention. Pour tenir compte de l'hétérogénéité régionale, on applique le Difference-in-Differences (DiD) avec des effets fixes par région et par temps. En outre, une Forêt Causale est construite pour évaluer l'Effet de traitement moyen conditionnel (CATE) et identifier les segments où l'onboarding génère le plus de valeur ajoutée. Il est important de contrôler le pré-trend de la parallélité avant l'implémentation et de vérifier la restriction d'exclusion pour l'instrument.

Exemple de la vie réelle

Une équipe d'application mobile pour l'apprentissage des langues a introduit un tutoriel interactif obligatoire de 3 minutes avant l'accès au contenu gratuit. Le lancement pilote a montré que les utilisateurs ayant suivi l'onboarding avaient une rétention à 7 jours supérieure de 35 % à celle de ceux ayant fermé l'application pendant le tutoriel. L'entreprise souhaitait étendre cette fonctionnalité à tous les utilisateurs, mais l'analyste a soupçonné un biais de survie.

Option 1 : Comparaison simple (approche naïve). Comparaison de la rétention entre les utilisateurs ayant complété l'onboarding et ceux l'ayant sauté. Avantages : calcul instantané, métrique d'augmentation compréhensible. Inconvénients : Biais de sélection critique ; les utilisateurs prêts à consacrer 3 minutes au départ sont déjà plus engagés ; la valeur estimée est surestimée de 3 à 4 fois ; ne prend pas en compte les différences régionales en matière de tolérance à la friction.

Option 2 : Test A/B avec onboarding obligatoire. Randomisation au niveau de l'utilisateur : le groupe A voit le tutoriel obligatoire, le groupe B accède directement au contenu. Avantages : La randomisation pure exclut la sélection. Inconvénients : La non-conformité dans le groupe A (certains utilisateurs ferment l'application et ne reviennent pas) crée une attrition asymétrique ; l'analyse ITT donne une estimation conservatrice, mais ne répond pas à la question de l'effet pour ceux qui ont réellement suivi la formation ; possibilité d'un effet de diffusion négatif dans les réseaux sociaux.

Option 3 : Conception de régression par discontinuité (RDD) dans le temps. Utilisation du moment précis du lancement de la fonction dans une région comme seuil. Avantages : Haute validité interne pour les utilisateurs "à la frontière" ; ne nécessite pas de groupe de contrôle au sein de la région. Inconvénients : L'effet local (LATE) ne peut pas être généralisé à tous les utilisateurs ; nécessite une forte densité de données à proximité du seuil ; la saisonnalité et le jour de la semaine du lancement peuvent fausser les résultats.

Solution choisie : Combinaison de l'approche IV avec un déploiement régional et une Estimation Doublement Robuste.

Les régions où l'onboarding a été lancé ont été utilisées comme instrument pour le suivi effectif du tutoriel (la condition de pertinence a été vérifiée par une corrélation de 0,82). Nous avons utilisé 2SLS pour évaluer l'effet spécifiquement pour les conformistes (ceux qui auraient suivi l'onboarding uniquement si cela avait été obligatoire). De plus, un Contrôle Synthétique a été construit pour chaque région traitée, utilisant une combinaison pondérée de régions de contrôle avec des pré-trends similaires.

Résultat final : L'effet causal réel était de +8 % à la rétention à 7 jours, contre +35 % dans les données brutes. Il s'est avéré que l'onboarding n'était efficace que pour les utilisateurs ayant un faible engagement initial (CATE = +15 %), mais qu'il créait une friction pour les power users (CATE = -3 %). Un système adaptatif a été mis en œuvre : l'onboarding était montré uniquement aux utilisateurs avec un score d'engagement prédit bas basé sur les 10 premières secondes de session. Cela a permis d'obtenir +12 % de rétention globale sans perte pour les power users.

Ce que les candidats oublient souvent

Pourquoi un test A/B avec onboarding obligatoire donne-t-il une estimation biaisée même en cas de randomisation, et comment interpréter correctement les résultats ?

Réponse : Le problème de la non-conformité et de l'attrition différentielle. Même avec une affectation aléatoire au groupe test avec onboarding obligatoire, certains utilisateurs partent définitivement (never-takers), alors que dans le groupe de contrôle, il n'y a pas de tel "pénalité" pour refus. Cela crée un biais de survie asymétrique. Pour une évaluation correcte, il est nécessaire de calculer l'effet Intent-to-Treat (ITT) comme la différence entre les groupes en fonction de l'affectation, puis d'utiliser l'estimateur de Wald pour obtenir l'Effet Causal Moyen des Conformistes (CACE) : CACE = ITT / (part des conformistes). Il est important de vérifier que la part des conformistes est suffisante (>20 %), sinon l'estimation sera instable (problème d'instrument faible).

Comment diagnostiquer et corriger les effets de diffusion négatifs, lorsque des utilisateurs des régions de contrôle prennent connaissance du nouvel onboarding et modifient leur comportement avant même le lancement effectif ?

Réponse : C'est une violation de l'hypothèse de valeur d'unité de traitement stable (SUTVA). Pour le diagnostic, on analyse les graphiques d'études d'événements dans les régions de contrôle pour détecter une baisse anormale (effet de refroidissement) avant le déploiement. Si une détection de diffusion est confirmée, on applique le Difference-in-Differences spatial, où les contrôles ne sont que les régions éloignées sans liens sociaux, ou on utilise une expérience de population partielle avec traitement d'un sous-échantillon aléatoire d'utilisateurs à l'intérieur de la région. Alternativement, on applique des effets fixes à deux voies avec interaction de la distance à la région traitée la plus proche comme variable contrôlée.

Pourquoi est-il important de distinguer friction à court terme et accumulation de valeur à long terme lors du choix de l'horizon d'observation, et quelles méthodes permettent d'évaluer l'effet à long terme avec des données limitées ?

Réponse : L'onboarding crée une friction à court terme, réduisant mécaniquement la rétention du jour 0, mais accumule une valeur à long terme grâce à une meilleure compréhension du produit. Une évaluation sur une fenêtre courte (1-3 jours) peut montrer un effet négatif en raison du départ des utilisateurs peu motivés, qui auraient de toute façon un faible LTV. Pour évaluer les effets à long terme avec des données limitées, on utilise un Index de Substitut : on construit un modèle reliant les métriques à court terme (profondeur de la première session, nombre de fonctionnalités visualisées) aux résultats à long terme (rétention à 30 jours) sur des données historiques avant l'implémentation. Ensuite, on évalue l'effet sur le substitut, qui propage l'effet à long terme. Il est important de vérifier l'absence de confusion du substitut à travers une analyse de sensibilité.