Contexte historique. La notion de co-navigation a migré du secteur B2B (support client) vers le commerce social (par exemple, fonctions "Shop Together" dans les applications mobiles). L'analyse traditionnelle s'est longtemps appuyée sur l'hypothèse SUTVA (Stable Unit Treatment Value Assumption), qui suppose que les utilisateurs sont indépendants. Cependant, les fonctions sociales contredisent cette hypothèse, car le comportement d'un utilisateur influence celui de ses connexions, rendant les tests A/B classiques méthodologiquement incorrects.
Problématique. La comparaison standard des moyennes (difference-in-means) donne une estimation biaisée en raison de l'interférence (contamination mutuelle) : les utilisateurs du groupe de contrôle qui reçoivent des invitations d'amis du groupe de test modifient leur comportement, créant un effet de spillover. L'auto-sélection par l'activité sociale fausse la distribution des covariables, et le déploiement par étapes (staggered rollout) introduit des confounders temporels comme la saisonnalité et l'effet de nouveauté, qui sont corrélés avec le moment d'adoption des cohortes.
Solution détaillée. Il est nécessaire d'appliquer une randomisation en grappes (cluster randomized trial) au niveau du graphe des relations sociales, en utilisant des algorithmes de détection de communautés (Louvain ou Leiden) pour créer des grappes avec une connectivité minimale entre elles. En cas d'impossibilité de randomisation complète, utiliser la différence en différences avec adoption décalée (staggered DiD), en corrigeant les effets hétérogènes par des méthodes Callaway-Sant’Anna ou Sun-Abraham, qui traitent correctement les poids négatifs des premières cohortes. Pour isoler l'effet direct du réseau, appliquer la modélisation d'exposition (exposure mapping) : déterminez le degré de « contamination » du groupe de contrôle comme la part d'amis dans le test et incluez cela comme covariable dans la régression, ou utilisez 2SLS (régression des moindres carrés en deux étapes) avec une variable instrumentale (accessibilité de la fonction par grappes géographiques comme IV pour l'utilisation réelle). Pour l'analyse du temps jusqu'à la conversion, un modèle de Cox avec effets de frailty (shared frailty model) prenant en compte la clustering des risques au sein des groupes sociaux serait approprié.
Description du problème. Un marketplace a lancé la fonction "Achetez ensemble", permettant à deux utilisateurs de naviguer dans le catalogue et de modifier le panier commun en temps réel. Le pilote auprès de 10 % de l'audience a montré une augmentation de 8 % de la conversion, mais l'équipe suspectait une surestimation : les utilisateurs du groupe de contrôle recevaient des invitations d'amis du groupe de test, créant une contamination intergroupe. De plus, la fonction était principalement utilisée par ceux qui avaient déjà des liens sociaux établis (auto-sélection par engagement).
Option 1 : Comparaison simple « avant/après » avec le groupe des adaptateurs. Cette approche consiste à comparer les métriques des utilisateurs ayant commencé à utiliser la co-navigation avec leurs propres données historiques ou avec des utilisateurs similaires sans la fonction. Les avantages sont évidents : le calcul prend quelques minutes, est facilement interprété par les entreprises, et ne nécessite pas d'infrastructure expérimentale complexe. Cependant, les inconvénients sont critiques : la méthode ignore complètement la saisonnalité et l'effet de maturation, et souffre d'un biais d'auto-sélection, car les utilisateurs socialement actifs ont initialement un taux de conversion plus élevé.
Option 2 : Analyse Intent-to-Treat (ITT) avec randomisation de l'accès au bouton. Ici, nous donnons aléatoirement la possibilité d'inviter des amis à différentes cohortes, indépendamment de leur utilisation de la fonction, et comparons les métriques finales. Les avantages incluent le maintien de la randomité statistique de l'attribution et la possibilité d'évaluer l'effet global de la politique de lancement, y compris les externals réseaux. Les inconvénients sont liés au dilution de l'effet en raison d'une non-conformité : beaucoup auront accès, mais ne seront pas des utilisateurs actifs, ce qui nécessite d'augmenter la taille de l'échantillon de 3 à 4 fois ; de plus, l'ITT ne répond pas à la question de l'efficacité pour les utilisateurs réels (TOT).
Option 3 : Conception de discontinuité de régression (RDD) en fonction du seuil du nombre d'amis. La méthode utilise un seuil brusque (par exemple, 5 amis) pour l'activation de la fonction, créant un quasi-expérience autour du point de coupure. Les avantages résident dans la randomité locale de l'attribution autour du seuil et la non-nécessité de la randomisation complète de l'audience. Cependant, il existe des inconvénients significatifs : l'effet est localisé uniquement pour les utilisateurs « marginal » ; une manipulation est possible (augmentation de faux amis), et la méthode ne résout pas le problème de contamination entre les utilisateurs des deux côtés du seuil, s'ils ont des connexions.
Solution choisie et justification. L'option 2 avec randomisation en grappes a été choisie : les analystes ont construit un graphe des relations sociales, appliqué l'algorithme de Louvain pour identifier des communautés denses, et randomisé l'accès au niveau de la communauté, plutôt que de l'utilisateur. Cela a minimisé la contamination entre le groupe de test et le groupe de contrôle. Pour l'évaluation, ils ont utilisé un modèle avec variables d'exposition : pour chaque utilisateur, ils ont calculé la part d'amis dans les grappes testées (intensité de spillover) et inclus comme régressor. Cela a permis de séparer l'effet direct de la fonction de l'influence indirecte via la preuve sociale.
Résultat final. L'effet direct véritable (TOT) a été de +3,2 % de conversion (au lieu de 8 % dans l'estimation brute). Cependant, un spillover positif significatif a été identifié dans le groupe de contrôle (+1,8 %), causé par l'influence sociale des invitations. L'effet global de la politique (ITT) s'est révélé être de +2,1 %. Si les effets de réseau n'avaient pas été pris en compte, l'équipe aurait sous-estimé la valeur de la fonction, rejetant le projet comme "pas assez efficace", alors qu'avec le spillover, la fonction s'amortissait en 4 mois.
1. Pourquoi un test A/B standard donne-t-il une estimation biaisée pour les fonctions sociales ? Le test standard suppose SUTVA : l'effet sur un utilisateur n'influence pas les autres. Dans le cas du co-navigation, cela est violé : un utilisateur de contrôle, recevant une invitation d'un utilisateur de test, change de comportement (spillover), créant un interference bias. L'estimation de l'ATE (Effet de Traitement Moyen) devient un mélange pondéré d'effets directs et indirects, souvent tendant vers zéro. Solution : utiliser la randomisation en grappes (randomization at network-cluster level) ou des méthodes de pondération inverse de probabilité pour corriger la structure du réseau.
2. Comment séparer statistiquement l'effet direct, l'effet de spillover et l'effet total ? Les candidats confondent ITT (Intent-to-Treat) et TOT (Treatment-on-Treated) : l'ITT évalue l'effet de l'offre de la fonction à toute la cohorte, y compris ceux qui ne l'ont pas utilisée, tandis que le TOT isole l'effet pour les utilisateurs réels. Pour séparer les effets, on utilise la Stratification Principale (principal stratification) : les utilisateurs sont classifiés par type de conformité (compliers, always-takers) et l'on évalue le CACE (Complier Average Causal Effect). Le spillover est évalué par l'exposition mapping, où l'intensité de l'effet indirect est approximée par la part de connexions dans le test. L'effet total est la somme pondérée des effets direct et indirect répartis selon l'exposition.
3. Pourquoi le DiD standard (Difference-in-Differences) est-il incorrect lors d'un déploiement échelonné ? Lors d'une implantation par étapes, les premières cohortes servent de contrôle pour les plus récentes, mais celles-ci ne servent jamais de contrôle pour les premières, créant un problème de poids négatifs (negative weighting) pour les effets hétérogènes. Le DiD classique à deux périodes dans ce type de conception donne des estimations biaisées en mélangeant les effets de différentes périodes avec de mauvais poids. Il serait préférable d'utiliser les estimateurs Callaway-Sant’Anna ou Sun-Abraham, qui utilisent uniquement les observations never-treated ou not-yet-treated comme contrôle. Une alternative serait la Méthode de Contrôle Synthétique pour chaque cohorte séparément, construite à partir d'un pool de groupes never-treated.