Réponse à la question

Contexte de la question

Les grands produits introduisent constamment de nouveaux points d'entrée pour le contenu : blocs personnalisés, recommandations IA ou modèles de navigation alternatifs. Sans analyse de la cannibalisation, l'équipe peut accroître faussement le succès d'une nouvelle fonctionnalité, alors qu'en réalité, il ne s'agit que d'un transfert d'utilisateurs entre les écrans sans augmentation du chiffre d'affaires global.

Problème

Il est nécessaire de séparer l'effet incrémental (nouvelles transactions qui n'auraient pas eu lieu sans le nouveau bloc) de la cannibalisation (transactions qui ont été transférées des anciennes catégories vers le nouveau bloc). Un test A/B standard au niveau de l'utilisateur ne résout pas ce problème, car l'utilisateur voit les deux canaux en même temps, et le choix entre eux crée une endogénéité.

Solution

Utiliser un Geo-experiment avec un contrôle synthétique ou une randomisation par sessions. Nous assignons aléatoirement des régions géographiques à un test et un contrôle, mesurons le changement du GMV non seulement au niveau de la plateforme entière, mais également désagrégé par catégorie de navigation. Nous appliquons la méthode Difference-in-Differences avec les catégories comme données de panel pour soustraire le chiffre d'affaires cannibalisé de l'accroissement total.

Situation de la vie réelle

Description du problème

Dans une application mobile de e-commerce, un nouveau bloc « Choisi pour vous » basé sur des modèles de classement TensorFlow a été lancé. Un mois plus tard, la métrique de clics dans la catégorie a chuté de 25 %, tandis que le GMV global n'a augmenté que de 5 %. L'équipe produit a débattu : s'agit-il de cannibalisation ou d'une véritable optimisation du parcours utilisateur ? Il était nécessaire de déterminer quelle part des 5 % était un véritable accroissement, et quelle part était un transfert de la demande existante.

Solutions examinées

Première solution : simple comparaison « avant/après » du GMV global. Cette approche suppose que sans le nouveau bloc, les indicateurs seraient restés inchangés. Avantages : rapidité maximale, n'exige pas d'infrastructure d'expérimentation. Inconvénients : ignore la saisonnalité, les campagnes marketing et la tendance organique à la croissance, ce qui donne une estimation biaisée de 15-20 %.

Deuxième solution : test A/B classique au niveau de l'user_id avec un split 50/50 via le service Splitting. Ici, il est supposé que si le bloc est masqué pour le groupe de contrôle, la différence de GMV montrera l'effet réel. Avantages : simplicité de mise en œuvre, statistiques familières. Inconvénients : les utilisateurs dans le test peuvent néanmoins trouver des produits par la recherche ou par catégories, créant une cannibalisation directe au sein du groupe test, tandis que le groupe de contrôle sans bloc génère moins de données pour comparer les catégories.

Troisième solution : Geo-expérience avec contrôle synthétique (SCM). Nous avons choisi 20 villes avec une dynamique similaire du GMV, randomisé 10 en test (bloc inclus), et 10 en contrôle (bloc non affiché). Pour le contrôle, nous avons construit une somme pondérée des villes, aussi proche que possible des villes de test avant la période. Avantages : permet de mesurer l'effet au niveau des marchés agrégés, prenant naturellement en compte la cannibalisation entre les catégories au sein d'une ville. Inconvénients : nécessite un grand échantillon (villes), sensible aux promotions régionales, complexité dans le calcul de l'erreur de second ordre.

Solution choisie et justification

Nous nous sommes arrêtés sur la troisième option — l'expérience géo avec la Synthetic Control Method. Le facteur clé a été l'impossibilité de mesurer la cannibalisation à l'intérieur d'un même utilisateur via un test A/B classique, car même dans le groupe de contrôle sans bloc, nous ne voyons pas le destin « contrefactuel » des transactions qui auraient été transférées au bloc dans le groupe test. Le niveau géographique a permis de voir comment la structure des achats change par catégorie dans son ensemble.

Résultat

Nous avons découvert que sur les 5 % d'accroissement total du GMV, 3,2 % étaient dus à la cannibalisation (transfert des longueurs de traîne des catégories vers les 3 produits en tête du bloc), et seulement 1,8 % à un effet véritablement incrémental. Sur la base de ces données, nous avons ajusté l'algorithme de classement en ajoutant une pénalisation pour les produits populaires, ce qui a porté l'accroissement net à 4,1 %.

Ce que les candidats omettent souvent

Question 1 : Pourquoi ne peut-on pas simplement examiner la corrélation entre les clics dans le nouveau bloc et la baisse des clics dans les catégories au niveau de la session utilisateur ?

La réponse réside dans l'endogénéité de l'auto-sélection. Les utilisateurs cliquant sur le nouveau bloc ont une structure d'intentions différente (forte intention d'acheter vs. navigation) de ceux qui se dirigent vers les catégories. Une corrélation directe entraînera un effet de Simpson : dans les données agrégées, il peut sembler que le bloc a « volé » le trafic, mais au niveau des cohortes à forte intention, nous verrons qu'ils auraient de toute façon acheté, juste plus rapidement. Il est nécessaire d'utiliser Causal Forest ou Propensity Score Matching pour comparer les utilisateurs avec un comportement identique « avant » l'exposition au bloc.

Question 2 : Comment calculer l'effet minimal significatif (MDE) pour l'expérience de cannibalisation, si l'effet peut être négatif pour certaines catégories et positif pour d'autres ?

Ici, les candidats se trompent en appliquant la formule standard pour l'effet moyen. Dans le cas de la cannibalisation, la variance entre les catégories augmente, car nous traitons un déséquilibre : certaines catégories perdent, d'autres gagnent. Il faut utiliser des Modèles Linéaires Mixtes avec un effet aléatoire de catégorie et calculer la puissance pour une métrique combinée : GMV global moins la chute pondérée du GMV dans les catégories cannibalisées avec un coefficient de compensation des risques.

Question 3 : Quelle est la différence fondamentale entre la mesure expérimentale de la cannibalisation dans un produit et la résolution du problème d'interférence dans les réseaux sociaux ?

Dans l'analyse produit, la cannibalisation est une forme de « transfert de demande » au sein d'un même sujet (utilisateur), qui est rarement modélisé comme une interférence entre unités. Dans les réseaux sociaux (par exemple, Facebook), l'interférence est un débordement entre utilisateurs via le graphe social. Pour lutter contre la cannibalisation, nous utilisons la clusterisation par temps ou type de comportement, plutôt qu'une randomisation graphique. Il est important de comprendre qu'ici, l'attribution du traitement est l'exposition à la nouvelle interface utilisateur, et non la communication entre utilisateurs, donc des méthodes telles que Ego-cluster randomization ne sont pas applicables ; à la place, nous utilisons des Switchback experiments au niveau des segments d'utilisateurs.

Quelle méthode utiliseriez-vous pour mesurer la cannibalisation de la demande entre un nouveau bloc de recommandations ML sur l'écran principal et les catégories de navigation existantes afin de déterminer le véritable accroissement incrémental du GMV ?

Réponse à la question

Situation de la vie réelle

Ce que les candidats omettent souvent