Réponse à la question

Contexte historique

L'évolution de l'e-commerce au cours de la dernière décennie s'est déplacée des catalogues statiques vers des formats interactifs, empruntés aux réseaux sociaux. Le format Stories, popularisé à l'origine par Snapchat et Instagram, a été adapté par les marketplaces comme un outil de réduction de la charge cognitive lors du choix des produits grâce à un court récit visuel. Cependant, contrairement aux tests A/B classiques des éléments UI, l'évaluation de l'effet du contenu éphémère se heurte au problème de contamination croisée, où un utilisateur voit les Stories d'un ami d'un groupe de test, même s'il fait lui-même partie du groupe de contrôle.

Problématique

L'isolation de l'effet pur est compliquée par trois facteurs d'endogénéité. Premièrement, les marques s'auto-sélectionnent en fonction de leur capacité à produire du contenu vidéo de qualité (les grands acteurs se lancent en premier), créant un biais de survie. Deuxièmement, les effets de réseau au sein du graphe d'abonnements entraînent un effet de spillover, où l'impact « s'infiltre » du test au contrôle par le biais des liens sociaux. Troisièmement, les utilisateurs de la génération Z montrent un engagement 3 à 4 fois plus élevé envers les Stories par rapport à l'audience de 45 ans et plus, ce qui nécessite une stratification de l'analyse.

Solution détaillée

La méthodologie optimale est le staggered Difference-in-Differences (DiD) avec une variation spatio-temporelle, où les catégories de produits servent de clusters d'impact, introduits à différents moments. Pour contrôler la contamination réseau, une leave-out strategy est utilisée : les utilisateurs ayant des abonnements chevauchants à des marques de différentes catégories (traitement et contrôle) sont exclus. Pour corriger le biais d'auto-sélection des marques, un Propensity Score Matching (PSM) est appliqué en fonction des métriques historiques d'engagement et de la taille d'audience avant l'introduction. La variance est réduite grâce à CUPED (Controlled-experiment Using Pre-Experiment Data), et l'hétérogénéité de l'effet est évaluée par le biais de la Causal Forest, permettant d'identifier les effets moyens conditionnels de l'impact (CATE) pour différents segments d'âge.

Situation de la vie réelle

Dans un grand marketplace de mode, il était prévu d'introduire des Stories pour les marques dans la catégorie "Vêtements de sport" (groupe de test) tout en conservant la carte produit classique dans la catégorie "Vêtements professionnels" (contrôle). Le problème était que Nike et Adidas (test) avaient beaucoup plus d'abonnés que les marques classiques (contrôle), et 40 % des utilisateurs étaient abonnés simultanément à des marques des deux catégories, créant une forte contamination. Il était nécessaire d'évaluer l'effet sur la rétention sur 7 jours (D7 retention) et la conversion à l'achat dans les 48 heures suivant la consultation des Stories.

Option 1 : Comparaison simple avant-après dans la catégorie test

Les analystes ont proposé de comparer les métriques de la catégorie de sport un mois avant et après le lancement des Stories. Les avantages de cette approche incluaient la rapidité des résultats et l'absence de besoin d'une infrastructure complexe. Les inconvénients étaient critiques : l'incapacité à séparer l'effet du format de la hausse saisonnière de la demande pour les vêtements de sport en janvier (effet de la résolution du Nouvel An) et des campagnes marketing des marques lancées en même temps que la nouvelle fonctionnalité.

Option 2 : Test A/B classique au niveau des utilisateurs avec un split 50/50

Cette option impliquait une séparation aléatoire des utilisateurs pour la visibilité des Stories, indépendamment de la catégorie. Les avantages résidaient dans la pureté du design expérimental et la simplicité d'interprétation. Les inconvénients incluaient une impossibilité technique (le contenu étant créé par les marques et non par la plateforme) et des restrictions éthiques : cacher le contenu à une partie des abonnés de la marque détruisait le modèle de monétisation et menait à des plaintes de la part des annonceurs.

Option 3 : Staggered DiD avec correspondance de contrôle synthétique et filtration des liens de réseau

Il a été décidé d'utiliser la variation temporelle de l'introduction (catégorie sportive — semaine 1, vêtements de rue — semaine 3, classique — semaine 6) et de construire un Synthetic Control basé sur une combinaison pondérée de catégories n'ayant pas encore reçu la fonctionnalité. Pour éliminer la contamination, les utilisateurs avec des chevauchements d'abonnements >15 % du nombre total (seuil déterminé par l'analyse du graphe social) ont été exclus. CUPED a été appliqué pour corriger en fonction du D7 retention historique.

Solution choisie :

L'équipe a choisi l'Option 3, en l'enrichissant avec Causal Forest pour la segmentation par âge. Cela a permis non seulement d'isoler l'effet pur, mais aussi de comprendre pour qui les Stories fonctionnaient le mieux. Un facteur clé dans le choix a été la possibilité de maintenir les processus commerciaux (tous les abonnés voyant le contenu), tout en obtenant une évaluation causale valide.

Résultat final :

L'analyse a révélé un accroissement incrémentiel statistiquement significatif de la rétention à 7 jours de 8,4 % (p < 0,01) pour le segment des 18-25 ans, sans effet pour les 45 ans et plus. Cependant, un negative spillover a été découvert : les utilisateurs ayant vu plus de 5 Stories par session montraient une baisse de la conversion à l'achat de 3 % (effet de saturation). Sur la base de ces données, l'équipe produit a mis en place un algorithme adaptatif régulant la fréquence d'affichage des Stories par âge, ce qui a conduit à une augmentation du GMV de 4,2 % dans la catégorie test sans nuire à l'expérience utilisateur des cohortes plus âgées.

Ce que les candidats oublient souvent

Comment prendre correctement en compte l'effet de negative spillover, lorsque l'excès de Stories d'une marque réduit la réceptivité au contenu des autres marques dans la même session ?

Les candidats se concentrent souvent uniquement sur les effets de réseau positifs, ignorant la saturation. L'approche correcte nécessite une analyse au niveau de la session (session-level), plutôt qu'au niveau de l'utilisateur : diviser les sessions en "haute densité de Stories" (>3 marques uniques) et "faible densité", puis évaluer l'effet d'interaction (interaction term) entre le traitement et le niveau de densité de contenu. Si le coefficient est négatif et significatif, cela indique une cannibalisation de l'attention au sein du format. Il est également nécessaire de vérifier la dynamique temporelle : les utilisateurs développent-ils une "résilience" (ad stock) envers le format au fil du temps par le biais de la décomposition des effets par semaine d'introduction.

Comment séparer l'effet du format Stories de l'effet de la qualité du contenu, si les marques avec une haute valeur de production s'auto-sélectionnent dans les premières vagues d'introduction ?

Un DiD standard ne résoudra pas le problème, car les caractéristiques des marques corrélent avec le niveau initial des métriques. L'application de Instrumental Variables (IV) est nécessaire : comme instrument, on utilise un seuil de nombre d'abonnés à partir duquel la fonctionnalité des Stories devient disponible (par exemple, >100k abonnés). Cela génère une variation aléatoire autour du seuil (regression discontinuity design, RDD), permettant de comparer des marques avec 99k et 101k abonnés, qui sont statistiquement identiques en termes de qualité de contenu mais différentes en termes d'accès à l'outil. Ainsi, l'effet pur du format est isolé, et non la qualité des créatifs.

Pourquoi les métriques standards de taux de clic (CTR) et de taux de visualisation (VTR) sont-elles insuffisantes pour évaluer l'effet à long terme du contenu éphémère, et quelles métriques devraient être utilisées ?

Les candidats se concentrent sur l'engagement immédiat, négligeant l'attribution des achats différés. Les Stories disparaissent après 24 heures, mais créent une "marque" dans la mémoire de l'utilisateur (mental availability). Une évaluation correcte nécessite la construction d'un Surrogate Index : l'utilisation de métriques intermédiaires (fréquence d'ouverture de l'application pendant 7 jours, ajout au Wishlist sans achat) comme proxy pour la valeur à long terme (LTV). La méthode des Long-term Causal Effects est appliquée à travers une évaluation en deux étapes : d'abord, la relation entre le surrogate et le LTV final est modélisée sur des données historiques, puis cette relation est appliquée aux données expérimentales. Cela permet de saisir l'effet de la "conversion différée", lorsque l'utilisateur voit les Stories mais achète une semaine après la disparition du contenu.