Le contexte historique du problème remonte à l'évolution du contenu généré par les utilisateurs dans le e-commerce. Au début du commerce numérique, les descriptions professionnelles dominaient, mais avec l'évolution du Web 2.0, il y a eu une transition vers le UGC (Contenu Généré par les Utilisateurs), ce qui a augmenté la confiance mais a créé un problème de surcharge d'information. Les utilisateurs modernes sont confrontés à des dizaines d'avis sur un produit, ce qui augmente la charge cognitive et le temps de prise de décision. L'apparition des Large Language Models (LLM) a permis d'automatiser la résumation, cependant, le remplacement de la voix authentique du consommateur par une interprétation automatisée introduit de l'incertitude dans la relation causale entre l'information affichée et le comportement de l'utilisateur.
La formulation du problème est compliquée par trois facteurs qui rendent impossible le A/B testing classique. Premièrement, le déploiement par étapes par catégories crée une adoption échelonnée, où les groupes de contrôle deviennent au fil du temps des groupes de test, perturbant la stabilité de la comparaison. Deuxièmement, la qualité de la résumation par IA est endogène : les catégories avec un grand nombre d'avis reçoivent des badges précis, tandis que celles avec peu d'avis obtiennent des badges déformés, ce qui est corrélé à la popularité du produit comme un confondant caché. Troisièmement, il existe un risque d'effet d'illusion : si l'utilisateur découvre une non-conformité entre le badge et le produit réel, la confiance dans la plateforme diminuera, ce qui affecte la fidélisation à long terme, mesurable uniquement par l'analyse des cohortes.
Une solution détaillée nécessite une combinaison de méthodes quasi-expérimentales. L'outil principal est le Staggered Difference-in-Differences (DiD) avec des effets fixes de catégorie et des effets temporels, permettant de capter l'effet dans des conditions de déploiement progressif. Pour tenir compte de l'endogénéité de la qualité de génération, on utilise le Causal Forest, qui modélise l'hétérogénéité de l'impact en fonction du volume des données d'apprentissage. Il est également essentiel de réaliser des tests placebo sur des catégories sans changements pour valider les tendances parallèles, ainsi que d'appliquer une Analyse de survie pour suivre la dynamique des retours dans le temps, séparant l'effet à court terme de la conversion de l'effet à long terme de la confiance.
Le marketplace « ДомашнийУют », spécialisé dans le mobilier et la décoration, a rencontré une chute critique de l'engagement sur les pages des produits, où 68 % des utilisateurs ne parvenaient pas au bloc des avis textuels, manquant des données essentielles sur la qualité du montage et des matériaux. L'équipe produit a proposé une solution innovante : remplacer les commentaires développés par des badges IA visuels résumant les points clés, mais les parties prenantes craignaient une dégradation cachée des métriques de confiance et une augmentation des retours en raison des « hallucinations » potentielles du modèle. Les analystes ont été chargés de mesurer l'effet causal net de l'implémentation en l'absence de possibilité de réaliser un test de répartition classique basé sur les utilisateurs.
La première option présumait un A/B testing classique avec randomisation au niveau de l'utilisateur par le hachage de user_id. Les avantages de cette approche incluaient une identification causale stricte et la simplicité du traitement statistique via un t-test standard ou bootstrap. Cependant, les inconvénients se sont révélés critiques pour le produit : les utilisateurs partageaient activement des captures d'écran de produits sur les réseaux sociaux, créant une contamination intergroupe, tandis que l'affichage d'un même produit chez différents utilisateurs perturbait la cohérence de l'UX et introduisait un décalage cognitif.
La deuxième option reposait sur la Synthetic Control Method, où pour chaque catégorie implémentant des badges IA, un contrôle synthétique pondéré serait créé à partir de catégories inchangées avec des tendances historiques de conversion et de saisonnalité similaires. Les principaux avantages résidaient dans la naturalité de la perception par les utilisateurs et l'absence de nécessité de diviser le trafic, préservant ainsi l'intégrité de l'expérience utilisateur. Cependant, des inconvénients importants incluaient l'impossibilité de construire un contrôle fiable pour des catégories uniques comme les « réfrigérateurs intelligents » sans analogues directs, ainsi qu'un risque de biais en cas de chocs globaux affectant toutes les catégories simultanément.
La solution optimale était une combinaison de Staggered Difference-in-Differences avec Two-Way Fixed Effects (TWFE) et Causal Forest pour analyser l'hétérogénéité de l'effet en fonction du volume de données d'origine. Cette approche a permis d'utiliser l'ordre naturel du déploiement échelonné (d'abord l'électronique grand public, puis le mobilier) comme source de variation exogène, tout en contrôlant les effets fixes catégoriels et temporels. Un facteur de choix critique était la possibilité de modéliser un impact différent pour les catégories à fort volume avec des résumés précis et les niches avec des « hallucinations » LLM, ce qui a donné un avantage stratégique dans la prise de décisions concernant l'échelle.
L'implémentation finale a révélé une hétérogénéité marquée : dans les catégories avec plus de 50 avis, la conversion a augmenté de 12 % grâce à une réduction de la charge cognitive, tandis que les retours ont diminué de 3 % grâce à une transmission précise des caractéristiques clés. En revanche, dans les catégories de niche avec moins de 10 avis, une augmentation des retours de 8 % a été observée en raison de la non-conformité des badges générés avec la qualité réelle du produit, ce qui a conduit à la décision de désactiver complètement les résumés IA pour les segments avec un volume de données insuffisant. En conséquence, la plateforme a maintenu un effet neutre sur le GMV global, mais a considérablement amélioré la qualité de l'expérience utilisateur et réduit les coûts opérationnels liés à la gestion des retours dans les catégories à fort volume.
Endogénéité de la qualité de génération comme confondant
Souvent, les candidats interprètent l'implantation des badges comme un effet binaire, ignorant que l'efficacité de la résumation par LLM est une fonction continue du volume des avis d'origine, et non une constante. En fait, les catégories avec une forte conversion attirent initialement plus d'avis, créant une causalité inverse : popularité → volume de données → qualité de l'IA → augmentation observée de la conversion, qui est erronément attribuée uniquement aux badges visuels. Une approche correcte nécessite l'utilisation de variables instrumentales, telles que l'âge du produit comme instrument pour le volume d'avis, ou l'application de Regression Discontinuity au seuil du nombre d'avis pour isoler l'effet net de la qualité de génération de l'effet de popularité de la catégorie.
Spillovers intercatégoriels et substitution de l'attention
Les candidats prennent rarement en compte que les utilisateurs comparent des produits entre catégories au sein d'une même session, ce qui crée des spillovers intercatégoriels (cross-category spillovers). Si des badges IA attrayants apparaissent dans la catégorie « Smartphones », et que des blocs textuels traditionnels se trouvent dans « Coques », cela crée une asymétrie d'information, attirant la demande vers la catégorie test non pas à cause de l'amélioration de l'UX, mais à cause de la substitution de l'attention (attention substitution). Pour une évaluation correcte, il est nécessaire d'inclure dans le modèle les effets intercatégoriels via des Économétriques Spatiales ou d'analyser le changement de part du panier (share of wallet) de la catégorie dans la commande totale de l'utilisateur, plutôt que seulement la conversion intracaatégorielle.
Effet dynamique de dévoilement et courbe d'apprentissage
Les analystes débutants notent un effet statique dans une fenêtre d'observation à court terme, oubliant que la perception du contenu IA change au fil du temps avec l'accumulation de l'expérience utilisateur. Les premiers utilisateurs perçoivent les badges comme une agrégation objective, mais après le premier retour d'un produit avec un badge trompeur, un scepticisme IA se forme, et l'effet positif s'estompe ou s'inverse en négatif. Pour identifier ce schéma, il faut une Étude d'Événements avec des retards et des variables prédictives (leads and lags), ainsi qu'une segmentation par « âge » de l'utilisateur par rapport au premier contact avec le contenu IA, permettant de construire une courbe d'apprentissage et de prévoir la durabilité à long terme de l'effet.