Historiquement, l'évolution du e-commerce a passé par des fiches produits isolées vers des outils complexes de soutien à la décision. Dans les années 2010, l'apparition des fonctions de comparaison de caractéristiques a été une réponse à l'augmentation de l'assortiment et à la surcharge cognitive des utilisateurs, cependant, les métriques classiques de corrélation entre l'utilisation de la comparaison et un panier élevé ont invariablement rencontré des problèmes d'endogénéité : la fonction est utilisée par des acheteurs déjà motivés avec une forte intention d'achat.
Le problème de mesure réside dans une triple complexité : le biais de sélection par engagement (selection bias), le déploiement échelonné par catégories, perturbant la synchronisation (staggered adoption), et les effets de réseau au sein de la catégorie, lorsque la comparaison transfère la demande d'un SKU à un autre. Sans contrôle de ces facteurs, l'analyste obtiendra une estimation biaisée, surévaluant l'effet pour les utilisateurs actifs et ignorant les effets externes sur les non-utilisateurs de la fonction.
Une solution détaillée nécessite une combinaison de Variables Instrumentales (IV) et de Différences dans les Différences (DiD). Comme instrument, on utilise la visibilité quasi-aléatoire du bouton de comparaison, par exemple, à travers un test A/B sur l'emplacement de l'élément UI ou des facteurs exogènes comme la résolution d'écran affectant l'affichage. Cela permet d'isoler la variation indépendante des intentions de l'utilisateur. Pour contrôler les tendances temporelles, on applique DiD avec des débuts échelonnés (staggered DiD), en comparant les catégories où la fonction est déjà lancée avec celles qui ne le sont pas encore, tout en corrigeant les effets fixes de cohorte. La métrique clé devient l'Effet de Traitement Moyen Local (LATE) — l'effet pour les « conformistes » (compliers), ceux qui ont utilisé la comparaison uniquement grâce à la visibilité du bouton, ce qui donne une estimation conservatrice mais causale.
Contexte : un grand marketplace d'électronique a lancé la fonction « Comparaison de caractéristiques » pour les smartphones et les ordinateurs portables. Un mois plus tard, l'analyse a montré que les utilisateurs qui avaient ouvert la comparaison avaient un panier moyen supérieur de 40 %, mais consultaient 4 fois plus de pages avant d'acheter.
Option de solution 1 : Comparaison directe des groupes (t-test). L'analyste compare simplement les moyennes des métriques des utilisateurs avec le flag « a utilisé la comparaison » contre « n'a pas utilisé » dans SQL. Avantages : nécessite une seule requête, résultat en quelques minutes. Inconvénients : ignorer complètement l'auto-sélection ; un engagement élevé précède l'utilisation de la fonction, et non l'inverse ; l'estimation est biaisée à la hausse.
Option de solution 2 : Analyse Before/After au temps. Comparaison des métriques de toute la plateforme avant et après le lancement de la fonction. Avantages : simplicité d'interprétation, tendance générale visible. Inconvénients : la saisonnalité (le lancement coïncidait avec la présentation de nouveaux iPhone), les campagnes marketing et la croissance globale des affaires masquent complètement l'effet réel ; il est impossible de séparer l'influence de la fonction des chocs externes.
Option de solution 3 : Discontinuité de régression (RD). Utilisation d'une règle de seuil : le bouton de comparaison n'apparaît qu'après avoir consulté 3 produits d'une même catégorie. Avantages : une coupure (cutoff) crée une variation quasi-expérimentale autour du seuil. Inconvénients : les utilisateurs manipulent leur comportement, ouvrant des onglets vides pour atteindre le seuil ; la « flou » (fuzziness) de la frontière viole les hypothèses de RD.
Option de solution 4 : Variables Instrumentales avec test UI. Un test A/B indépendant est réalisé sur la visibilité du bouton (luminosité, taille), ne changeant pas la fonctionnalité, mais affectant la probabilité de clic. Ce test sert d'instrument pour la régression des Moindres Carrés à Deux Étapes (2SLS). Avantages : la randomisation assure l'exogénéité de l'instrument ; l'effet est mesuré précisément pour ceux qui sont « contraints » de comparer grâce à la visibilité du bouton. Inconvénients : nécessite un grand échantillon pour la puissance de l'instrument (first-stage F-statistic > 10) ; complexité de l'interprétation du LATE pour l'entreprise.
Solution choisie et justification : combinaison de l'Option 4 (principale) et de l'Option 2 (vérification de robustesse). L'évaluation IV donne un effet causale pour les utilisateurs marginaux, tandis que le DiD confirme l'absence de biais globaux par catégorie. Cette approche permet de séparer l'effet de la fonction de l'activité innée des utilisateurs.
Résultat final : L'effet incrémental réel sur le AOV était de +8 % (au lieu d'un +40 % observé), et le temps de décision n'a pas changé de manière significative. La fonction a été maintenue, mais l'algorithme de recommandation a été ajusté pour ne pas afficher le bouton de comparaison à des utilisateurs avec un engagement historique faible, où l'effet est proche de zéro, ce qui a réduit la charge sur les serveurs sans perte de revenus.
Comment traiter correctement la corrélation des erreurs au sein de la session lors de l'analyse du choix parmi plusieurs alternatives ?
Lorsque l'utilisateur compare des produits, ses décisions pour chaque SKU sont corrélées au sein d'une même session, violant l'hypothèse d'indépendance des observations (i.i.d.). Les erreurs standard des estimations seront sous-estimées, ce qui entraînera des conclusions faussement positives sur la signification de l'effet. Pour la correction, il est nécessaire d'utiliser des erreurs standards regroupées au niveau de l'utilisateur ou de la session, ou d'appliquer modèles linéaires hiérarchiques (HLM). Cela est particulièrement critique lorsque l'on travaille avec des données de panel, où un utilisateur génère de nombreuses comparaisons, et ignorer la clusterisation peut augmenter la statistique t de 2 à 3 fois.
Comment mesurer l'effet externe négatif (negative spillover) sur les produits qui n'ont pas été inclus dans l'échantillon de comparaison ?
La fonction de comparaison peut cannibaliser les ventes de produits qui n'ont pas été ajoutés à la liste de comparaison mais qui sont des substituts proches. Les candidats se concentrent souvent uniquement sur le niveau SKU au sein du panier, négligeant l'équilibre total de la catégorie. Pour évaluer de tels effets, il est nécessaire d'analyser des métriques agrégées au niveau de la catégorie (category-level DiD) et de contrôler les niveaux de stock (inventory levels). Si la comparaison transfère la demande vers des modèles spécifiques, entraînant leur pénurie, l'augmentation observée des ventes des concurrents dans l'ensemble de la comparaison pourrait être un artefact de rupture de stock, et non une préférence de l'utilisateur.
Comment séparer l'effet de l'introduction de la fonction de l'effet d'apprentissage des utilisateurs (learning-by-doing) et de la nouveauté (novelty effect) ?
Les utilisateurs qui découvrent une nouvelle fonction accumulent simultanément de l'expérience sur la plateforme, ce qui influence à lui seul la conversion. Les analystes débutants interprètent souvent la croissance des métriques des premiers adopteurs comme un effet pur du produit. Pour dissocier ces effets, il est nécessaire d'inclure des effets fixes de durée d'utilisateur ou de limiter l'échantillon aux utilisateurs ayant le même nombre de sessions historiques. Alternativement, on utilise l'analyse de cohorte, comparant les nouveaux utilisateurs chez qui la fonction est disponible depuis le premier jour avec les cohortes « avant lancement », en corrigeant pour le temps calendaire, ce qui permet d'isoler l'influence de l'expérience de l'influence de l'outil de comparaison.