Réponse à la question

Contexte historique. Dans le commerce en ligne classique, l'absence de produit dans une commande (rupture de stock) était traditionnellement résolue par l'annulation de l'article ou un appel manuel d'un responsable, ce qui diminuait de manière critique les conversions et la satisfaction. Avec le développement des systèmes de recommandation ML, il est devenu possible de proposer des substitutions en temps réel sur la base de la proximité sémantique, de la parité de prix et de l'historique des substitutions. Cependant, une simple comparaison des commandes avec et sans substitutions donne une évaluation biaisée, car la présence même d'une substitution est corrélée à la pénurie initiale du produit, et les utilisateurs qui acceptent les substitutions automatiques diffèrent systématiquement de ceux qui les refusent.

Problématique. La principale difficulté réside dans l'endogénéité de l'auto-sélection : les utilisateurs fidèles sont plus susceptibles d'accepter les substitutions automatiques, et le manque de produits survient de manière irrégulière par catégorie (périssable vs électronique). De plus, l'implémentation se fait au niveau des entrepôts, ce qui exclut les tests A/B classiques au niveau des utilisateurs en raison de la contamination par un inventaire commun. Il est nécessaire d'isoler l'effet pur de la qualité de substitution ML de la négativité de base liée à l'absence de produit et de prendre en compte l'hétérogénéité par catégorie.

Solution détaillée. L'approche optimale consiste en une combinaison de Difference-in-Differences (DiD) au niveau des entrepôts et de Causal Forest pour évaluer l'hétérogénéité de l'effet. Pour les entrepôts avec mise en œuvre de substitutions ML (traitement), un groupe de contrôle est constitué par la méthode du contrôle synthétique, en utilisant des entrepôts sans substitutions automatiques ayant une structure de demande et une saisonnalité similaires. Pour les utilisateurs au sein des entrepôts de traitement, un appariement par score de propension est utilisé pour faire correspondre ceux qui acceptent ou refusent les substitutions sur la base de caractéristiques historiques (fréquence des commandes, panier moyen, préférences catégorielles). L'effet est évalué comme Effet de traitement moyen conditionnel (CATE), avec une répartition par catégories de substituabilité (élevée/moyenne/basse), ce qui permet de séparer l'effet technologique de la sélection.

Cas pratique

La société « ProduitPlus » a mis en place un système de substitutions intelligentes pour les articles manquants dans les commandes en ligne. Le problème était que 15 % des commandes contenaient des articles en rupture de stock, entraînant une perte d'utilisateurs. Les analystes devaient mesurer si les substitutions ML réduisent vraiment l'effet négatif de la pénurie ou masquent simplement des problèmes d'approvisionnement.

Première option — test A/B classique auprès des utilisateurs avec répartition en groupe « substitution automatique activée » et « désactivée ». Avantages : interprétation simple et comparabilité directe des métriques de conversion. Inconvénients : impossible en pratique, car un entrepôt dessert les deux groupes, et si un produit est épuisé, il ne peut pas être « retourné » au groupe de contrôle, créant un effondrement logistique et une contamination.

Deuxième option — comparaison « avant et après » dans les mêmes entrepôts sans groupe de contrôle. Avantages : simplicité de calcul et absence de nécessité de synchronisation avec d'autres entrepôts. Inconvénients : la saisonnalité de la demande pour les produits et les changements de la matrice de l'assortiment déforment le résultat, rendant impossible la séparation de l'effet de la fonction de la croissance globale de la base.

Troisième option — design quasi-expérimental Difference-in-Differences utilisant les micro-entrepôts urbains comme unités de randomisation, où les entrepôts de traitement recevaient le modèle ML, tandis que les contrôle restaient sous approbation manuelle. Avantages : élimine les tendances systématiques et la saisonnalité, permettant des conclusions statistiquement significatives. Inconvénients : nécessite une hypothèse stricte sur des tendances parallèles et un nombre suffisant d'entrepôts homogènes pour construire un contrôle synthétique.

La solution choisie : l'équipe a opté pour la troisième option avec application supplémentaire de Causal Forest pour segmenter les utilisateurs selon leur propension à accepter des substitutions. Cela a permis d'isoler l'effet pour les « conservateurs » et les « adopteurs précoces » séparément, en corrigeant l'historique des commandes antérieures par l'intermédiaire de l'apariement par score de propension.

Résultat final : il a été possible d'établir que les substitutions ML augmentent la rétention de 12 % uniquement pour les catégories avec une forte substituabilité (produits laitiers, épicerie), mais réduisent la satisfaction de 8 % pour des produits de niche (bières artisanales, produits bio), où les substitutions sont perçues comme envahissantes. L'entreprise a limité les substitutions automatiques aux catégories avec une forte corrélation des préférences, ce qui a conduit à une augmentation de 0,4 point du NPS et une réduction des coûts opérationnels de 23 % pour la re-sélection manuelle.

Ce que les candidats oublient souvent

Comment séparer l'effet de la technologie même des substitutions de l'effet de la qualité d'un modèle ML spécifique et éviter le biais de survie (survivorship bias) ?

Réponse. Les candidats mélangent souvent l'effet technologique (la possibilité de substitution en elle-même) avec l'effet qualitatif (précision du choix de l'analogue). Pour faire la distinction, il est nécessaire de construire une fonction dose-réponse, où la « dose » est la probabilité de pertinence de la substitution selon la métrique du modèle (NDCG@1). En utilisant la régression de discontinuité floue autour du seuil du taux d'acceptation du modèle (par exemple, substitutions avec confiance > 0,8 vs 0,6), il est possible d'isoler l'effet pur de la qualité de l'effet de la fonction disponible. Dans ce processus, il est important de prendre en compte le biais de survie : les utilisateurs ayant reçu de mauvaises substitutions lors de la première commande peuvent désactiver la fonction pour toujours, ce qui fausse l'échantillon en faveur des cas réussis. Pour corriger, on applique le modèle de sélection de Heckman, qui modélise l'équation de sélection (probabilité de rester dans l'échantillon après la première expérience) et l'équation du résultat (satisfaction) ensemble.

Comment prendre en compte la contamination croisée (spillover) entre les catégories, lorsque une mauvaise substitution dans une catégorie impacte la perception de l'ensemble de la commande et l'annulation d'autres articles ?

Réponse. L'approche standard évalue l'effet d'une catégorie isolément, en ignorant le spillover négatif sur le panier. Pour tenir compte des effets intercatégoriels, il est nécessaire de modéliser la commande comme un système de produits interdépendants, en utilisant des modèles causaux graphiques ou la modélisation d'équations structurelles (SEM). Concrètement : on construit un graphique de dépendances entre catégories (par exemple, la substitution d'un yaourt influence la perception des céréales) et l'effet est évalué par l'effet total de traitement avec le contrôle des covariables des positions voisines. Alternativement, une analyse de médiation peut être appliquée, où le médiateur est un « drapeau de déception » (suppression d'autres produits du panier après la présentation d'une substitution). Cela permet de décomposer l'effet global entre l'effet direct (dans la catégorie) et l'effet indirect (à travers le changement du panier), évitant ainsi la surévaluation du bénéfice des substitutions.

Comment interpréter correctement les résultats si le modèle ML montre un apprentissage dynamique (effets d'apprentissage), et que la qualité des substitutions s'améliore avec le temps, créant une tendance temporelle dans le groupe de traitement ?

Réponse. Les analystes débutants ignorent la non-stationnarité de l'effet, supposant un ATE constant sur toute la période d'observation. Dans le cas d'un apprentissage dynamique du modèle, l'effet « aujourd'hui » diffère systématiquement de l'effet « il y a un mois », violant l'hypothèse de Stable Unit Treatment Value Assumption (SUTVA) sur la stabilité temporelle. La solution consiste à appliquer des modèles de coefficients variables dans le temps ou des séries temporelles structurelles bayésiennes (BSTS) en modélisant la tendance de l'effet comme une variable latente. Dans le cadre de DiD, il est nécessaire d'inclure l'interaction entre le temps et le traitement (design d'étude d'événements), en vérifiant l'hypothèse de tendances parallèles pour chaque coupe temporelle. Si l'effet augmente, il est important de faire la distinction entre la courbe d'apprentissage du modèle (amélioration de l'algorithme) et l'adaptation des utilisateurs (habituation des utilisateurs à la fonction), en utilisant différents cohortes d'utilisateurs et de versions de modèle pour une décomposition.