Réponse à la question

Contexte historique

Le problème de l'évaluation de la qualité des résultats de recherche est lié à un paradoxe fondamental des observations : nous voyons des clics uniquement sur les positions que l'utilisateur a vues, mais la probabilité de visionnage diminue de manière exponentielle avec le rang. Les travaux classiques de Joachims et al. sur le biais de position et de Richardson sur l'hypothèse d'examen ont jeté les bases de la compréhension que le clic n'est pas égal à la pertinence. Dans le contexte de l'analyse produit, cela nécessite de séparer la véritable préférence de l'utilisateur des artefacts de l'interface, surtout lorsque le changement d'algorithme de classement affecte toute la base utilisateur simultanément.

Énoncé du problème

Lors d'une mise à jour globale de l'algorithme de recherche, les métriques observables (CTR, profondeur de navigation, conversion) changent sous l'influence de deux facteurs confondants : le changement même de l'ordre des documents et le changement de la probabilité de leur consultation. Sans la possibilité de diviser les utilisateurs en groupes de contrôle et de test, le classique test A/B est impossible, et les fluctuations saisonnières créent des tendances temporelles corrélées au moment du lancement. La tâche de l'analyste consiste à isoler l'effet pur du classement de ces bruits malgré la limitation des données.

Solution détaillée

L'approche optimale combine des méthodes de quasi-expérimentation et des ajustements pour les biais. Dans un premier temps, une méthode Difference-in-Differences avec contrôle synthétique est appliquée : une combinaison pondérée de périodes historiques ou de segments de produits est construite, minimisant l'erreur de prétraitement de la prévision des métriques. Pour ajuster le biais de position, on utilise le Inverse Propensity Weighting (IPW), où les propensity scores sont estimés à partir de la probabilité de visionner une position sur la base des journaux randomisés passés ou à travers un algorithme Expectation-Maximization avec l'hypothèse du Modèle d'Examen-Cascade. De plus, pour les effets non linéaires, des Forêts Causales sont appliquées, permettant de modéliser l'hétérogénéité des effets selon les catégories de produits et les segments d'utilisateurs.

Situation tirée de la vie

Dans un marketplace d'électronique, l'équipe de recherche a remplacé BM25 par un classificateur basé sur BERT, optimisé pour la marge bénéficiaire. Deux semaines après le lancement, la métrique GMV par session de recherche a augmenté de 18%, mais la profondeur de navigation a baissé de 25%. L'entreprise doutait si la hausse était liée à l'algorithme ou au début des soldes, qui coïncidaient avec le lancement, et s'inquiétait de la dégradation de l'expérience utilisateur sur le long tail des requêtes.

La première option envisagée était une simple comparaison des métriques avant et après le lancement à l'aide d'un t-test. L'avantage était la rapidité et l'absence de la nécessité d'une infrastructure complexe. Cependant, les inconvénients sont évidents : l'impossibilité de séparer l'effet saisonnier des soldes de l'effet de l'algorithme, l'ignorance du biais de position (le nouvel algorithme pouvait afficher des produits chers simplement parce qu'ils rapportent plus d'argent, et non parce qu'ils sont plus pertinents), et l'absence de prise en compte de l'inflation globale de la demande pendant la période des promotions.

La deuxième option était une analyse Interrupted Time Series (ITS) avec décomposition saisonnière via Prophet ou SARIMA. Cela permettrait de prendre en compte les tendances et la saisonnalité, en construisant une valeur prédictive contrefactuelle des métriques sans lancement. Les avantages comprenaient la rigueur statistique et la possibilité de modéliser les autocorrélations. Cependant, les inconvénients résidaient dans la sensibilité au point de rupture (si le lancement était progressif), la complexité d'interpréter les coefficients pour l'entreprise et l'hypothèse de linéarité des tendances, qui est souvent violée dans le e-commerce pendant les campagnes promotionnelles majeures.

La troisième option était le développement de la Méthode de Contrôle Synthétique au niveau des catégories de produits : création d'un panier pondéré à partir des requêtes ou catégories non touchées, où l'algorithme n'avait pas changé (par exemple, en raison de limitations techniques sur certains marchés locaux), en tant que groupe de contrôle pour comparaison. Les avantages comprenaient la clarté visuelle et l'intuition pour les parties prenantes, ainsi qu'une sensibilité réduite aux hypothèses concernant la forme de la distribution des erreurs. Les inconvénients comprenaient la nécessité d'identifier des unités de contrôle appropriées avec une dynamique similaire (ce qui est difficile lors d'un lancement mondial) et le risque de surajustement lors de la sélection des poids.

En fin de compte, une méthodologie hybride a été choisie : Diff-in-Diff avec contrôle synthétique au niveau des catégories de produits, combinée à un ajustement IPW pour la position d'affichage. Cela a permis de séparer l'effet du changement de classement des pics saisonniers et d'ajuster la distorsion causée par le fait que les produits chers étaient désormais affichés plus fréquemment en haut. Ce choix était dicté par la nécessité de prendre en compte simultanément la structure temporelle des données et les biais structurels dans l'exposition.

Il a été établi que 14% des 18% d'augmentation du GMV étaient expliqués par l'algorithme, les 4% restants étant attribués à la saisonnalité. Il a également été découvert que pour les requêtes head (les 20% les plus fréquents), la conversion a augmenté de 22%, tandis que pour les requêtes tail, elle a diminué de 15%, ce qui a été compensé par une augmentation du panier moyen. Cela a conduit à la décision de mettre en place un schéma hybride : un classificateur neural pour les requêtes populaires et un classique pour les requêtes rares, ce qui a équilibré les métriques.

Ce que les candidats oublient souvent

Comment prendre correctement en compte le biais de position en l'absence d'expérience randomisée ?

Sans affichages randomisés spéciaux, évaluer la propensity est possible via l'algorithme Expectation-Maximization, en supposant que le clic = examination × pertinence. Les candidats proposent souvent simplement d'ajouter la position comme caractéristique dans la régression, mais cela ignore l'interaction non linéaire entre la position et la pertinence. L'approche correcte consiste à utiliser des Modèles de Clics (Modèle en Cascade ou DBN - Modèle de Clic Dépendant) pour évaluer la probabilité d'examen, puis à pondérer les observations inversement proportionnellement à cette probabilité (IPW). Sans cela, l'évaluation de l'effet de classement sera biaisée en faveur des résultats top-heavy.

Pourquoi une simple comparaison des clics avant et après le changement d'algorithme donne-t-elle une estimation biaisée même en tenant compte de la saisonnalité ?

Outre le biais de position, il existe l'effet exploration vs exploitation et apprentissage utilisateur. Un nouvel algorithme peut explorer (explore) moins, offrant des résultats plus prévisibles, ce qui réduit l'engagement à court terme. Ou, au contraire, les utilisateurs peuvent s'adapter à la nouvelle structure des résultats, modifiant les modèles de défilement (scrolling behavior), ce qui perturbe les hypothèses de stationnarité dans l'analyse des séries temporelles. Les candidats oublient souvent la nécessité de vérifier l'hypothèse des tendances parallèles dans Diff-in-Diff sur les données préalables, et l'importance des retards dans l'agrégation (il est impossible de comparer jour à jour à cause des effets du jour de la semaine, une agrégation d'au moins une semaine est nécessaire).

Comment distinguer l'effet de l'amélioration du matching requête-produit de l'effet de changement de la composition de l'assortiment en haut des résultats ?

Cette distinction est cruciale pour comprendre l'impact à long terme sur la LTV. Si le nouvel algorithme déplace simplement les résultats vers des produits chers (assortment shift), et ne comprend pas mieux l'intention de l'utilisateur (relevance improvement), l'augmentation de la conversion peut être à court terme en raison de l'effet de nouveauté. Pour les séparer, il faut utiliser des Forêts Causales ou des Meta-apprenants (S-Learner, T-Learner) avec des effets fixes des produits (product fixed effects), pour comparer le même produit dans différentes positions avant et après le changement. Si l'effet n'est observé qu'à cause du changement de composition des produits en haut (par exemple, la disparition d'options budgétaires), cela nécessite une réaction produit différente que si le CTR s'est amélioré sur des positions fixes pour ce produit.