Analyse systèmeAnalyste produit

Quelle méthode devrait être utilisée pour évaluer l'effet causal de l'implémentation de la fonction 'Listes de courses sauvegardées' (Saved Shopping Lists) avec des recommandations de réapprovisionnement sur la fréquence des commandes récurrentes et le panier moyen, si la création de listes auto-sélecte des utilisateurs planificateurs très engagés, et que l'effet dépend de la saisonnalité des catégories de produits et de la durée de conservation limitée des produits ?

Réussissez les entretiens avec l'assistant IA Hintsage

Réponse à la question

Contexte historique

L'évolution du e-commerce des achats impulsifs vers une consommation planifiée a commencé avec l'implémentation d'Amazon Subscribe & Save en 2008, lorsque les détaillants ont réalisé que la rétention par la réduction de la charge cognitive lors des commandes récurrentes était plus efficace que les réductions agressives. D'ici 2015, des listes intelligentes avec prévisions de réapprovisionnement en Machine Learning ont vu le jour, analysant les intervalles entre les achats de lait ou de couches. Cependant, les premières évaluations de l'efficacité faisaient face à un problème fondamental : les utilisateurs qui créaient des listes démontraient initialement une meilleure discipline de planification et une fidélité plus élevée, ce qui rendait la comparaison directe avec une audience 'froide' incorrecte du point de vue de la relation causale.

Problématique

La principale difficulté réside dans l'endogénéité de l'auto-sélection : la création d'une liste n'est pas un effet aléatoire, mais plutôt le résultat d'une intention consciente de l'utilisateur d'optimiser ses dépenses. Cela entraîne un biais d'échantillonnage, où le 'traitement' (la présence d'une liste) est corrélé avec des caractéristiques non observées (organisation, taille de la famille, régularité de la consommation). De plus, la dynamique temporelle intervient : l'effet des listes sur les produits périssables (réapprovisionnement hebdomadaire) diffère de l'effet sur les produits saisonniers (décorations de Noël), et les recommandations ML peuvent provoquer une cannibalisation des ajouts spontanés au panier, faussant l'analyse globale des revenus.

Solution détaillée

L'approche optimale est une combinaison de Difference-in-Differences (DiD) avec Propensity Score Matching (PSM) et Fixed Effects pour contrôler la saisonnalité. Dans la première étape, nous utilisons Causal Forest pour évaluer l'hétérogénéité de l'effet par catégories de produits, identifiant les segments où les listes augmentent réellement la fréquence, et ne simplement fixent pas le comportement existant. Pour isoler la relation causale, nous appliquons Regression Discontinuity Design (RDD) au seuil du nombre de commandes précédentes, où la fonction 'Listes sauvegardées' devient disponible (par exemple, après la troisième commande), créant des conditions quasi expérimentales de randomisation locale. Alternativement, lors d'une mise en œuvre progressive par régions, nous utilisons la Synthetic Control Method, construisant une combinaison pondérée de régions de contrôle imitant la dynamique de la région test avant l'implémentation. Pour tenir compte de la cannibalisation, nous analysons non seulement les métriques des utilisateurs de listes, mais aussi le Diversion Ratio — la part des commandes se déplaçant des sessions spontanées vers celles planifiées via les listes.

Situation vécue

Contexte : L'hypermarché 'AlimentationToujours' a lancé la fonction 'Réfrigérateur Intelligent' — des listes de réapprovisionnement automatiques basées sur l'analyse AI de l'historique des achats et des dates de péremption. L'objectif était d'augmenter la fréquence des commandes de 20% en réduisant la friction lors des achats récurrents de produits ménagers et d'alimentation.

Option de solution 1 : Comparaison directe des utilisateurs avec et sans listes (Avant-Après)

L'équipe d'analyse a proposé de comparer le panier moyen et la fréquence des commandes de 10 000 utilisateurs ayant créé des listes lors de la première semaine, avec un groupe de contrôle d'utilisateurs aléatoires sans listes. Les avantages de cette approche sont la simplicité d'implémentation et la rapidité des résultats. Les inconvénients — un biais d'échantillonnage catastrophique : les créateurs de listes se sont avérés être des familles avec enfants, commandant chaque semaine, tandis que le groupe de contrôle comprenait des visiteurs aléatoires avec des commandes uniques. L'augmentation observée de 35% s'est avérée être un artefact de l'auto-sélection, et non un effet de la fonction.

Option de solution 2 : A/B test forcé avec visibilité du bouton

L'équipe produit a proposé d'afficher le bouton 'Créer une liste' en vert vif à 50% des utilisateurs, et gris et caché dans le menu pour les autres 50%, créant une différence d'accessibilité. Les avantages — possibilité d'évaluer l'effet net de la disponibilité de la fonction. Les inconvénients — des risques éthiques et UX : masquer une fonction utile aux utilisateurs fidèles réduisait leur expérience d'interaction, et la faible conversion dans la création de listes (2% contre 15% dans le test) entraînait une puissance statistique insuffisante et l'impossibilité d'évaluer l'effet à long terme de l'accoutumance.

Option de solution 3 : Regression Discontinuity Design selon le seuil d'activité (Solution choisie)

Les analystes ont choisi la méthode de régression par rupture, utilisant un seuil de 3 commandes sur 60 jours : les utilisateurs atteignant ce seuil recevaient automatiquement accès au 'Réfrigérateur Intelligent' avec recommandations ML, tandis que les utilisateurs avec 2 commandes ne l'avaient pas. Cela a créé des conditions quasi expérimentales de randomisation locale près du seuil. Les avantages — minimisation du biais d'auto-sélection dans une bande étroite autour du cutoff (les utilisateurs avec 2 et 3 commandes étant statistiquement indistinguables sur les caractéristiques observées). Les inconvénients — la généralisation limitée des résultats uniquement sur les utilisateurs 'limites', et non sur l'ensemble de la base; nécessité de vérifier la continuité de la distribution des covariables autour du seuil.

Résultat final : L'analyse a montré un véritable accroissement de la fréquence des commandes de 12% (au lieu des 35% apparents) et une augmentation du panier moyen de 8% uniquement pour la catégorie 'Produits ménagers et articles en papier'. Pour les produits périssables, l'effet était statistiquement non significatif en raison des limitations physiques de la durée de conservation. Il a été révélé que 30% de la croissance des revenus provenait de la cannibalisation des achats spontanés, devenus planifiés. Sur la base des données, l'entreprise a ajusté le modèle ML, excluant des recommandations des catégories impulsives (sucreries, chips), ce qui a maintenu la croissance générale des revenus, tout en augmentant la satisfaction des utilisateurs, car le 'Réfrigérateur Intelligent' a cessé de 'suggérer' de mauvaises habitudes.

Ce que les candidats oublient souvent

Pourquoi ne pas simplement comparer les métriques des utilisateurs avec et sans listes via un t-test ordinaire ou une régression linéaire ?

La réponse réside dans le problème fondamental de l'endogénéité et du biais d'auto-sélection. Les utilisateurs qui prennent le temps de créer des listes structurées se différencient systématiquement des visiteurs aléatoires par des caractéristiques non observées : ils ont une consommation planifiée plus élevée, une taille de famille plus grande, une plus grande prévisibilité dans leur emploi du temps. La régression OLS, même en contrôlant la démographie, ne peut pas capter la 'culture de planification' comme variable latente. Cela conduit à une surestimation de l'effet de la fonction, car des métriques élevées s'expliquent non par les listes elles-mêmes, mais par l'engagement initial élevé des utilisateurs. Pour une évaluation correcte, il est nécessaire d'utiliser des variables instrumentales (IV), des conceptions quasi expérimentales (RDD, DiD) ou des méthodes de différences doubles avec appariement (PSM-DiD), qui isolent la variation ne dépendant pas des préférences individuelles.

Comment séparer l'effet de l'utilisateur 'planificateur' de l'effet réel des listes lors de l'analyse des champs d'impact intensif et extensif ?

Il est nécessaire de séparer la marge intensive (augmentation de la fréquence parmi ceux qui prévoyaient déjà des achats) et la marge extensive (attraction des acheteurs impulsifs vers la planification). Pour cela, on applique Causal Forest ou l'analyse des Heterogeneous Treatment Effects, permettant d'évaluer l'effet par sous-groupes. L'insight clé — utilisation de la régression logistique ordinale avec des variables factices pour le nombre de listes créées. Si la fonction fonctionne, nous verrons une augmentation significative des métriques lors du passage de 0 à 1 liste (marge extensive), mais des changements négligeables lors du passage de 5 à 6 listes (marge intensive, où l'auto-sélection domine). Il est également important d'analyser le time-to-event (temps jusqu'à la prochaine commande) via le Cox Proportional Hazards Model, en contrôlant le risque de désabonnement de base, ce qui permet de séparer la régularité 'naturelle' de la suggestion 'artificielle' du système.

Comment tenir correctement compte de la cannibalisation entre les achats planifiés via les listes et les ajouts spontanés au panier, lorsque les listes peuvent simplement transférer les revenus d'un canal à un autre sans augmentation du GMV global ?

Les candidats ignorent souvent la nécessité d'analyser le diversion ratio et la composition du panier. Il est nécessaire de construire un modèle triple-difference (DiD avec une mesure supplémentaire), en comparant les changements dans la structure du panier chez les utilisateurs avec des listes avant et après l'implémentation, par rapport à un groupe de contrôle. Il est important de suivre la métrique 'part de portefeuille' — la part des catégories traditionnellement achetées de manière impulsive (confiseries, snacks), dans le panier total. Si la part des catégories impulsives diminue chez les utilisateurs avec des listes, mais augmente chez le contrôle, cela signale une cannibalisation. Pour une évaluation quantitative, on utilise le Almost Ideal Demand System (AIDS) ou le Rotterdam Model, évaluant l'élasticité de substitution entre les canaux d'achat. Sans cette analyse, l'entreprise pourrait investir à tort dans le développement de la fonction des listes, obtenant un effet incrémental nul au niveau commercial, malgré la croissance des métriques pour le segment des utilisateurs de 'listes'.