Réponse à la question

Les méthodes traditionnelles de tarification dans le e-commerce se sont longtemps appuyées sur des analyses de corrélation simples ou des tests A/B courts pour évaluer les changements des seuils de livraison. Cependant, avec l'évolution de la théorie de l'inférence causale (Causal Inference), il est devenu évident que des changements brusques dans la politique de livraison pour l'ensemble de la base créent un problème d'endogénéité de sélection et de dynamique temporelle. L'analyse produit moderne nécessite l'application de méthodes quasi-expérimentales, telles que la Synthetic Control Method (SCM) et la Bayesian Structural Time Series (BSTS), qui ont été développées pour évaluer les politiques macroéconomiques, mais ont été rapidement adaptées aux produits numériques avec des métriques très volatiles.

Lorsque le seuil de livraison gratuite est augmenté, un problème complexe d'identification de l'effet moyen local de traitement (LATE) émerge. Les utilisateurs hautement disposés à acheter modifient leur comportement (ajout d'articles au panier pour atteindre le seuil), tandis que les utilisateurs marginaux retardent leurs achats ou se tournent vers la concurrence. L'analyse classique avant-après donne une estimation biaisée en raison de la saisonnalité, des effets inflationnistes et des campagnes concurrentes. En outre, un effet de substitution inter-temporelle (intertemporal substitution) est observé, lorsque les utilisateurs agrègent leurs achats dans le temps, créant un pic artificiel dans le panier moyen, sans lien avec une réelle augmentation de la demande, ce qui nécessite une modélisation de la structure temporelle de la réponse.

L'approche optimale consiste à combiner la Synthetic Control Method au niveau des cohortes utilisateurs agrégées et la Regression Discontinuity Design (RDD) pour l'évaluation locale de l'effet sur les consommateurs marginaux. Pour le SCM, une combinaison pondérée de régions géographiques ou de segments avec des dynamiques historiques similaires est construite, imitant la tendance du groupe cible avant l'intervention, en utilisant l'algorithme d'optimisation de poids Abadie-Diamond-Hainmueller. Pour le RDD, les transactions dans une étroite bande autour du seuil (optimal bandwidth via l'algorithme Imbens-Kalyanaraman) sont analysées, ce qui permet d'isoler l'effet net de la stimulation. De plus, CausalImpact basé sur BSTS est appliqué pour une évaluation dynamique de la déviation par rapport à la tendance synthétique, et la signification statistique est calculée par le biais du permutation test (placebo tests) sur les données historiques.

Situation réelle

Un grand marché de mode a décidé d'augmenter le seuil de livraison gratuite de 1500₽ à 2500₽ pour l'ensemble de l'audience en Russie d'un seul coup. L'équipe produit a enregistré une augmentation de 22% du panier moyen au cours des deux premières semaines, mais le CFO a douté de la durabilité de cet effet, craignant la perte d'utilisateurs précieux et la cannibalisation des ventes futures à travers un mécanisme d'achat différé. L'analyste était chargé de séparer le véritable effet causal du bruit des soldes saisonniers et des changements de comportement des concurrents, qui avaient également lancé des promotions de livraison.

La première option examinée était une simple comparaison des métriques sur 30 jours avant et 30 jours après le changement à l'aide d'un test t et du calcul de l'augmentation en pourcentage. Avantages : vitesse maximale de mise en œuvre en une journée et grande clarté pour la direction sans avoir à plonger dans les statistiques. Inconvénients : ignorance totale de la tendance saisonnière croissante (début de la collection de printemps), absence de contrôle des chocs externes (campagne publicitaire concurrente) et impossibilité d'évaluer l'effet dynamique de l'accumulation des paniers, ce qui conduit à une surestimation de l'effet de 40-60%.

La deuxième option — Geographic Difference-in-Differences, utilisant les régions sans changement de seuil (par exemple, des zones éloignées avec des restrictions logistiques) comme groupe de contrôle. Avantages : variation naturelle et capacité à capturer les différences régionales dans la sensibilité au prix par le biais des effets fixes. Inconvénients : violation critique de l'hypothèse des tendances parallèles (parallel trends) en raison de la migration des utilisateurs entre les villes (violation de SUTVA) et d'une différence substantielle dans l'environnement concurrentiel entre les capitales et les régions, rendant le groupe de contrôle systématiquement non comparable.

La troisième option — Synthetic Control Method au niveau des cohortes utilisateurs, formées par la fréquence historique des achats et le panier moyen, construite sur des données des 12 mois précédant le changement. Avantages : création d'un ensemble de poids optimal de segments « donneurs » prenant en compte la saisonnalité, le jour de la semaine et les tendances à travers une combinaison convexe ; possibilité de validation visuelle de la qualité d'ajustement sur la période pré-traitement. Inconvénients : nécessité d'une longue histoire de données (minimum 10-15 périodes), sensibilité aux ruptures structurelles (regime switch), telles que les changements de comportement induits par la pandémie, et complexité d'interprétation des poids pour les affaires.

Une solution combinée a été choisie : SCM pour évaluer l'effet global sur les revenus et RDD avec un polynôme local de second degré pour évaluer l'effet sur les utilisateurs marginaux dans la bande 2300-2700₽. Cela a permis de séparer l'effet de l'« achat supplémentaire » (basket augmentation) de l'effet d'« attrition » (churn) et de prendre correctement en compte la saisonnalité à travers un modèle structuré bayésien de séries chronologiques (BSTS), intégré dans CausalImpact.

Le résultat final a montré que l'augmentation observée du panier de 22% était surestimée d'environ deux fois : l'effet incrémental réel était de 11%, dont 6% étaient dus à un déplacement temporaire de la demande (intertemporal substitution), et 5% à une réelle augmentation de la taille du panier. L'analyse a révélé un segment d'utilisateurs « sensibles à la livraison » (15% de la base), montrant une augmentation de l'attrition de 8% et une diminution de la fréquence des commandes de 12%, ce qui a permis d'ajuster la politique : introduire un seuil hybride de 1990₽ pour le segment à faible panier avec une fréquence historique élevée de retours, atténuant l'effet négatif sur la rétention.

Ce que les candidats oublient souvent

Comment prendre correctement en compte l'effet d'accumulation des paniers (cart pooling) et la substitution inter-temporelle des achats lors de l'évaluation du seuil dynamique de la livraison, si les utilisateurs retardent stratégiquement la conversion ?

Réponse : Il est nécessaire de modéliser la structure temporelle de la prise de décision à travers l'analyse de survie (modèle de Cox avec risques proportionnels) ou l'analyse des intervalles entre les sessions (inter-purchase time). La métrique clé devient non pas la conversion ponctuelle, mais le changement du taux de risque de l'achat en fonction du montant actuel du panier et de la distance au seuil. De plus, il convient d'analyser les cohortes d'utilisateurs ayant atteint le seuil grâce à un achat supplémentaire, pour vérifier une part accrue de retours de produits dans les 14 jours (cannibalisation par retour), ce qui fausse la métrique GMV et nécessite un ajustement sur le return rate dans le modèle.

Pourquoi les intervalles de confiance standard (confidence intervals) ne sont-ils pas corrects pour la Synthetic Control Method et comment évaluer la signification statistique de l'effet causal dans cette méthodologie ?

Réponse : Dans le SCM, les estimations sont soumises à une incertitude d'inférence, liée au processus de sélection des poids des unités donneuses et à la finitude de l'échantillon, ce qui viole les hypothèses de la statistique fréquentiste classique concernant l'indépendance des observations. L'approche correcte consiste à utiliser un permutation test (placebo test), où le même algorithme SCM est appliqué à chaque unité donneuse du pool (prétendant qu'elles ont reçu le traitement), créant une distribution empirique des effets placebo. Un effet est considéré comme statistiquement significatif au niveau de 5% si le ratio post/pre-RMSPE pour l'unité traitée dépasse le 95ème percentile de la distribution placebo, comme formalisé dans les travaux d'Abadie, Diamond et Hainmueller (2010, 2015).

Comment distinguer l'effet du changement de seuil de livraison des changements simultanés de qualité du trafic ou de l'activité concurrentielle lors de l'utilisation de Causal Impact ou Synthetic Control ?

Réponse : Il est essentiel d'inclure dans le modèle des covariables (prédicteurs), non affectées par l'intervention (untreated confounders), mais corrélant avec la métrique cible — par exemple, la fréquentation du site des concurrents (via SimilarWeb ou des données de panel), le volume global du marché e-commerce dans la région, ou le CTR du trafic organique. Dans la structure bayésienne BSTS, qui sous-tend CausalImpact, ces variables entrent comme régresseurs dans le modèle d'espace d'état, isolant les chocs communs. Il est également nécessaire de tester la causalité de Granger entre les prédicteurs et le résultat avant l'intervention et d'utiliser des tests placebo-in-time, décalant la date de "l'effet" vers des périodes historiques pour vérifier l'absence de faux positifs.