Réponse à la question

Contexte historique. Depuis les années 2020, l'évolution du e-commerce a déplacé le focus de la livraison instantanée (same-day) vers une logistique durable, où la consolidation des commandes réduit l'empreinte carbone et les coûts du dernier kilomètre. Les premières expérimentations de Amazon Day et de services similaires ont montré que la consolidation volontaire des livraisons entraîne l'auto-sélection d'utilisateurs avec une faible urgence de consommation, ce qui crée une endogénéité dans l'évaluation de l'effet sur les métriques du produit. Les méthodes traditionnelles de test A/B se révèlent inapplicables dans le cadre d'une consolidation forcée, car l'infrastructure logistique nécessite une optimisation massive des itinéraires à l'échelle de toute la zone, et non de l'utilisateur individuel.

Problématique. Lors de la mise en œuvre d'un système de consolidation (par exemple, livraison uniquement les mardis et vendredis), il se pose un problème d'absence de répartition aléatoire : les utilisateurs dans les zones de mise en œuvre diffèrent systématiquement par leur éloignement géographique des entrepôts et leur tolérance à l'attente. De plus, il existe un risque de contamination spatiale (spillover), lorsque des utilisateurs changent d'adresse de livraison vers leur lieu de travail ou chez des proches dans des régions voisines sans consolidation, ce qui viole l'hypothèse SUTVA (Stable Unit Treatment Value Assumption). La saisonnalité de la demande et la corrélation du lancement avec l'optimisation logistique dans les régions à revenu élevé faussent encore l'évaluation de l'effet causal véritable.

Solution détaillée. Pour isoler l'effet, on applique Staggered Difference-in-Differences (DiD) avec un déploiement progressif (rollout) par zones logistiques, où les périodes avant l'implémentation servent de contrôle pour les périodes après. Il est crucial de vérifier l'hypothèse des tendances parallèles via une étude d'événements analysant la dynamique des métriques avant l'implémentation, afin de s'assurer de l'absence de tendances différentielles entre les futurs groupes traitement et contrôle. Pour chaque zone, une Synthetic Control est construite à partir de régions donneuses ayant une dynamique historique des commandes similaire, mais sans mise en œuvre prévue, ce qui permet de modéliser un contrefactuel et d'améliorer la robustesse des évaluations.

Pour corriger la réponse partielle (partial compliance), on utilise la régression par variables instrumentales (IV), où l'instrument (Z) est le fait d'appartenir à la zone de mise en œuvre (assignment), prédisant l'utilisation réelle de la consolidation (D), tandis que l'issue (Y) est la rétention ou la fréquence des achats. Cela permet d'évaluer le LATE (Local Average Treatment Effect) — l'effet pour ceux qui ont modifié leur comportement en raison de l'implémentation (compliers), contrairement à l'ITT (Intent-to-Treat), qui montre l'effet de l'offre de service. L'analyse de l'hétérogénéité par catégories de produits (impulsion vs stock-up goods) aide à distinguer la véritable diminution de la demande de la substitution intertemporelle (intertemporal substitution).

Situation de la vie réelle

Un marché de l'équipement domestique a lancé un pilote de consolidation des livraisons dans trois grandes villes afin de réduire les coûts logistiques de 30 %. L'analyse a rencontré des distorsions en comparant les utilisateurs ayant accepté la consolidation (treatment) avec ceux ayant refusé (control) : les adoptants avaient historiquement une fréquence d'achats plus faible et un montant moyen des commandes plus élevé, ce qui indiquait une auto-sélection des acheteurs planificants. Une simple comparaison aurait montré une fausse diminution de la rétention, alors qu'en réalité, le comportement aurait pu être stable, mais biaisé par la sélection.

Première option — comparaison directe des métriques avant et après l'implémentation (analyse pre-post) à l'intérieur de la zone. Les avantages ici résident dans la simplicité de mise en œuvre et la rapidité d'obtention des résultats sans nécessiter la collecte de données d'autres régions. Les inconvénients sont évidents : il est impossible de séparer l'effet de la consolidation des fluctuations saisonnières de la demande et des tendances générales de croissance de la base utilisateur, ce qui entraîne un biais systématique d'évaluation lorsque le lancement coïncide avec des périodes de festivités ou des campagnes publicitaires.

Deuxième option implique une comparaison transversale des zones avec et sans mise en œuvre à une date fixe. Les avantages incluent la possibilité de contrôler les tendances temporelles à travers un moment instantané de données et l'absence de nécessité d'une longue histoire dans les régions de contrôle. Les inconvénients sont liés au fait que les régions pour la mise en œuvre ont été choisies en fonction de la forte densité des commandes et de la fidélité de l'audience, ce qui crée un biais de sélection fort et rend les groupes non comparables en termes de caractéristiques initiales.

Troisième option utilise Staggered DiD avec un appariement par score de propension et Synthetic Control. Les avantages incluent l'utilisation de régions sans mise en œuvre comme groupe de contrôle, ce qui permet de préserver les effets fixes régionaux et temporels, tandis que l'appariement améliore la comparabilité des caractéristiques pré-trend. Les inconvénients incluent la complexité de validation de l'hypothèse des tendances parallèles en cas d'effets hétérogènes dans le temps et le risque de corrélation spatiale (spatial spillover) entre les zones voisines où les utilisateurs peuvent changer d'adresses de livraison.

Solution choisie et résultats : La troisième approche a été choisie avec un usage supplémentaire de régression IV sur les frontières des zones logistiques (RDD-style boundary analysis) pour la validité locale. Cela a permis d'isoler l'effet des différences régionales dans le comportement d'achat et le niveau de service. L'analyse a montré que l'effet véritable de la consolidation est une diminution de la fréquence des transactions de 8 % (et non 15 % comme dans l'analyse naïve), mais une augmentation de 22 % du montant moyen des commandes grâce à la consolidation des petites commandes. La rétention est restée au même niveau que celui du groupe de contrôle, justifiant l'extension de la fonction dans d'autres régions avec un effet économique prévisible.

En conséquence de l'implémentation, l'entreprise a réduit ses coûts logistiques de 35 % grâce à l'optimisation des itinéraires, compensant la diminution de la fréquence des commandes par une augmentation du montant moyen des commandes. Le modèle prévisionnel basé sur les coefficients obtenus a permis de calculer le point de rentabilité pour le lancement dans de nouvelles régions avec une densité de population variable. La méthodologie a été adoptée comme standard pour l'évaluation des innovations logistiques en l'absence de possibilité de tests A/B classiques.

Ce que les candidats oublient souvent

Comment distinguer une véritable diminution de la fréquence des achats d'une substitution intertemporelle (intertemporal substitution), lorsque les utilisateurs retardent simplement leur achat jusqu'à la prochaine fenêtre de livraison ?

La réponse des candidats ignore souvent la nature dynamique de la demande et suppose que la diminution de la fréquence au sein d'un mois équivaut à une perte de client. Il est nécessaire d'analyser les cohortes d'utilisateurs avec un long délai (180+ jours) et de distinguer les catégories de produits : pour les produits périssables ou impulsifs (snacks, accessoires), un report équivaut à une perte, alors que pour les achats planifiés (électroménager), cela représente simplement un transfert dans le temps. Méthodologiquement, il convient d'utiliser des modèles à retards distribués ou d'analyser le comportement de "stockage" via la métrique des jours d'inventaire à domicile, calculée sur la base de l'historique des achats des catégories à consommation régulière. Si le nombre total de produits sur 90 jours a diminué - c'est une perte de demande, si cela reste le même mais que l'intervalle entre les commandes a augmenté - c'est une substitution.

Comment prendre en compte la contamination spatiale (spillover effects), lorsque les utilisateurs changent d'adresse de livraison pour le travail ou chez des amis dans une zone voisine sans consolidation, afin d'obtenir le produit plus rapidement ?

Le DiD standard suppose l'absence d'influence du traitement sur le groupe de contrôle, mais en pratique, des utilisateurs du groupe "traitement" peuvent utiliser des adresses dans le groupe "contrôle" pour des commandes urgentes, faussant les métriques de contrôle à la hausse. La solution — filtre géographique : analyser uniquement les utilisateurs avec une adresse domiciliaire "stable" (histoire >6 mois sans changements) et exclure les commandes hybrides (livraison dans une autre zone). Alternativement, utiliser un DiD spatial avec des poids inversément proportionnels à la distance à la frontière de la zone, ou analyser uniquement les régions éloignées des frontières de plus de 50 km (donut RDD), où le spillover est minimal.

Comment interpréter correctement la différence entre ITT (Intent-to-Treat) et LATE (Local Average Treatment Effect) dans le contexte d'une réponse partielle (partial compliance), lorsque tous les utilisateurs de la zone de mise en œuvre n'utilisent pas la consolidation ?

Les candidats mélangent souvent l'effet de "l'offre de service" et "l'utilisation réelle". ITT évalue l'effet sur tous les utilisateurs de la zone d'implémentation, y compris ceux qui ont ignoré la fonction, et est utile pour le cas commercial d'extension. LATE (via régression IV avec l'instrument "disponibilité du service dans la zone") évalue l'effet uniquement pour les compliers — ceux qui ont modifié leur comportement en raison de l'implémentation. Si le taux de compliance est faible (par exemple, 30 % utilisent la consolidation), l'ITT sera sous-estimé de 3 fois par rapport à l'effet réel pour les utilisateurs de la fonction. Il est important de rendre compte des deux indicateurs : ITT pour prédire l'effet commercial total lors de l'expansion, LATE pour comprendre la valeur pour un segment particulier qui prend la décision de l'utilisation.