Réponse à la question

Contexte historique

L'évolution du commerce électronique a conduit au développement de la logistique omnicanale, où le Click&Collect et les points de retrait (Pickup Points, PVR) sont devenus des outils pour réduire le coût de la dernière mile de livraison. Cependant, contrairement aux fonctionnalités numériques, ces changements sont géographiquement discrets et soumis à l'effet de self-selection — les clients à forte valeur temps ignorent les PVR, tandis que les utilisateurs économes migrent de la livraison par coursier. Les tests A/B classiques au niveau des utilisateurs sont ici impossibles en raison de l'absence de randomisation au niveau de l'emplacement et de l'existence d'effets de réseau au sein des micro-régions.

Problématique

L'analyse est confrontée à trois défis clés. Premièrement, l'endogénéité de l'emplacement : les points sont ouverts dans des zones à forte densité de commandes, ce qui crée une rétroaction causale (forte demande → ouverture de PVR). Deuxièmement, cannibalisation : une partie des utilisateurs change simplement de mode de réception de livraison à retrait sans augmenter le spend global. Troisièmement, viol d'hypothèse SUTVA (Stable Unit Treatment Value Assumption) : un utilisateur observe l'ouverture d'un point près de chez lui et incite ses voisins par les réseaux sociaux, ce qui crée une contamination croisée entre les micro-régions « traitées » et « contrôles ».

Solution détaillée

Une stratégie multicouche d'évaluation quasi-expérimentale est recommandée. Au niveau macro (villes), la méthode Synthetic Control Method est appliquée — nous créons une combinaison pondérée de villes « donneuses » sans PVR, imitant au mieux la dynamique des métriques de la ville test avant l'intervention. Les poids sont sélectionnés via l'optimisation convexe sur les données pré-intervention (12-18 mois), incluant la saisonnalité, les indicateurs macro-économiques et la structure des catégories.

Au niveau micro (utilisateurs), nous utilisons la méthode Difference-in-Differences avec un scoring de propension (Propensity Score Matching) pour contrôler les caractéristiques observables, mais l'essentiel est l'introduction des Instrumental Variables (IV). Comme instrument, nous utilisons la distance la plus courte entre le domicile de l'utilisateur et le PVR le plus proche, calculée selon le réseau routier. Cette variable est corrélée avec le choix du retrait (première étape de la méthode des MNL à deux étapes), mais n'est pas corrélée avec la propensité latente aux achats, isolant l'effet Local Average Treatment Effect (LATE).

Pour prendre en compte les commandes hybrides (entrepôt intermédiaire), nous construisons des modèles CausalForest, séparant l'effet sur des sous-populations : adopteurs immédiats, utilisateurs retardés et non-preneurs. Enfin, nous corrigeons les erreurs standards pour la clustering au niveau du quartier (clustered standard errors) et vérifions la sensibilité aux effets de débordement par une analyse de concentration dans un rayon de 500 mètres.

Situation de la vie réelle

Contexte : un grand marketplace de mode planifiait le lancement d'un réseau de 120 Pickup Points dans 15 villes tests de taille moyenne (500-800k habitants) dans le but de réduire les coûts logistiques de 25%. La direction demandait d'évaluer si la présence de PVR augmentait la fréquence d'achats (purchase frequency) parmi les clients existants ou simplement déplaçait le trafic de la livraison par coursier.

Option 1 : Comparaison simple « ville avec PVR vs ville sans PVR » Avantages : Mise en œuvre maximement simple, ne nécessite pas de données historiques, réponse rapide pour l'entreprise. Inconvénients : Les villes avec PVR sont initialement plus riches et actives (biais de sélection), les différences de saisonnalité et d'environnement concurrentiel peuvent donner un biais jusqu'à 40% dans l'estimation de l'effet. Le résultat devient peu fiable pour l'extensibilité.

Option 2 : Analyse Before-After uniquement dans les villes tests Avantages : Contrôle les différences inter-villes, se concentre sur le changement de tendance. Inconvénients : Ne prend pas en compte les tendances générales du marché de la croissance du e-commerce (dans l'année de la pandémie, la tendance de base pourrait être de +30% d'année en année), le point final peut coïncider avec des fêtes locales de promotions, faussant l'image.

Option 3 : Contrôle Synthétique au niveau des villes + IV au niveau des utilisateurs Avantages : Synthetic Control crée un scénario contrefactuel « que serait-il sans PVR », ajustant pour les tendances macro, et les Instrumental Variables (distance au point comme choc aléatoire pour les utilisateurs « paresseux ») isolent l'effet causal de la simple corrélation. Inconvénients : Nécessite au moins 12 mois de données pré-intervention par ville, complexité d'interprétation du LATE pour les parties prenantes non techniques, coûteux à calculer.

Solution choisie et justification Nous avons choisi une combinaison de Synthetic Control pour la validation inter-villes et des Two-Stage Least Squares (2SLS) avec un instrument géographique pour la métrique utilisateur. Cela a permis de séparer l'effet de la présence d'infrastructure (effet structurel) de l'effet du choix conscient (self-selection comportemental). Il était critique de prouver que même les utilisateurs « paresseux », vivant à 200 mètres de la nouvelle point, commencent à acheter plus souvent, sans changer leurs caractéristiques économiques.

Résultat final L'évaluation a montré un véritable accroissement incrémental de la fréquence d'achats de 12% parmi les utilisateurs vivant à portée de PVR (ITT), tandis que la cannibalisation de la livraison par coursier était de 18%, compensée par une augmentation du panier moyen de 8% grâce à l'absence de frais de livraison. Cependant, l'effet était hétérogène : uniquement pour les catégories « chaussures » et « accessoires », tandis que pour « équipements ménagers », aucun effet significatif n'a été découvert. Cela a permis d'ajuster la stratégie d'ouverture de points, en se concentrant sur des centres de mode et en renonçant à des points dans des quartiers dortoirs avec une prépondérance d'équipements.

Ce que les candidats oublient souvent

Comment distinguer l'effet de l'ouverture de PVR de celui d'une campagne marketing annonçant ces points, si la campagne est lancée en même temps que l'ouverture ?

Réponse : L'erreur standard est d'ignorer treatment contamination par le canal marketing. Il est nécessaire d'utiliser la méthode Difference-in-Difference-in-Differences (DDD) ou de diviser l'échantillon en deux groupes de contrôle : villes avec campagne (support médiatique) mais sans PVR physiques (juste l'annonce « coming soon ») et villes avec mise en œuvre complète. Si l'effet est observé uniquement dans le deuxième groupe, cela prouve le rôle causal de la logistique, et non de la communication. Il est également important de suivre brand search comme variable de contrôle — s'il augmente de manière identique dans les deux groupes, l'augmentation des revenus dans le groupe test est due à la commodité du service, et non à une sensibilisation.

Pourquoi ne pas utiliser une simple correspondance des utilisateurs selon la distance au PVR (plus proche de 500m vs plus loin de 2km) comme proxy pour le test et le contrôle, même si on contrôle la démographie ?

Réponse : C'est une violation de l'hypothèse de positivité et de sélection sur des caractéristiques non observables. Les utilisateurs choisissant de vivre près des centres commerciaux (où se trouvent généralement les PVR) diffèrent systématiquement en termes de revenus, d'emploi et de style de vie de ceux vivant en périphérie. Même avec le Propensity Score Matching, il reste un biais caché provenant de variables non observées (par exemple, la planification budgétaire familiale). L'approche correcte consiste à utiliser le Regression Discontinuity Design (RDD), en considérant les frontières des zones de livraison ou les limites administratives des quartiers comme seuils aléatoires, où d'un côté de la rue, les maisons se trouvent à 300 mètres (traitement), et de l'autre à 900 mètres (contrôle), mais avec des caractéristiques socio-économiques identiques.

Comment tenir compte correctement du délai entre l'ouverture du PVR et la formation de l'habitude comportementale (habit formation), si les fenêtres d'attribution standard (7-30 jours) sous-estiment l'effet à long terme ?

Réponse : L'erreur classique est d'utiliser une période post-fixe. Il est nécessaire d'appliquer une Event Study Design avec des délais dynamiques, en modélisant l'effet séparément pour les mois 1, 3, 6 après ouverture. Cela permet de capturer l'hétérogénéité de l'effet de traitement au fil du temps — souvent l'effet s'intensifie à mesure que l'habitude se forme (learning curve), puis se stabilise. Il est important d'utiliser des modèles Cox Proportional Hazards pour le temps jusqu'à la première utilisation du PVR, en prenant en compte les risques concurrents (l'utilisateur peut churn avant adaptation). Il faut également corriger le bias de survie — les utilisateurs ayant commencé à utiliser le PVR peuvent avoir un faible taux de churn par définition, et doivent être comparés avec un groupe de contrôle ayant des schémas de survie similaires, et non avec l'ensemble de la base.