Analyse systèmeAnalyste produit / Product Analyst

Quelle méthode devrait être utilisée pour évaluer l'effet causatif de l'implémentation du système de « Livraison à créneau horaire précis » sur la conversion et la fréquence des commandes dans un service de livraison de nourriture, si l'implémentation se fait de manière ondulée entre les restaurants partenaires, que l'on observe une auto-sélection en fonction de l'efficacité opérationnelle (les restaurants très efficaces se connectant en premier), et que les indicateurs sont soumis à la saisonnalité et à l'hétérogénéité géographique de la demande ?

Réussissez les entretiens avec l'assistant IA Hintsage

Réponse à la question

Historiquement, les services de livraison de nourriture ont évolué d'un modèle « livraison en 60 minutes » vers une logistique hyperlocale avec des créneaux horaires précis. Ce passage crée un problème méthodologique : les restaurants ayant initialement une efficacité opérationnelle élevée (temps de préparation court, proximité des zones à forte densité de commandes) se sélectionnent d'eux-mêmes dans les premières vagues d'implémentation, tandis que les points problématiques se connectent plus tard ou jamais. Une comparaison directe de la conversion avant et après l'implémentation conduit à une surestimation de l'effet, car elle ignore les différences systématiques entre les early-adopters et les laggards.

Le problème est aggravé par la clustering géographique : les restaurants en centre-ville, où la demande est élevée et stable, obtiennent souvent accès à la fonctionnalité plus tôt que les points périphériques avec une demande volatile. Les variations saisonnières (par exemple, les fêtes de fin d'année ou la baisse estivale) déforment en outre les tendances observées, rendant impossible l'utilisation d'une simple différence de moyennes entre groupes.

Pour isoler l'effet véritable, il est nécessaire d'appliquer une combinaison de Difference-in-Differences (DiD) avec des effets fixes du restaurant et du temps, complétée par un Propensity Score Matching (PSM) pour éliminer le biais d'auto-sélection. Dans un premier temps, un modèle de probabilité de connexion au système de créneaux horaires précis est construit sur la base de covariables (temps de livraison historique, évaluation, densité de livreurs dans un rayon), après quoi chaque restaurant traité est apparié à un « jumeau » de contrôle parmi ceux qui ne se sont pas encore connectés. On évalue ensuite la double différence dans la dynamique de conversion entre ces paires, ce qui permet de contrôler les caractéristiques constantes non observées (par exemple, la qualité de la cuisine). Pour tenir compte de la corrélation spatiale, on applique un clustering des erreurs standards au niveau des cellules géographiques ou on utilise la Méthode de Contrôle Synthétique, qui crée une combinaison pondérée de restaurants non connectés, imitant un scénario contrefactuel pour les unités traitées.

Situation de la vie réelle

Dans le plus grand agrégateur fédéral de livraison, il était prévu d'introduire la fonctionnalité « Livraison dans un créneau de 15 minutes choisi » pour les restaurants haut de gamme. Un pilote a été lancé dans trois villes, où 15 % des partenaires avec un temps de préparation historiquement bas et des évaluations élevées se sont connectés en premier. Un mois plus tard, les analystes ont enregistré une augmentation de 22 % de la conversion chez les restaurants connectés, mais l'entreprise doutait si cela était dû à l'effet de la fonctionnalité ou simplement à la qualité initialement élevée de ces points.

Trois approches d'évaluation ont été envisagées. La première option — une simple comparaison des moyennes des commandes et des conversions avant et après la connexion — a été immédiatement rejetée : elle ignorait la croissance tendance du marché et l'animation saisonnière de la demande pendant les fêtes, ce qui entraînait une surestimation de +22 %, mais ne tenait pas compte que ces restaurants croissaient déjà plus rapidement que le marché de 8 à 10 % sans la nouvelle fonctionnalité.

La deuxième option — une analyse par cohortes comparant les utilisateurs ayant vu le temps de livraison précis, avec ceux ayant vu le standard « 40-50 minutes » — s'est également révélée problématique : les utilisateurs dans les zones avec des restaurants haut de gamme avaient un ticket moyen et une fidélité initialement plus élevés, créant un biais de sélection. Une tentative de couper l'échantillon par géographie entraînerait une perte de 40 % des données et une diminution de la puissance du test.

La troisième option, qui a été choisie, incluait la construction d'un Contrôle Synthétique pour chaque restaurant connecté en se basant sur 50 « donneurs » non connectés ayant un historique de ventes, une géographie et une saisonnalité similaires. La méthodologie DiD a été appliquée à ces groupes synthétiques pondérés avec un contrôle supplémentaire pour les conditions météorologiques (qui ont influencé la demande de livraison) et les jours de la semaine. Cela a permis d'isoler un effet net de +9,3 % sur la conversion et de +14 % sur la fréquence des commandes récurrentes, tout en mettant en évidence l'hétérogénéité : l'effet n'était significatif que pour les restaurants ayant un temps de préparation de moins de 12 minutes, tandis que pour les cuisines lentes, le créneau horaire précis n'apportait pas de gain statistiquement significatif, le goulot d'étranglement étant la production, pas la logistique.

Ce que les candidats oublient souvent

Comment vérifier l'hypothèse des tendances parallèles (parallel trends) dans DiD lorsque les premiers adaptateurs se distinguent systématiquement du groupe de contrôle ?

Les candidats affirment souvent appliquer DiD sans vérifier l'hypothèse clé : avant l'implémentation, les tendances des indicateurs dans les groupes de traitement et de contrôle doivent être parallèles. Dans des conditions d'auto-sélection, cette hypothèse est généralement violée. Il est nécessaire de mener une étude d'événements (DiD dynamique) avec des indicateurs de périodes en amont (lead indicators) plusieurs semaines avant l'implémentation. Si les coefficients de ces indicateurs sont statistiquement significatifs et différents de zéro, les tendances ne sont pas parallèles, et il est necessaire d'utiliser Augmented DiD ou d'ajouter des interactions de tendance temporelle (interactions with time trends) pour contrôler les tendances différentielles. On peut également utiliser le modèle Change-in-Changes, qui est moins sensible à la violation du parallélisme, mais nécessite la monotonie de la distribution des résultats.

Comment prendre en compte les effets de spillover spatiaux (spillover effects), lorsque l'implémentation de la livraison précise dans un quartier influence le comportement des utilisateurs dans des quartiers voisins sans la fonction ?

Les analystes ignorent souvent que les utilisateurs peuvent migrer entre les quartiers ou modifier leurs préférences en apprenant l'existence de la fonction de la part d'amis. Cela crée un biais positif dans le groupe de contrôle (violation de SUTVA). Pour le diagnostic, il est nécessaire de construire un Spatial DiD, incluant dans le modèle des lags spatiaux (spatial lags) de concentration des restaurants connectés dans un rayon de 1 à 2 km de chaque point. Si le coefficient du lag spatial est significatif, des effets de réseau existent. Dans ce cas, l'estimation classique de DiD donne une sous-estimation de l'effet (attenuation bias), et il est nécessaire d'utiliser des Moins Carrés à Deux Étapes (2SLS) avec des instruments au niveau des restrictions administratives (par exemple, la préparation technique d'un entrepôt spécifique pour le tri par créneaux horaires), qui influencent la connexion du restaurant, mais ne corrèlent pas directement avec la demande dans les quartiers voisins.

Pourquoi ne pas utiliser un simple Propensity Score Matching sans un DiD ultérieur, et quelles erreurs surviennent lors de l'évaluation de l'effet à long terme (dynamic treatment effects) ?

Les spécialistes débutants appliquent souvent le PSM comme méthode autonome, obtenant des groupes comparables au moment t0, mais comparent ensuite simplement leurs moyennes au t1. Cela ignore la structure temporelle des données et les chocs potentiels dans le temps. L'approche correcte est PSM-DiD, où le matching est utilisé uniquement pour choisir le groupe de contrôle, et l'évaluation de l'effet se fait par la différence des différences. De plus, les candidats oublient le problème des effets dynamiques : l'effet de la livraison précise peut s'accumuler dans le temps (les utilisateurs s'habituent à la fonction) ou, au contraire, disparaître (effet de nouveauté). Pour cela, il est nécessaire de construire un staggered DiD avec plusieurs périodes d'implémentation et d'utiliser des ajustements modernes pour éliminer le biais qui survient avec des effets hétérogènes au fil du temps (par exemple, la méthode Callaway & Sant'Anna ou Sun & Abraham pour une agrégation correcte des effets de cohortes), car le standard à deux périodes DiD donnerait dans ce cas une estimation biaisée de l'effet moyen sur les traités (ATT).