Analyse systèmeAnalyste de Produit

Quelle méthode permettra d'évaluer quantitativement l'effet causal de l'introduction du service « Paiement différé » (Buy Now Pay Later) sur le montant moyen du panier et la fréquence des retours de produits dans le e-commerce, si l'accès à la fonction est déterminé par un scoring de crédit avec un seuil d'approbation strict, excluant la possibilité d'un test A/B classique, et si le comportement des utilisateurs dépend fortement des pics saisonniers de consommation ?

Réussissez les entretiens avec l'assistant IA Hintsage

Réponse à la question

Contexte historique. Au cours des dernières années, BNPL (Buy Now Pay Later) est devenu la norme des intégrations fintech dans le retail, permettant aux utilisateurs de fractionner les paiements sans intérêts. Les analystes sont confrontés à un problème fondamental : il est impossible de mener une expérience randomisée, car le refus de l'approbation de crédit pour des raisons éthiques et juridiques est impossible, et les utilisateurs se sélectionnent en fonction de leur solvabilité. Cela crée une endogénéité classique, où la corrélation observée entre l'utilisation de BNPL et un panier élevé est due à des caractéristiques préexistantes des clients solvables, et non au produit lui-même.

Énoncé du problème. Les principaux défis comprennent une rupture nette dans les caractéristiques à la frontière du seuil d'approbation (par exemple, 700 points), la saisonnalité (Black Friday, période de fin d'année), la cannibalisation des ventes futures (substitution intertemporelle) et l'augmentation des retours en raison d'achats impulsifs. Il est nécessaire d'isoler l'effet incrémental pur (LATE - Local Average Treatment Effect) pour les utilisateurs à la « frontière » de l'approbation, tout en minimisant l'impact des confounders.

Solution détaillée. L'approche optimale est Sharp Regression Discontinuity Design (RDD) au seuil du score avec une bande passante (bandwidth) de ±30-50 points. La méthodologie repose sur l'hypothèse de randomité locale : les utilisateurs avec 695 et 705 points ne sont statistiquement pas différents en termes de caractéristiques observables et non observables, mais sont répartis dans différents groupes (contrôle et traitement). De plus, une Difference-in-Differences (DiD) est appliquée pour suivre la dynamique avant et après l'introduction dans cette bande, ce qui contrôle la saisonnalité. Pour évaluer la cannibalisation, une Event Study avec des lags (dépenses à t-3, t-2 mois avant l'utilisation de BNPL) est utilisée. Si un instrument est disponible (seuil d'approbation), mais qu'il y a un non-respect (approuvés mais n'ayant pas utilisé BNPL), un Fuzzy RDD via Two-Stage Least Squares (2SLS) est appliqué. Il est important de vérifier l'équilibre des covariables (Covariate Balance Tests) et la densité de distribution (McCrary test) pour valider le design.

Situation de la vie réelle

Un marketplace d'électronique a intégré BNPL d'une banque partenaire avec un seuil d'approbation strict de 650 points selon une échelle interne. L'entreprise a constaté une augmentation de 35 % du panier moyen chez les utilisateurs de BNPL, mais soupçonnait que cela était dû à l'autosélection de clients plus fortunés. Il était nécessaire de prendre une décision sur l'augmentation du plafond de crédit, mais une évaluation de l'effet causal véritable était requise.

Option 1 : Simple comparaison « utilisateurs de BNPL » vs « non utilisateurs » sans prendre en compte le seuil. Avantages : mise en œuvre très simple dans SQL, ne nécessite pas de statistiques complexes. Inconvénients : biais de sélection critique — les utilisateurs approuvés ont des revenus et un historique d'achats plus élevés, ce qui donne une estimation surestimée de l'effet jusqu'à +40 %, non liée au produit. Le résultat n'est pas adapté à la prise de décision.

Option 2 : Analyse Before-After pour l'ensemble de l'audience sans distinction de groupes. Avantages : prend en compte les tendances générales de croissance de la plateforme et est facile à interpréter. Inconvénients : impossible de séparer l'effet de BNPL du pic saisonnier (ventes de fin d'année) et des campagnes marketing simultanées. L'évaluation s'avère biaisée en raison des chocs de demande temporaires.

Option 3 : Regression Discontinuity Design (RDD) au seuil de 650 points avec une bande de ±40 points. Avantages : utilise une rupture nette dans la probabilité d'approbation comme expérience naturelle, évaluant l'effet pour les utilisateurs « marginaux » qui « ont à peine » franchi ou non le seuil. Contrôle les caractéristiques non mesurables dans le voisinage local. Inconvénients : n'évalue que l'effet local (LATE), qui ne peut pas être généralisé sans réserve à tous les utilisateurs avec un bon scoring ; nécessite un grand échantillon dans le voisinage du seuil pour une puissance statistique.

Solution choisie : combinaison de Sharp RDD pour les utilisateurs dans la bande de 610-690 points avec Propensity Score Matching selon les dépenses historiques et les catégories d'achats, complétée par Difference-in-Differences pour suivre la dynamique sur 90 jours après l'achat. Pour contrôler la saisonnalité, des effets fixes par semaine (Week Fixed Effects) ont été introduits. Cela a permis d'isoler l'effet pur du produit des caractéristiques de l'emprunteur.

Résultat final : augmentation statistiquement significative du panier moyen de 17 % (ITT - Intent-to-Treat) pour les utilisateurs marginaux, mais augmentation du taux de retours de 11 % en raison d'achats impulsifs. L'effet s'est avéré hétérogène : élevé pour les électroniques (+24 %), nul pour les produits ménagers. Sur la base des données, le seuil d'approbation a été ajusté pour les catégories de produits à risque, réduisant le taux de retours de 4 % sans perte de revenus.

Ce que les candidats oublient souvent

Comment distinguer l'effet de « nouveauté » (novelty effect) d'un changement de comportement durable lors de l'utilisation de RDD ?

Il est nécessaire de mener un Dynamic RDD avec analyse de l'effet selon des intervalles de temps (cohort-level RDD). Nous évaluons l'effet séparément pour les semaines 1-2 (nouveauté) et les mois 3-6 (comportement durable). Si les coefficients diffèrent significativement (test par le Chow test), nous utilisons seulement la fenêtre à long terme ou introduisons une interaction temporelle avec le traitement. Il est également important de vérifier l'absence de tendance préliminaire parallèle (pre-trend parallel) — l'absence de rupture dans les résultats (dépenses) avant le moment de franchissement du seuil, ce qui confirmera la validité du design et l'absence d'effets d'anticipation.

Comment évaluer correctement la cannibalisation des ventes futures (substitution intertemporelle) lors de l'introduction de BNPL ?

Le RDD standard évalue seulement l'effet statique au moment de l'achat. Pour la cannibalisation, nous devons construire une Event Study avec des lags et des leads (leads/lags) relativement au moment de la première utilisation de BNPL. Nous analysons les dépenses pendant les périodes t-3, t-2, t-1 (avant) et t+1, t+2, t+3 (après) mois. Si la somme des coefficients sur les leads (périodes préalables) est négative et significative, cela témoigne d'un emprunt futur (l'utilisateur avait prévu l'achat et l'a accéléré grâce à BNPL). Nous utilisons Local Projections de la méthode Jordà pour des multiplicateurs dynamiques, ce qui permet d'évaluer l'effet incrémental pur sur une période prolongée.

Pourquoi dans ce cas ne peut-on pas utiliser un simple appariement par propension (Propensity Score Matching) sans RDD, et quelles hypothèses sont violées ?

PSM nécessite l'hypothèse de Unconfoundedness (Ignorability), ce qui est impossible en présence de caractéristiques non mesurables influençant l'approbation (par exemple, « discipline financière », sources de revenus informelles non intégrées dans le scoring). Ces variables latentes sont corrélées à la fois avec l'approbation et les dépenses, créant un biais. RDD atténue cette exigence à une randomisation locale autour du seuil (Local Randomization), où les caractéristiques non mesurables sont distribuées aléatoirement. Les candidats ignorent souvent la nécessité de tester la densité de distribution des scores (McCrary test) et l'équilibre des covariables (Covariate balance tests) dans le voisinage du seuil, ce qui est crucial pour la validité des conclusions.