Réponse à la question

Contexte historique

Dans les produits fintech, la vérification de l'identité (KYC) est une exigence réglementaire qui crée une friction significative dans l'expérience utilisateur. Les méthodes traditionnelles d'évaluation de l'efficacité nécessitent un contrôle randomisé, ce qui est impossible pour des raisons juridiques et éthiques lors de l'implémentation massive. Historiquement, les analystes se sont fiés à des rapports de cohortes simples, ne tenant pas compte de l'endogénéité de l'auto-sélection et des chocs externes du marché.

Problématique

Il est nécessaire d'isoler l'effet pur de la réalisation de KYC de la perte naturelle d'utilisateurs, des fluctuations saisonnières de l'activité et des différences dans les caractéristiques de base entre ceux qui complètent la vérification le premier jour et ceux qui retardent la procédure. Le problème est compliqué par le fait que les adopters tardifs peuvent systématiquement différer en termes de motivation et de comportement financier, ce qui crée un biais de survie.

Solution détaillée

Appliquer une combinaison de Différences-en-Différences (DiD) avec Appariement par Score de Propension (PSM) pour construire un groupe de contrôle comparable constitué d'utilisateurs ayant retardé leur vérification. Utiliser la Méthode de Contrôle Synthétique comme vérification de robustesse, en créant une combinaison pondérée de segments non touchés (par exemple, des utilisateurs venant de régions où l'exigence réglementaire a été retardée). Pour tenir compte de la saisonnalité, inclure des effets fixes temporels (effets fixes par mois de l'année) et appliquer un Design d'Étude Événementielle avec un temps relatif pour vérifier l'hypothèse des tendances parallèles.

Situation dans la vie réelle

L'entreprise a lancé un contrôle d'identité à deux facteurs obligatoire avec des documents pour tous les utilisateurs de plus de 18 ans en mars, coïncidant avec la saison fiscale. L'entreprise a remarqué une baisse de l'activité, mais n'a pas pu isoler l'effet de KYC de la baisse saisonnière et de l'envoi massif de notifications push par des concurrents. Les analystes devaient évaluer l'impact net sur la fidélisation à 30 jours et le ARPU après 60 jours suivant l'implémentation.

Option 1 : Analyse simple des métriques avant et après (Analyse Pre-Post)

Les analystes calculent la fidélisation moyenne pour le mois précédant KYC et la comparent aux données suivantes. Les avantages de cette approche résident dans sa simplicité maximale et la rapidité d'obtention de la réponse sans nécessiter de modèles complexes. Les inconvénients incluent l'ignorance de la saisonnalité (mars vs avril), des activités concurrentielles extérieures et des tendances naturelles de croissance ou de déclin de la base, ce qui peut entraîner un biais d'estimation pouvant atteindre 40%.

Option 2 : DiD naïf en utilisant des jeunes utilisateurs (16-17 ans) comme contrôle

L'équipe propose de comparer les changements dans le groupe cible (18+) avec les changements dans le groupe non soumis à KYC. Les avantages comprennent la prise en compte des tendances de marché générales et de la saisonnalité. Les inconvénients sont critiques : les adolescents et les adultes ont des comportements financiers fondamentalement différents, violant l'hypothèse des tendances parallèles, de plus, différentes cohortes sont soumises à divers effets de cycle de vie.

Option 3 : Contrôle synthétique avec délais temporels

Un groupe de contrôle artificiel est créé comme combinaison pondérée d'utilisateurs provenant de régions pilotes où KYC n'est pas encore en vigueur, en sélectionnant des poids basés sur les six mois d'activité précédents. Les avantages incluent la minimisation de la dépendance à un unique groupe de contrôle et la prise en compte automatique des modèles saisonniers via un long historique. Les inconvénients comprennent de fortes exigences en matière de volume de données, la complexité d'interprétation des poids et la sensibilité aux valeurs aberrantes dans les périodes historiques.

Solution choisie et justification

Un approche hybride a été choisie : PSM-DiD utilisant les utilisateurs qui, pour des raisons techniques, ont reporté KYC de 2 à 3 semaines comme groupe de contrôle, plus Contrôle Synthétique pour la validation. Cette solution a permis de balancer les caractéristiques observables (âge, appareil, activité historique) via PSM, tandis que DiD a capté les effets temporels. Le contrôle synthétique a confirmé que les résultats ne sont pas sensibles au choix d'un groupe de contrôle spécifique.

Résultat final

L'analyse a montré que KYC réduit la fidélisation à 7 jours de 18% au cours de la première semaine, mais augmente le panier moyen de 22% grâce à l'exclusion des transactions frauduleuses. L'effet net sur le LTV à 90 jours s'est avéré neutre (-2%, pas statistiquement significatif). Sur la base de ces données, l'équipe produit a divisé le processus de vérification en trois micro-étapes, réduisant la friction de 35% sans sacrifier l'efficacité anti-fraude.

Ce que les candidats oublient souvent

Comment traiter correctement la censure à droite (right censoring) des données lors de l'analyse de l'effet à long terme de KYC, si la fenêtre d'observation est limitée et que les cohortes passent la vérification de manière asynchrone ?

Les candidats ignorent souvent que les utilisateurs ayant passé KYC plus tard ont moins de temps pour manifester un comportement pendant la fenêtre d'observation, ce qui crée un biais. Il est nécessaire d'appliquer des méthodes d'analyse de survie, telles que modèle de risques proportionnels de Cox ou estimateur de Kaplan-Meier, qui prennent en compte les observations censurées. Alternativement, pour des métriques comme LTV, on peut utiliser régression Tobit ou modèles de données censurées. Il est également important d'appliquer un design d'adoption échelonnée dans DiD avec un traitement correct des "cohortes pures" (clean controls), car le DiD standard en deux périodes donnera des estimations biaisées lors d'une implémentation par étapes.

Pourquoi la méthode standard des scores de propension (PSM) peut donner des estimations biaisées dans le contexte de la vérification obligatoire et quelles modifications sont nécessaires pour tenir compte de la dynamique temporelle ?

Le PSM standard ignore la dépendance temporelle et les confounders cachés, tels que la motivation des utilisateurs ou le volume de transactions attendu. Dans le contexte de KYC, il est crucial d'utiliser Appariement par Scores de Propension Dépendants du Temps, où les scores sont calculés pour chaque période séparément, ou pondération d'inversion de la probabilité de traitement (IPTW) avec des covariables variant dans le temps. Il est également nécessaire de vérifier la condition de support global, afin d'éviter l'extrapolation au-delà des données observées, et d'utiliser Appariement Exact Biaisé (CEM) pour améliorer la robustesse en cas de petite taille d'échantillon.

Comment distinguer l'effet réel de la réalisation de KYC de l'effet d'anticipation (anticipation effect) et vérifier le respect de l'hypothèse des tendances parallèles ?

Pour séparer les effets, il est nécessaire d'appliquer un design d'étude événementielle avec des variables muettes sur le temps relatif avant et après l'événement. Si les coefficients des variables anticipatrices (périodes avant KYC) diffèrent statistiquement de zéro, cela indique un effet d'anticipation ou une violation des tendances parallèles. Pour vérifier la robustesse, il convient d'utiliser tests placebo en décalant la date d'implémentation vers des périodes plus anciennes ou tests de falsification sur des variables de résultat qui n'auraient pas dû changer. En cas de violation des tendances, on peut appliquer Différences-en-Différences Synthétiques (SDiD), qui corrige les divergences de tendances via un réajustement.