Réponse à la question

Historiquement, l'évaluation de l'implémentation de mesures de sécurité fractales, telles que 2FA, a évolué des comparaisons naïves « avant/après » vers l'utilisation de méthodes quasi-expérimentales. Lorsque le test classique A/B est impossible à cause de contraintes techniques liées à l'architecture d'authentification ou de considérations éthiques en matière de sécurité, les analystes se tournent vers des méthodes d'évaluation par différences (Difference-in-Differences, DiD), qui permettent de séparer l'effet de l'intervention des tendances temporelles. La principale difficulté réside dans le fait que les utilisateurs prêts à accepter un frottement supplémentaire en raison de 2FA se distinguent systématiquement des autres par une motivation élevée ou une paranoïa, ce qui crée une endogénéité d'auto-sélection et fausse les simples évaluations corrélationnelles.

Le problème posé nécessite d'isoler l'effet réel de l'authentification contraignante des facteurs de confusion : les pics d'activité saisonniers (comme les soldes d'avant les fêtes), la dégradation naturelle de la rétention des nouvelles cohortes et les différences dans les caractéristiques de base des utilisateurs adoptant des mesures de sécurité. Sans une stratégie correcte d'identification, l'entreprise peut à tort interpréter une baisse saisonnière naturelle de l'activité comme un effet négatif de 2FA, ou à l'inverse, prendre l'effet d'auto-sélection pour une réussite de la fonctionnalité, ce qui conduirait à une expansion injustifiée des mesures fractales à l'ensemble du public.

La solution détaillée implique l'application de Staggered Difference-in-Differences (DiD) avec une approche orientée cohorte, où différents groupes d'utilisateurs (cohortes) reçoivent l'obligation de 2FA à différents moments. Pour chaque cohorte, le groupe de contrôle se compose des utilisateurs inscrits juste avant l'introduction de la mesure (la frontière de rupture régressive), ou des cohortes qui n'ont pas encore été soumises à l'intervention. Pour ajuster l'auto-sélection, on utilise le Inverse Probability Weighting (IPW) : basé sur le comportement antérieur (historique d'utilisation de la biométrie, fréquence de changement de mots de passe), des poids d'observation sont construits pour équilibrer les caractéristiques des groupes. La prise en compte de la saisonnalité se fait par des effets fixes dans le temps (variables factices hebdomadaires ou mensuelles). En tant que contrôles robustes, on utilise la Synthetic Control Method (contrôle synthétique, pondérant des cohortes non traitées pour simuler la tendance des traitées) et l'Event Study (pour visualiser la dynamique de l'effet avant et après l'implémentation et vérifier l'hypothèse des tendances parallèles).

Situation réelle

Dans une banque mobile, il a été décidé d'implémenter l'obligation de 2FA via SMS et applications TOTP pour toutes les connexions, abandonnant l'optionnalité en raison d'une augmentation de la fraude. Le déploiement a été organisé par cohortes de date d'inscription : les utilisateurs inscrits avant le 1er mars sont restés inchangés (contrôle), et chaque semaine suivante de nouvelles inscriptions a reçu l'obligation de 2FA (traitement). Deux semaines après le lancement, les métriques ont montré une chute catastrophique de la rétention à 30 jours de 25 % parmi les cohortes « traitées », ce qui a provoqué une panique au sein de l'équipe produit et des suggestions de revenir en arrière.

La première option examinée a été la simple comparaison du taux de rétention des utilisateurs avec 2FA et sans pendant une période d'observation identique. Les avantages de cette approche résident dans sa calculabilité immédiate et sa visibilité ; les inconvénients résident dans une erreur méthodologique fatale : les utilisateurs ayant volontairement activé 2FA avant l'implémentation obligatoire étaient hyper-actifs ou paranoïaques, et leur rétention naturelle était supérieure de 40 %, rendant cette comparaison incorrecte.

La deuxième option a été l'analyse des courbes de rétention de cohortes (Cohort Retention Curves) sans contrôle dans le temps, simplement une comparaison visuelle des courbes des utilisateurs de mars et de février. Les avantages incluent la prise en compte des différents points de départ du cycle de vie ; les inconvénients incluent l'ignorance de la saisonnalité (mars étant la période de paiements d'impôts avec un pic d'activité, suivi d'une chute naturelle) et l'incapacité de séparer l'effet de la baisse générale de la qualité du trafic provenant de nouveaux canaux publicitaires lancés en mars.

La troisième option a été l'utilisation de Staggered DiD avec la méthode Callaway-Sant'Anna pour évaluer les effets groupés-temporels (Group-Time ATT) et le coupling par propension (Propensity Score Matching) au sein de chaque cohorte. Les avantages incluent un traitement correct avec différents temps de traitement, l'exclusion d'utilisateurs « déjà traités » comme contrôle pour « uniquement récemment traités », contrôle de la saisonnalité via des effets fixes ; les inconvénients incluent la complexité d'interprétation, la nécessité de vérifier les tendances parallèles et la sensibilité aux valeurs aberrantes dans les petites cohortes.

La troisième solution a été choisie, car les deux premières ont montré soit des scénarios excessivement optimistes (auto-sélection), soit catastrophiquement pessimistes (saisonalité). L'analyse a montré que l'effet causal véritable sur la rétention à 30 jours était de -8 % (et non -25 %), compensé par une augmentation de +20 % du montant moyen des transactions en raison d'une confiance accrue dans les comptes sécurisés. Le résultat final — l'équipe produit a maintenu l'obligation de 2FA, mais a ajouté l'option « Appareil de confiance pendant 30 jours », réduisant ainsi le frottement et ramenant la rétention aux niveaux de base après 60 jours, tout en maintenant une baisse de 60 % des activités frauduleuses.

Ce que les candidats oublient souvent

Pourquoi l'estimateur standard à effets fixes à double sens (TWFE) dans une régression linéaire avec des effets fixes pour l'utilisateur et le temps peut donner des estimations biaisées ou même de signe opposé dans un design d'implémentation 2FA en plusieurs étapes, et quel estimateur moderne devrait-on utiliser à sa place ?

Dans l'approche standard TWFE, les utilisateurs déjà traités (2FA) dans une première cohorte sont automatiquement utilisés comme groupe de contrôle pour les utilisateurs des cohortes plus tardives qui n'ont pas encore reçu le traitement. Si l'effet de 2FA change dans le temps (par exemple, les utilisateurs s'adaptent et le frottement diminue) ou varie entre les cohortes (early adopters vs late), les unités précédemment traitées deviennent un « mauvais » contrefactuel, ce qui entraîne le problème des « poids négatifs » (negative weights) et un biais dans les estimations. Au lieu de TWFE, il convient d'utiliser l'estimateur Callaway-Sant'Anna, qui calcule l'effet moyen du traitement (ATT) séparément pour chaque groupe et temps, en utilisant comme contrôle uniquement les unités non traitées ou pas encore traitées, exclus des unités traitées, garantissant ainsi une identification correcte. Pour un spécialiste débutant : imaginez que vous comparez l'effet d'une nouvelle règle pour une classe qui l'a reçue en septembre, en utilisant comme contrôle une classe qui a reçu la règle en octobre. Si, en octobre, la première classe s'est déjà habituée et que la seconde subit encore le choc, vous obtiendrez une image biaisée — les méthodes modernes comparent uniquement ceux qui n'ont pas du tout reçu la règle.

Comment gérer correctement une situation de « contamination » ou de « fuite » de traitement, lorsque les utilisateurs soumis à l'obligation de 2FA sur mobile commencent à utiliser activement la version web de l'application (où la 2FA n'est pas encore mise en œuvre) pour contourner les restrictions, et pourquoi l'exclusion simple de ces utilisateurs de l'échantillon crée un biais ?

L'exclusion simple des « transfuges » crée un biais de troncature (truncation bias) ou un biais de sélection, car les utilisateurs restant dans l'échantillon sont ceux qui sont soit moins motivés à éviter le frottement, soit moins techniquement compétents, ce qui fausse l'estimation de l'effet sur la population cible. L'approche correcte consiste à analyser l'intention de traiter (ITT), où tous les utilisateurs sont analysés dans le groupe auquel ils ont été initialement assignés (application mobile avec 2FA), indépendamment du comportement réel (transition vers le web). Pour évaluer l'effet précisément du mécanisme lui-même (Treatment-on-Treated, TOT), on utilise la méthode Two-Stage Least Squares (2SLS), où l'utilisation réelle de 2FA est instrumentée par l'appartenance à la cohorte d'implémentation, permettant de nettoyer l'estimation de la « non-conformité » (non-compliance). Pour un spécialiste débutant : c'est similaire à un essai clinique, où des patients du groupe médicament cessent de le prendre. Si vous les excluez, vous perdez des informations sur le fait que le médicament « repousse » un certain type de patients et vous surestimez l'efficacité. L'ITT analyse « l'assignation », et non « la prise effective », préservant la randomisation.

Comment distinguer l'effet pur du frottement (nécessité d'entrer un code) de l'effet de « signalisation » (sensation de sécurité accrue créée par le simple fait de disposer de 2FA), et pourquoi est-il important de mener une analyse de médiation lors de l'évaluation de l'impact sur la monétisation ?

L'importance de la séparation réside dans le fait que ces effets ont des directions d'influence opposées sur le comportement : le frottement réduit la conversion et la fréquence des connexions, tandis que le signal de sécurité augmente la propension à effectuer des transactions importantes et la confiance dans la plateforme. Pour les séparer, on utilise l'analyse de médiation causale (par exemple, l'approche Imai-Keele-Tingley), où l'effet global (Total Effect) est décomposé en direct (frotnement) et indirect à travers la perception de sécurité (médiateur). Alternativement, un groupe placebo est créé, recevant une bannière sur la « sécurité accrue » et une icône 2FA, mais sans exigence réelle d'entrée du code ; la comparaison [Complète 2FA] vs [Bannière sans 2FA] vs [Contrôle] permet d'isoler les composants. Si la hausse du montant moyen observé se produit également dans le groupe placebo, l'effet dominant est signal ; si elle se produit uniquement dans le groupe complet, l'effet est dû au processus même d'authentification. Pour un spécialiste débutant : imaginez qu'un agent de sécurité soit présent à la porte d'un restaurant. Les gens peuvent dépenser davantage en se sentant en sécurité (signal), mais certains peuvent choisir de ne pas entrer, ne souhaitant pas subir une fouille (frotnement). Pour comprendre si l'agent de sécurité doit être maintenu, il est nécessaire de séparer ces effets, sinon vous ne comprendrez pas si vous devez embaucher un agent plus amical ou si une simple affiche « Sécurisé » suffira.