Antwoord op de vraag
Historisch gezien is de evaluatie van de implementatie van frictieve beveiligingsmaatregelen, zoals 2FA, geëvolueerd van naïeve 'voor/na'-vergelijkingen naar het gebruik van quasi-experimentele methoden. Wanneer klassieke A/B-testen niet mogelijk zijn vanwege technische beperkingen van de authenticatiearchitectuur of ethische overwegingen op het gebied van veiligheid, wenden analisten zich tot verschillen-in-verschillen (DiD) methoden, die het mogelijk maken om het effect van de interventie van tijdelijke trends te scheiden. De belangrijkste moeilijkheid ligt in het feit dat gebruikers die bereid zijn extra frictie door 2FA te accepteren, systematisch verschillen van anderen door een hoge motivatie of paranoia, wat endogene zelfselectie creëert en eenvoudige correlatie-evaluaties vertekent.
De probleemstelling vereist isolatie van het werkelijke effect van gedwongen authenticatie van confounders: seizoensgebonden pieken in activiteit (bijvoorbeeld rond de feestdagen), natuurlijke degradatie van de retentie van nieuwe cohorten en verschillen in de basiskenmerken van gebruikers die beveiligingsmaatregelen nemen. Zonder een correcte identificatiestrategie kan het bedrijf ten onrechte een natuurlijke seizoensdaling in activiteit beschouwen als een negatief effect van 2FA, of omgekeerd, het effect van zelfselectie beschouwen als een succes van de functie, wat kan leiden tot onterecht uitbreiden van frictieve maatregelen naar de gehele doelgroep.
Een gedetailleerde oplossing omvat het gebruik van Staggered Difference-in-Differences (DiD) met een cohort-georiënteerde benadering, waarbij verschillende groepen gebruikers (cohorten) op verschillende tijdstippen verplicht 2FA krijgen. Voor elke cohort fungeert de controlegroep als gebruikers die zich direct vóór de invoering van de maatregel hebben geregistreerd (de regressie-grens) of die nog niet zijn onderworpen aan de interventiegroep. Om zelfselectie te corrigeren, wordt Inverse Probability Weighting (IPW) toegepast: op basis van eerder gedrag (geschiedenis van biometrisch gebruik, frequentie van wachtwoordverandering) worden gewichten voor observaties opgebouwd om de kenmerken van de groepen te balanceren. Seizoensgebondenheid wordt aangepakt via vaste tijdseffecten (wekelijks of maandelijks dummyvariabelen). Robuuste verificatie wordt uitgevoerd met behulp van de Synthetic Control Method (synthetische controle, die niet-behandelde cohorten weegt om de trend van de behandelde groep te imiteren) en Event Study (om de effectdynamiek voor en na de invoering te visualiseren en de aanname van parallelle trends te testen).
Praktijkvoorbeeld
In een mobiele bank werd besloten om verplichte 2FA via SMS en TOTP-apps voor alle inlogpogingen in te voeren, waarbij optionele implementatie werd opgegeven vanwege toenemende fraude. De rollout werd georganiseerd per registratie-datum cohort: gebruikers die zich vóór 1 maart hebben geregistreerd, bleven onveranderd (controle), terwijl elke volgende week nieuwe registraties verplichte 2FA ontvingen (behandeling). Twee weken na de start toonden de statistieken een catastrofale daling van de 30-dagenretentie met 25% onder de 'behandelde' cohorten, wat paniek veroorzaakte in de productafdeling en voorstellen deed om de wijziging terug te draaien.
De eerste overwogen optie was een eenvoudige vergelijking van de retentiegraad van gebruikers met 2FA en zonder in dezelfde periode van observatie. Voordelen van deze benadering zijn de onmiddellijke berekenbaarheid en duidelijkheid; nadelen zijn de fatale methodologische fout: gebruikers die vrijwillig 2FA inschakelden vóór de verplichte invoering, waren hyperactief of paranoia, en hun natuurlijke retentie was 40% hoger, wat deze vergelijking onjuist maakte.
De tweede optie was het analyseren van cohortretentiegemiddelden (Cohort Retention Curves) zonder tijdscontrole, simpelweg visuele vergelijking van de curves van 'maart'- en 'februari'-gebruikers. Voordelen — erkenning van verschillende levenscyclusstartpunten; nadelen — negeren van seizoensgebondenheid (maart — periode van belastingbetalingen met een piekactiviteit, waarna natuurlijk een daling volgt) en het onvermogen om het effect van de algemene trend van dalende kwaliteit van verkeer uit nieuwe advertentiekanalen die in maart zijn gelanceerd te scheiden.
De derde optie was het toepassen van Staggered DiD met het gebruik van de Callaway-Sant'Anna methode om groeptijdseffecten (Group-Time ATT) te beoordelen en neiging matching (Propensity Score Matching) binnen elke cohort. Voordelen — correcte behandeling van verschillende verwerkingstijden, uitsluiting van het gebruik van 'al behandelde' als controle voor 'pas behandelde', controle van seizoensgebondenheid via vaste effecten; nadelen — complexiteit van interpretatie, noodzaak tot testen van parallelle trends en gevoeligheid voor uitschieters in kleine cohorten.
De keuze viel op de derde oplossing, aangezien de eerste twee ofwel te optimistische (zelfselectie) ofwel catastrofaal pessimistische (seizoensgebondenheid) scenario's toonden. De analyse toonde aan dat het werkelijke causaal effect op de 30-dagenretentie -8% was (en niet -25%), gecompenseerd door een stijging van +20% in de gemiddelde transactie door verhoogd vertrouwen in veilige rekeningen. Het uiteindelijke resultaat — het productteam hield de verplichte 2FA in stand, maar voegde een optie 'Vertrouwd apparaat voor 30 dagen' toe, waardoor frictie werd verminderd en de retentie weer naar het basisniveau keerde na 60 dagen, terwijl tegelijkertijd het aantal frauduleuze transacties met 60% werd verlaagd.
Wat kandidaten vaak vergeten
Waarom kan de standaard two-way fixed effects (TWFE) schatter in lineaire regressie met vaste effecten voor gebruiker en tijd bevooroordeelde of zelfs tegengestelde schattingen geven in een gefaseerd (staggered) ontwerp voor de implementatie van 2FA, en welke moderne schatter moet in plaats daarvan worden gebruikt?
In de standaard TWFE benadering worden gebruikers die al in een vroege cohort zijn behandeld (2FA), automatisch gebruikt als controlegroep voor gebruikers uit latere cohorten die nog niet zijn behandeld. Als het effect van 2FA in de loop van de tijd verandert (bijvoorbeeld, gebruikers passen zich aan en frictie vermindert) of varieert tussen cohorten (vroege adopters versus late), zijn eerder behandelde eenheden een 'slechte' tegenfeit, wat leidt tot het probleem van 'negatieve gewichten' (negative weights) en scheefheid in schattingen. In plaats van TWFE moet de Callaway-Sant'Anna schatter worden toegepast, die het gemiddelde effect van de behandeling (ATT) afzonderlijk voor elke groep en tijd berekent, waarbij alleen nooit-behandelde of nog-niet-behandelde eenheden als controle worden gebruikt, waardoor al behandelde eenheden uit de controlegroep worden uitgesloten, wat zorgt voor een correcte identificatie. Voor de beginnende specialist: stel je voor dat je het effect van een nieuwe regel voor een klas vergelijkt die deze in september heeft gekregen, met als controle klas die de regel in oktober kreeg. Als de eerste klas tegen oktober al gewend is, terwijl de tweede dit nog niet heeft ervaren, krijg je een vertekend beeld — moderne methoden vergelijken alleen met degenen die de regel überhaupt niet hebben ontvangen.
Hoe moet de situatie van 'contaminatie' of 'lekkage' van de behandeling correct worden afgehandeld, wanneer gebruikers die onder de verplichte 2FA op mobiele apparaten vallen, beginnen de webversie van de applicatie (waar 2FA nog niet is geïmplementeerd) actief te gebruiken om beperkingen te omzeilen, en waarom veroorzaakt het eenvoudigweg uitsluiten van dergelijke gebruikers uit de steekproef vertekening?
Simpelweg 'overspringers' uitsluiten creëert afkapvertekening (truncation bias) of selectievertekening, aangezien de resterende gebruikers in de steekproef degenen zijn die ofwel minder gemotiveerd zijn om frictie te vermijden, of minder technisch onderlegd zijn, wat de schatting van het effect op de doelgroep vertekent. De correcte benadering is het analyseren van Intent-to-Treat (ITT), waarbij alle gebruikers binnen de groep worden geanalyseerd waar ze oorspronkelijk aan zijn toegewezen (de mobiele applicatie met 2FA), ongeacht hun feitelijke gedrag (overstappen naar het web). Voor het beoordelen van het effect van het mechanisme zelf (Treatment-on-Treated, TOT) wordt de Two-Stage Least Squares (2SLS) methode gebruikt, waarbij het daadwerkelijke gebruik van 2FA wordt geïnstrumenteerd door de toewijzing aan de invoeringscohort, wat de schatting schoonmaakt van 'niet-naleving' (non-compliance). Voor de beginnende specialist: dit is vergelijkbaar met een klinische proef waar patiënten uit de medicijngroep stoppen met het nemen van de medicatie. Als je hen uitsluit, verlies je de informatie dat het medicijn een bepaald type patiënt 'afschrikt' en je overschat de effectiviteit. ITT analyseert 'toewijzing', niet 'werkelijke inname', waardoor randomisatie wordt behouden.
Hoe kunnen we het netto-effect van frictie (de noodzaak om een code in te voeren) onderscheiden van het effect van 'signalering' of 'signposting' (de verhoogde veiligheidsperceptie die voortkomt uit het feit dat er 2FA is), en waarom is het belangrijk om een mediationanalyse uit te voeren bij het beoordelen van de impact op monetisatie?
Het belang van het scheiden van deze effecten ligt in het feit dat ze tegengestelde richtingen van invloed hebben op gedrag: frictie verlaagt de conversie en frequentie van inloggen, terwijl de veiligheidswaarneming de bereidheid verhoogt om grote transacties uit te voeren en vertrouwen in het platform bevordert. Voor het scheiden van deze effecten wordt Causal Mediation Analysis gebruikt (bijvoorbeeld de Imai-Keele-Tingley benadering), waarbij het totale effect (Total Effect) wordt gedecodeerd in het directe effect (frictie) en het indirecte via veiligheidsperceptie (mediator). Alternatief kan een placebo-groep worden gemaakt die een banner over 'verhoogde veiligheid' en een icon voor 2FA krijgt, maar zonder feitelijke vereiste voor invoer van de code; vergelijking [Volledige 2FA] versus [Banner zonder 2FA] versus [Controle] maakt het mogelijk om de componenten te isoleren. Als de stijging van de gemiddelde transactie ook in de placebogroep wordt waargenomen, overheerst het signalereffect; als het alleen in de volledige groep voorkomt—het effect is toegeschreven aan de authentificatieprocedure zelf. Voor de beginnende specialist: stel je voor dat er een beveiligingsagent bij de deur van een restaurant is geplaatst. Mensen kunnen meer uitgeven, omdat ze zich veilig voelen (signaal), maar sommigen kunnen besluiten niet binnen te gaan, omdat ze de inspectie niet willen ondergaan (frictie). Om te begrijpen of het de moeite waard is om de agent aan te houden, moeten deze effecten worden gescheiden; anders begrijp je niet of je een vriendelijker beveiligingsagent moet aannemen of dat het voldoende is om gewoon een bordje 'Beveiligd' op te hangen.