Antwort auf die Frage

Historisch hat sich die Bewertung der Einführung von friktiven Sicherheitsmaßnahmen wie 2FA von naiven „Vor/Nach“-Vergleichen hin zu quasi-experimentellen Methoden entwickelt. Wenn klassisches A/B-Testing aufgrund technischer Einschränkungen der Authentifizierungsarchitektur oder ethischer Sicherheitsbedenken nicht möglich ist, greifen Analysten auf Differenz-in-Differenzen-Methoden (Difference-in-Differences, DiD) zurück, die es ermöglichen, den Effekt der Intervention von zeitlichen Trends zu trennen. Die Hauptschwierigkeit besteht darin, dass Nutzer, die bereit sind, zusätzliche Friktionen in Form von 2FA zu akzeptieren, sich systematisch von anderen durch hohe Motivation oder Paranoia unterscheiden, was die Endogenität der Selbstselektion schafft und einfache korrelative Schätzungen verzerrt.

Das Problem erfordert die Isolierung des wahren Effekts der Zwangsauthentifizierung von Störfaktoren: saisonalen Aktivitätsspitzen (z.B. vor Feiertagsverkäufen), natürlicher Abnahme der Bindung neuer Kohorten und Unterschieden in den Grundmerkmalen der Nutzer, die Sicherheitsmaßnahmen ergreifen. Ohne eine korrekte Identifizierungsstrategie kann es passieren, dass das Unternehmen einen natürlichen saisonalen Rückgang der Aktivität fälschlicherweise als negativen Effekt von 2FA interpretiert oder umgekehrt, den Effekt der Selbstselektion als Erfolg der Funktion annimmt, was zu einer unbegründeten Ausweitung friktiver Maßnahmen auf die gesamte Zielgruppe führt.

Die detaillierte Lösung sieht die Anwendung von Staggered Difference-in-Differences (DiD) mit einem kohortenorientierten Ansatz vor, bei dem verschiedene Nutzergruppen (Kohorten) zu unterschiedlichen Zeitpunkten die verpflichtende 2FA erhalten. Für jede Kohorte dient die Kontrollgruppe aus Nutzern, die sich direkt vor der Einführung der Maßnahme registriert haben (Regressionssprunggrenze), oder aus Kohorten, die noch nicht interveniert wurden. Zur Korrektur der Selbstselektion wird Inverse Probability Weighting (IPW) angewendet: basierend auf früherem Verhalten (Biometrieverwendung, Passwortwechselhäufigkeit) werden Gewichtungen für Beobachtungen erstellt, um die Merkmale der Gruppen auszugleichen. Die Berücksichtigung der Saisonalität erfolgt durch feste Zeiteffekte (wochenweise oder monatliche Dummy-Variablen). Als robuste Überprüfungen werden die Synthetic Control Method (synthetische Kontrolle, die unbehandelte Kohorten gewichtet, um den Trend der behandelten zu simulieren) und Event Study (zur Visualisierung der Dynamik des Effekts vor und nach der Einführung und zur Überprüfung der Annahme paralleler Trends) verwendet.

Lebenssituation

In der Mobilbank wurde beschlossen, die verpflichtende 2FA über SMS und TOTP-Apps für alle Logins einzuführen und die Wahlmöglichkeit aufgrund des Anstiegs von Betrug aufzugeben. Das Rollout wurde nach den Registrierungsdaten der Kohorten organisiert: Nutzer, die sich vor dem 1. März registriert hatten, blieben unverändert (Kontrolle), während jede folgende Woche neuer Registrierungen die verpflichtende 2FA erhielt (Behandlung). Zwei Wochen nach dem Start zeigten die Metriken einen katastrophalen Rückgang der 30-Tage-Bindung um 25% bei den „behandelten“ Kohorten, was Panik im Produktteam auslöste und Vorschläge zur Rücknahme der Änderung hervorbrachte.

Die erste betrachtete Option war ein einfacher Vergleich der Retentionsrate von Nutzern mit und ohne 2FA über denselben Beobachtungszeitraum. Die Vorteile des Ansatzes liegen in der sofortigen Berechenbarkeit und Anschaulichkeit; die Nachteile in einem fatalen methodologischen Fehler: Nutzer, die sich freiwillig für 2FA entschieden hatten, bevor es verpflichtend wurde, waren hyperaktiv oder paranoid, und ihre natürliche Bindung war um 40% höher, was diesen Vergleich unangemessen machte.

Die zweite Option war die Analyse der Kohortenretentionskurven (Cohort Retention Curves) ohne Kontrolle der Zeit, einfach ein visuelles Vergleichen der Kurven von „März“- und „Februar“-Nutzern. Vorteile — Berücksichtigung verschiedener Startpunkte im Lebenszyklus; Nachteile — Ignorieren der Saisonalität (März ist der Zeitraum der Steuerzahlungen mit einem Aktivitätshoch, gefolgt von einem natürlichen Rückgang) und die Unfähigkeit, den Effekt vom allgemeinen Trend der Abnahme der Qualität des Traffics aus neuen Werbekanälen, die im März gestartet wurden, zu trennen.

Die dritte Option ist die Anwendung von Staggered DiD unter Verwendung der Callaway-Sant'Anna-Methode zur Bewertung der Gruppen-Zeit-Effekte (Group-Time ATT) und Neupassung nach Neigung (Propensity Score Matching) innerhalb jeder Kohorte. Vorteile — korrekte Handhabung unterschiedlicher Behandlungszeiten, Ausschluss von „bereits behandelten“ als Kontrolle für „gerade behandelte“, Kontrolle der Saisonalität durch feste Effekte; Nachteile — Komplexität der Interpretation, Notwendigkeit der Überprüfung paralleler Trends und Empfindlichkeit gegenüber Ausreißern in kleinen Kohorten.

Die dritte Lösung wurde gewählt, da die ersten beiden entweder übermäßig optimistische (Selbstselektion) oder katastrophal pessimistische (Saisonalität) Szenarien zeigten. Die Analyse ergab, dass der wahre kausale Effekt auf die 30-Tage-Bindung bei -8% (statt -25%) lag, kompensiert durch einen Anstieg des durchschnittlichen Bestellwerts um +20% aufgrund des erhöhten Vertrauens in sichere Konten. Das endgültige Ergebnis — das Produktteam behielt die verpflichtende 2FA bei, fügte jedoch die Option „Vertrautes Gerät für 30 Tage“ hinzu, was die Friktion verringerte und die Bindung innerhalb von 60 Tagen auf das Basisniveau zurückbrachte, während gleichzeitig die betrügerischen Transaktionen um 60% reduziert wurden.

Was Kandidaten oft übersehen

Warum kann der standardmäßige Two-Way Fixed Effects (TWFE)-Schätzer in der linearen Regression mit fixen Effekten für Nutzer und Zeit verzerrte oder sogar entgegengesetzte Schätzungen in einem differenzierten (staggered) Design der Einführung von 2FA liefern, und welcher moderne Schätzer sollte stattdessen verwendet werden?

Im standardmäßigen TWFE-Ansatz werden Nutzer, die bereits in einer frühen Kohorte behandelt wurden (2FA), automatisch als Kontrollgruppe für Nutzer aus späteren Kohorten verwendet, die die Behandlung noch nicht erhalten haben. Wenn der Effekt von 2FA im Laufe der Zeit variiert (z.B. wenn sich die Nutzer anpassen und die Friktion abnimmt) oder zwischen Kohorten variiert (frühe Adopter vs. späte), sind zuvor behandelte Einheiten ein „schlechtes“ Vergleichsmaß, was zu einem Problem des „negativen Gewichts“ (negative weights) und Schätzverzerrung führt. Statt TWFE sollte der Callaway-Sant'Anna-Schätzer verwendet werden, der den durchschnittlichen Behandlungseffekt (ATT) separat für jede Gruppe und Zeit berechnet und dabei als Kontrolle nur nie behandelte oder nicht behandelte Einheiten verwendet, sodass bereits behandelte aus dem Kontrollpool ausgeschlossen werden, was eine korrekte Identifizierung gewährleistet. Für einen neuen Fachmann: Stellen Sie sich vor, Sie vergleichen die Wirkung einer neuen Regel für eine Klasse, die sie im September erhalten hat, und verwenden als Kontrolle die Klasse, die die Regel im Oktober erhalten hat. Wenn die erste Klasse bis Oktober bereits daran gewöhnt ist, während die zweite erst einen Schock erlebt, erhalten Sie ein verzerrtes Bild — moderne Methoden vergleichen nur mit denen, die die Regel noch nie erhalten haben.

Wie sollte man die Situation der „Kontamination“ oder „Ausfließen“ der Behandlung korrekt handhaben, wenn Nutzer, die unter die verpflichtende 2FA auf dem Mobilgerät fallen, beginnen, die Webversion der Anwendung aktiv zu nutzen (wo 2FA noch nicht eingeführt ist), um Einschränkungen zu umgehen, und warum entsteht durch das einfache Ausschließen solcher Nutzer aus der Stichprobe eine Verzerrung?

Ein einfaches Ausschließen der „Wechsler“ verursacht eine Stichprobenverzerrung (truncation bias) oder Selektion Bias, da die verbleibenden Nutzer in der Stichprobe diejenigen sind, die entweder weniger motiviert sind, Friktionen zu vermeiden, oder weniger technisch befähigt, was die Effektbewertung auf die Zielpopulation verzerrt. Der korrekte Ansatz ist die Analyse des Intent-to-Treat (ITT), bei der alle Nutzer in der Gruppe analysiert werden, in die sie ursprünglich zugeordnet wurden (mobile Anwendung mit 2FA), unabhängig von ihrem tatsächlichen Verhalten (Wechsel zur Webversion). Zur Bewertung des Effekts des Mechanismus selbst (Treatment-on-Treated, TOT) wird die Methode der Two-Stage Least Squares (2SLS) verwendet, bei der die tatsächliche Nutzung von 2FA durch die Zugehörigkeit zur Implementierungskohorte instrumentiert wird, was eine Bereinigung der Schätzung von „Nichtbefolgung“ (non-compliance) ermöglicht. Für einen neuen Fachmann: Dies ist vergleichbar mit einer klinischen Studie, in der Patienten aus der Medikamentengruppe aufhören, es einzunehmen. Wenn Sie sie ausschließen, verlieren Sie Informationen darüber, dass das Medikament einen bestimmten Patiententyp „abstösst“ und überschätzen die Wirksamkeit. ITT analysiert die „Zuweisung“, nicht die „tatsächliche Einnahme“, wobei die Randomisierung erhalten bleibt.

Wie kann man den reinen Effekt der Friktion (Notwendigkeit, einen Code einzugeben) vom „Signal“ oder „Signalisierungseffekt“ (das Gefühl von erhöhter Sicherheit, das durch die bloße Existenz von 2FA erzeugt wird) unterscheiden, und warum ist es wichtig, eine Mediationsanalyse bei der Bewertung des Einflusses auf die Monetarisierung durchzuführen?

Die Bedeutung der Trennung liegt darin, dass diese Effekte eine entgegengesetzte Richtung auf das Verhalten haben: Friktion verringert die Konversion und die Häufigkeit von Logins, während der Sicherheitsimpuls die Bereitschaft erhöht, große Transaktionen durchzuführen und das Vertrauen in die Plattform. Zur Trennung wird eine Causal Mediation Analysis (z.B. Ansatz von Imai-Keele-Tingley) verwendet, bei der der Gesamteffekt (Total Effect) in den direkten (Friktion) und den indirekten über die Sicherheitswahrnehmung (Mediator) zerlegt wird. Alternativ wird eine Placebo-Gruppe geschaffen, die ein Banner über „erhöhte Sicherheit“ und ein Symbol für 2FA erhält, jedoch ohne die tatsächliche Anforderung zur Eingabe eines Codes; der Vergleich [Vollständige 2FA] vs [Banner ohne 2FA] vs [Kontrolle] ermöglicht die Isolation der Komponenten. Wenn der Anstieg des durchschnittlichen Bestellwerts auch in der Placebo-Gruppe beobachtet wird, dominiert der Signalisierungseffekt; wenn er nur in der vollständigen Gruppe auftritt — ist der Effekt auf das Verfahren der Authentifizierung selbst zurückzuführen. Für einen neuen Fachmann: Stellen Sie sich vor, im Restaurant gibt es einen Sicherheitsmann an der Tür. Die Leute könnten mehr ausgeben, wenn sie sich sicher fühlen (Signal), aber manche könnten nicht hineingehen wollen, weil sie durchsucht werden müssen (Friktion). Um zu verstehen, ob man den Sicherheitsmann behalten sollte, muss man diese Effekte trennen, sonst versteht man nicht, ob man einen freundlicheren Sicherheitsmann einstellen oder einfach ein Schild „Wird bewacht“ aufhängen sollte.