Um den Effekt ohne Randomisierung zu messen, muss ein synthetischer Kontrollansatz über Propensity Score Matching (PSM) erstellt und dann die Methode Difference-in-Differences (DiD) angewendet werden. Zunächst schätzen wir die Wahrscheinlichkeit, ein Abzeichen zu erhalten (logistische Regression) anhand von historischen Daten (Aktivität, Demografie, Bindung), um die „behandelten“ Nutzer mit ähnlichen „Kontroll“-Nutzern zu vergleichen. Dann vergleichen wir die Dynamik der Zielmetrik (Beteiligungstiefe) zwischen diesen Gruppen, was es ermöglicht, den Einfluss des Abzeichens von den allgemeinen Wachstumstrends zu trennen.
Es ist entscheidend, die Annahme der parallelen Trends durch eine Event-Studie-Analyse zu überprüfen: Wir führen eine Regression mit Verzögerungen und Vorherigen durch und stellen sicher, dass die Koeffizienten vor der Einführung nicht signifikant sind. Um die Sensitivität zu erhöhen, verwenden wir CUPED in Python oder R, um die Varianz durch Kovariaten vor dem Experiment zu reduzieren. Die endgültige Schätzung ATT (Average Treatment Effect on the Treated) gibt eine unverzerrte Größe des reinen Gamification-Effekts.
Das Unternehmen „EduTech“ startete ein Motivationsprogramm: Nutzer erhielten digitale Abzeichen für das Hinterlassen von Bewertungen zu Kursen. Technische Einschränkungen des Legacy-Backends verhinderten eine zufällige Aufteilung der Zielgruppe, weshalb der Analyst mit der Messung des Einflusses auf die Metrik „Beteiligungstiefe“ (durchschnittliche Anzahl der angesehenen Lektionen pro Woche) bei starkem Selbstselektionismus konfrontiert war: Bewertungen wurden vor allem von den aktivsten Studierenden abgegeben, was zu einer offensichtlichen Verzerrung führte.
Vier Ansätze zur Lösung des Problems wurden in Betracht gezogen.
Einfacher Durchschnittsvergleich nach der Einführung zwischen denjenigen, die ein Abzeichen erhalten haben, und denen, die keines erhalten haben. Der Hauptvorteil – Geschwindigkeit der Berechnung in SQL ohne komplexe Datenvorbereitung. Der kritische Nachteil – vollständige Ignorierung der Selbstselektion: Aktive Nutzer wachsen ohnehin schneller (Reifungseffekt), was zu einer Überbewertung des Effekts und falschen Schlussfolgerungen über die Effektivität führt.
Analyse „Vor-Nach“ ausschließlich in der Abzeichen-Gruppe. Die Vorteile liegen in der Eliminierung intergruppenspezifischer Unterschiede und der Verwendung des paarweisen t-Tests für dieselben Benutzer. Es ist jedoch nicht möglich, den Effekt des Abzeichens von dem allgemeinen saisonalen Anstieg der Aktivität (Beginn des Schuljahres) oder gleichzeitigen Änderungen in den Empfehlungsalgorithmen zu trennen, was die Schlussfolgerungen unzuverlässig macht.
OLS-Regression mit Kontrolle von Kovariaten durch Hinzufügen von Variablen zur früheren Aktivität. Dies kann schnell in statsmodels implementiert werden und liefert nachvollziehbare Koeffizienten. Aber die Methode erfordert strenge Linearität der Abhängigkeiten, ist sensibel gegenüber Ausreißern und berücksichtigt nicht die individuellen Entwicklungstrends der Nutzer im Zeitverlauf, was die Schätzung verzerren könnte.
PSM + Difference-in-Differences (gewählte Lösung). Wir führten Propensity Score Matching in BigQuery durch und verwendeten logistische Regression mit Prädiktoren vor dem Start (Zugriffsfrequenz, absolvierte Kurse). Danach wendeten wir DiD mit Fixed Effects für Nutzer und Woche an. Vorteile — Minimierung der Selektionsverzerrung bezüglich beobachtbarer Merkmale und Eliminierung von Zeittrends unter der Bedingung der Parallelität. Nachteile — hohe rechnerische Komplexität und Kritikalität der Annahme paralleler Trends, die durch Event-Studie-Grafiken verifiziert werden muss.
Die Entscheidung wurde aufgrund der Fähigkeit getroffen, die unverzerrteste Schätzung bei nur beobachtbaren Daten zu liefern. Die Analyse ergab, dass Abzeichen die Beteiligung um 12 % steigern, jedoch nur bei Nutzern mit weniger als drei Monaten Erfahrung. Für „Veteranen“ war der Effekt statistisch nicht signifikant, was es dem Produktteam ermöglichte, die Vergaberegeln zu überdenken und den Fokus auf das Onboarding zu legen.
Wie überprüft man, ob die Annahme der parallelen Trends in DiD nicht verletzt wird, wenn wir kein Experiment haben?
Bewerber beschränken sich oft auf einen visuellen Vergleich der Grafiken und vernachlässigen die formale Überprüfung. Es ist notwendig, eine Event-Studie-Regression zu erstellen, bei der Dummy-Variablen für jede Periode vor und nach der Behandlung einbezogen werden. Wenn die Koeffizienten für die „Vor“-Perioden statistisch signifikant sind (p-Wert < 0.05), ist die Annahme verletzt. In diesem Fall kann CUPED zur Korrektur von Vor-Trends angewendet oder die Synthetic Control Method verwendet werden, um eine Kontrollgruppe mit einem Trend zu konstruieren, der dem Trend der behandelten Gruppe vor der Intervention möglichst nahekommt.
Warum löst Propensity Score Matching nicht das Problem der Endogenität aufgrund verdeckter Merkmale (Selection on Unobservables)?
PSM balanciert nur beobachtbare Kovariaten (Alter, Aktivität), aber wenn es eine verborgene Motivation gibt (z. B. „Liebe zum Lernen“), die schwer zu quantifizieren ist, bleibt die Verzerrung bestehen. Zur Lösung sind instrumentelle Variablen (IV) erforderlich, z. B. die geografische Entfernung zum nächsten Offline-Zentrum, die mit der Wahrscheinlichkeit, ein Abzeichen zu erhalten, korreliert, aber nicht direkt auf die Beteiligung einwirkt. Eine Alternative ist der Regression Discontinuity Design (RDD), wenn der Abzeichen-Vergabeschwellenwert streng ist (z. B. genau 3 Bewertungen), was exogene Variation erzeugt.
Wie geht man mit der Verletzung der SUTVA (Stable Unit Treatment Value Assumption) in der Gamification um, wenn der Effekt „ansteckend“ über das soziale Netzwerk ist?
Wenn Freunde die Abzeichen sehen und ebenfalls beginnen, Bewertungen abzugeben, liefert das Standard-DiD eine verzerrte Schätzung, indem es direkte und indirekte Effekte mischt. Die Lösung ist die Verwendung von clustered standard errors für Freundesgruppen oder eine zweistufige Stichprobe, bei der Nutzer aus der Kontrollgruppe ausgeschlossen werden, die mit den „behandelten“ Nutzern verbunden sind. Man kann die spillover-Effekte explizit durch Mediationsanalysen in Python (Bibliotheken causalml oder mediation) bewerten, indem man den Gesamteffekt in direkten (auf den Nutzer selbst) und indirekten (auf die Freunde) Effekt aufteilt, um eine Unterschätzung des wahren Effekts zu vermeiden.