Antwort auf die Frage.

Die Personalisierung von Push-Benachrichtigungen erfordert einen strengen quasiexperimentellen Ansatz aufgrund der Selbstselektion der Nutzer je nach Aktivitätszeit. Mögliche Kreuzkontamination durch soziale Netzwerke oder Familienkonten kompliziert zudem die Isolierung des Effekts.

Die Hauptmethode ist Difference-in-Differences (DiD) mit synthetischer Kontrolle. Die Kontrollgruppe wird basierend auf Propensity Score Matching nach der Öffnungszeit der App und historischen Bestellmustern gebildet.

Zur Anpassung der zeitlichen Effekte wird eine Stratifizierung nach Zeitzonen vorgenommen. Kreuzkontamination wird durch die Analyse der Geräte-ID und IP-Adressen hinsichtlich gemeinsamer Konten erkannt.

Die Bindungskennzahl wird als Hazard Ratio unter Verwendung des Cox proportional hazards model berechnet. Dies ermöglicht die Berücksichtigung zensierter Daten und die Heterogenität der Abwanderungsrisiken.

Lebenssituation

In der App Delivery Club war die Implementierung eines ML-Modells in Python unter Verwendung von CatBoost zur Personalisierung der Sendungszeit von Push-Benachrichtigungen geplant. Das Problem war, dass aktive Nutzer die App überwiegend in der Mittagszeit öffneten, was eine Selbstselektionstendenz erzeugte.

Ein teilweiser Rollout in 20 % der Zielgruppe erzeugte einen "Mund-zu-Mund-Empfehlungseffekt". Nutzer der Kontrollgruppe erfuhren von Aktionen durch Kollegen, was Kreuzkontamination verursachte.

Die erste betrachtete Lösung war ein klassisches A/B-Test mit geografischer Segmentierung. Die Stadt A war die Testgruppe, die Stadt B die Kontrollgruppe.

Vorteile dieses Ansatzes umfassten die saubere Isolation der Gruppen und die einfache Interpretation der Ergebnisse für das Geschäft. Nachteile lagen in den Unterschieden bei kulinarischen Vorlieben und Einkommen zwischen den Städten, die eine Verzerrung von 12-15 % in der Basisbindung verursachten.

Die zweite Option war die Analyse nur der Nutzer mit aktivierten Benachrichtigungen (per-protocol analysis). Dies ermöglichte den Fokus auf eine Zielgruppe, die auf Kommunikationen reagiert.

Vorteile — hohe Relevanz für das Produktteam. Nachteile — Ignorierung des Effekts der Opt-out-Bias: Nutzer, die Benachrichtigungen deaktiviert hatten, hatten eine dreimal höhere Basisabwanderung, was den Gesamteffekt der Intervention verzerrte.

Die dritte Lösung war Causal Impact von Google mit dem Aufbau einer synthetischen Kontrolle. Es wurden Bayesian Structural Time Series verwendet, um den Kontrafaktualen zu modellieren.

Vorteile beinhalteten die Berücksichtigung zeitlicher Trends und Saisonalität ohne die Notwendigkeit einer expliziten Kontrolle. Nachteile — hohe Sensitivität bei der Wahl der Kovariaten und Zerbrechlichkeit der Annahme paralleler Trends vor der Intervention.

Der gewählte Ansatz war eine kombinierte Methode: Inverse Probability Weighting (IPW) zur Anpassung der Selbstselektion je nach Aktivitätszeit plus Diff-in-Diff mit Clusterung der Standardfehler auf der Ebene geografischer Cluster.

Diese Lösung bewahrte die individuelle Variabilität der Sendungszeiten, die für die Personalisierung entscheidend war. Gleichzeitig wurde eine Kontrolle über intergruppen Spillovers durch Cluster-Robustheit sichergestellt.

Das Ergebnis war die Feststellung eines echten inkrementellen Effekts von +8,3 % auf die 7-tägige Bindung. Eine naive Vergleichsanalyse zeigte +15 %. Der Effekt war statistisch signifikant nur für das Segment "Nutzer mit 3+ Bestellungen in der Historie".

Dies ermöglichte die Optimierung des Budgets für die Benachrichtigung, indem kalte Nutzer aus der Zielgruppe für personalisierte Kampagnen ausgeschlossen wurden.

Was Kandidaten oft übersehen

Wie berücksichtige ich die Saisonalität bei der Berechnung der LTV-Vorhersage für ein Abonnementprodukt mit jährlichen und monatlichen Plänen unter Berücksichtigung von kohortenspezifischer Heterogenität?

Anfänger verwenden häufig einfaches Durchschnitt von historischen Bindungskurven, ohne zu berücksichtigen, dass Nutzer, die in der Zeit Black Friday kommen, ein qualitativ anderes Bindungsprofil haben. Ihre Abwanderung ist 2-3 Mal höher als die organischer Nutzer.

Der korrekte Ansatz ist der Aufbau separater BG/NBD oder Gamma-Gamma Modelle für jede Kohorte unter Berücksichtigung saisonaler Dummy-Variablen. Eine Alternative ist die Verwendung von Cohort-Based LTV mit Anpassungen durch Bayesian Hierarchical Modeling zur Nutzung der Stärke zwischen Kohorten (partial pooling).

Was ist der Unterschied zwischen der Intent-to-Treat (ITT) und der Treatment-on-the-Treated (TOT) Analyse bei der Bewertung der Effektivität einer Onboarding-Tour, und wann welchen Ansatz anwenden?

ITT analysiert den Effekt des Angebots (offer), allen Nutzern in der Testgruppe das Onboarding zu ermöglichen, einschließlich der Abgelehnten. TOT misst den Effekt der tatsächlichen Durchführung der Tour (complier average causal effect).

ITT ist konservativ und geeignet für Geschäft Entscheidungen über die Skalierung der Funktion. Es spiegelt das tatsächliche Verhalten der Zielgruppe unter Berücksichtigung von Reibung wider. TOT erfordert instrumental variables und beantwortet die Frage nach der Sinnhaftigkeit eines zwangsweisen Onboardings.

Ein Fehler bei der Auswahl der Methode führt zu einer Überbewertung des Effekts um 40-60 %. Für TOT kann man zufällige Fehler in der Anzeige der Tour als Instrument verwenden.

Wie diagnostiziert man das Problem "Peeking" bei der Durchführung sequentieller A/B-Tests und welche statistischen Anpassungen sollten angewendet werden?

Peeking tritt auf, wenn ein Test vorzeitig gestoppt wird, nachdem Signifikanz erreicht wurde. Die Diagnose erfolgt durch die Analyse der p-Werte über die Zeit: Bei Peeking zeigt die Kurve ein "glattes Wandern" mit häufigen Überschreitungen der Schwelle von 0,05.

Lösungen umfassen Group Sequential Testing mit Alpha-Spending-Funktionen (O'Brien-Fleming). Eine Alternative ist Bayesian A/B Testing mit dem ROPE (Region of Practical Equivalence) Ansatz.

Auch die Festlegung der Stichprobengröße durch Data Quality Gates in Apache Airflow ist effektiv. Ein kritischer Fehler ist die Verwendung einfacher Konfidenzintervalle ohne Bonferroni-Anpassung, was die Rate falsch-positiver Ergebnisse auf 25-30 % bei 5 Zwischenprüfungen anhebt.