Antwort auf die Frage

Das Hauptproblem bei der Bewertung von Empfehlungsprogrammen ist die Endogenität der Selbstselektion: Nutzer mit hoher Beteiligung haben von Natur aus einen größeren LTV und laden häufiger Freunde ein, was den Anschein einer hohen Effektivität des Kanals erweckt. Zur korrekten Bewertung verwenden wir Methoden der kausalen Inferenz: Propensity Score Matching (PSM) zur Beseitigung von Verzerrungen anhand beobachtbarer Merkmale oder Instrumentalvariablen (IV), wenn es ein randomisiertes Instrument gibt (z.B. die zufällige Anzeige eines Banners).

Um zeitliche Verzögerungen zwischen dem Versenden der Einladung und der Konversion des Empfehlungsnutzers zu berücksichtigen, verwenden wir Überlebensanalyse (Kaplan-Meier-Modell oder Cox Proportional Hazards) anstelle einer einfachen Kohortenanalyse. Dies ermöglicht eine korrekte Verarbeitung der zensierten Daten (Right-Censoring), wenn ein Teil der Nutzer den Lebenszyklus noch nicht abgeschlossen hat. Der LTV wird durch die Integration der Retentionskurve unter Berücksichtigung von Diskontierung oder durch die BTYD-Methode (Pareto/NBD) zur Vorhersage zukünftiger Transaktionen berechnet.

Alltagssituation

Kontext: In einer mobilen Essensliefer-App wurde ein Empfehlungsprogramm mit zweiseitigen Boni gestartet. Nach einem Quartal zeigte der Bericht in Tableau, dass Nutzer, die den Empfehlungslink aktiviert hatten, einen LTV hatten, der um 40 % über dem Durchschnitt der Plattform lag. Der Product Manager forderte eine Erhöhung des Budgets, aber das Analytics-Team vermutete, dass der Unterschied nicht durch das Programm, sondern durch die grundlegenden Eigenschaften der Super-Nutzer verursacht wurde.

Problem: Es war unmöglich, den tatsächlichen inkrementellen Effekt von der Korrelation mit der Beteiligung zu trennen. Die Anwendung einfacher SQL-Abfragen zum Vergleich der Gruppen lieferte eine verzerrte Schätzung aufgrund von Confounding-Faktoren (Bestellhäufigkeit, Verweildauer im Produkt). Ohne eine korrekte Bewertung riskierte das Unternehmen, für einen Kanal mit negativer oder nahezu null Marge zu viel zu bezahlen.

Lösung 1: Direktvergleich von Kohorten über SQL

Verglichen wurde die Kohorte "Einladende" (treatment) mit der Kohorte "Nicht Einladende" (control) durch Aggregation in BigQuery, wobei ARPU und Retention am 90. Tag berechnet wurden.

Vorteile: Sofortige Implementierung, leicht verständliche Visualisierung für Stakeholder, niedrige Ressourcenanforderungen.

Nachteile: Kritischer Fehler der Selbstselektion und Überlebensverzerrung. Nutzer, die ohnehin geplant hatten, im Produkt zu bleiben, nutzen häufiger Empfehlungen. Das Ergebnis ist überhöht und nicht für Entscheidungsprozesse geeignet.

Lösung 2: Propensity Score Matching auf historischen Daten

In Python (scikit-learn) wurde ein Regressionsmodell erstellt, um die propensity score — die Wahrscheinlichkeit der Teilnahme am Programm basierend auf prä-treatment Merkmalen (Kontenalter, Bestellhistorie, durchschnittlicher Bestellwert) — zu bewerten. Dann wurde Nearest Neighbors verwendet, um 1:1-Paare zu matchen und den LTV nur in vergleichbaren Untergruppen zu vergleichen.

Vorteile: Beseitigt Verzerrungen bei beobachtbaren Variablen (observable confounders), funktioniert mit retrospektiven Daten ohne die Notwendigkeit eines Experiments. Erlaubt eine schnelle Schätzung des ATT (Average Treatment Effect on the Treated).

Nachteile: Beseitigt nicht die unbeobachtbaren Merkmale (unobserved confounders), wie Extraversion oder sozialen Kapital. Bei unausgewogenen Daten (wenig Einladende) gibt es Probleme mit der allgemeinen Unterstützung (common support), und ein Teil der Stichprobe wird ausgeschlossen, was die Power reduziert.

Lösung 3: Instrumentalvariablen und Überlebensanalyse

Ein natürliches Experiment wurde gefunden: 50 % der Nutzer sahen zufällig das Banner des Empfehlungsprogramms auf dem Hauptbildschirm (Instrument Z), was die Wahrscheinlichkeit der Teilnahme (X), aber nicht den LTV direkt (Y) beeinflusste. Der Effekt wurde über 2SLS (Two-Stage Least Squares) in der Bibliothek linearmodels für Python geschätzt, wodurch LATE (Local Average Treatment Effect) ermittelt wurde. Zur Berücksichtigung der Verzögerungen verwendeten wir Überlebensanalyse: Wir bauten ein Risiko-Modell (hazard function) für die Zeit bis zur ersten Bestellung des Empfehlungsnutzers und korrigierten den LTV basierend auf der Wahrscheinlichkeit der Konversion zu jedem Zeitpunkt.

Vorteile: Das IV-Verfahren beseitigt sowohl beobachtbare als auch unbeobachtbare Confounder und liefert eine kausale Schätzung. Die Überlebensanalyse verarbeitet unvollständige Daten korrekt und ermöglicht die Modellierung zeitlicher Dynamik.

Nachteile: Erfordert ein valides Instrument (Relevanz und Exogenität), was schwer zu beweisen ist. Geringere statistische Power der IV-Schätzungen (weite Konfidenzintervalle). Die Interpretation von LATE unterscheidet sich von ATE (durchschnittlicher Effekt nur für "compliers").

Ausgewählte Lösung:

Wir wählten einen hybriden Ansatz: Wir nutzten die Randomisierung des Banners zur IV-Schätzung des reinen Teilnahmeeffekts und wandten dann ein nichtlineares Modell der Überlebensanalyse (Cox mit zeitvariierenden Kovariaten) zur Berechnung des erwarteten LTV unter Berücksichtigung der Konversionszeit der Empfehlungen an. Dies ermöglichte uns, den Effekt des Programms vom Effekt der Selbstselektion zu trennen.

Ergebnis:

Der tatsächliche inkrementelle Effekt betrug +12 % LTV für die Gruppe der Compliers, nicht +40 % wie im ursprünglichen Bericht. Die Analyse der Verzögerungen zeigte, dass 85 % der Konversionen von Empfehlungen in den ersten 14 Tagen nach dem Klick stattfinden, was es ermöglichte, den Bewertungshorizont von 90 auf 30 Tage zu verkürzen. Das Unternehmen überarbeitete die Unit-Ökonomie und senkte die Kosten für die Akquise (CAC) um 18 % durch den Verzicht auf lange Wartezeiten für Retention.

Häufig übersehene Punkte von Kandidaten

Frage 1: Wie überprüft man die Annahme von SUTVA (keine Interferenz zwischen den Einheiten) in einem Empfehlungsprogramm, in dem Netzwerkeffekte zwischen den Einladenden bestehen?

SUTVA wird verletzt, wenn die Dichte der Einladungen im sozialen Kreis die Wahrscheinlichkeit der Konversion beeinflusst (z.B. durch Überfüllung oder Viraleffekte). Zur Überprüfung verwenden wir Clusteranalysen: Wir unterteilen die Nutzer in geografische Cluster oder Segmente basierend auf sozialen Graphen durch Graph Analyse (NetworkX).

Dann verwenden wir Difference-in-Differences, um Cluster mit hoher und niedriger Durchdringung von Empfehlungslinks zu vergleichen. Wenn der Effekt in dichten Clustern signifikant unterschiedlich ist (geringer aufgrund von Überfüllung oder höher aufgrund sozialen Beweises), ist SUTVA verletzt, und es müssen Modelle mit zwischenklassigen Interaktionen (spatial models) verwendet oder die Analyse auf isolierte Segmente beschränkt werden.

Frage 2: Warum kann man keine gewöhnliche lineare Regression (OLS) zur Prognose von LTV bei zensierten Daten verwenden, wenn ein Teil der Nutzer noch keinen Churn hatte?

OLS ignoriert den Zensurierungsaspekt (Right-Censoring) und betrachtet den aktuellen LTV als endgültig, was zu systematisch niedrigeren Schätzungen für "junge" Nutzer führt. Stattdessen verwenden wir Überlebensanalysen, um die Retentionskurve ( S(t) ) zu schätzen und integrieren diese dann zur Berechnung des erwarteten Lebenszeitwerts.

Alternativ verwenden wir probabilistische Modelle für Wiederholungskäufe (BTYD), wie Pareto/NBD oder Gamma-Gamma, die in der Bibliothek lifetimes für Python implementiert sind. Diese Modelle berücksichtigen noch nicht sichtbare Transaktionen durch probabilistische Verteilungen der Häufigkeit und Zeit zwischen Käufen und liefern eine unverzerrte Schätzung des zukünftigen LTV, selbst für aktive Nutzer.

Frage 3: Wie unterscheidet man inkrementelle Einladungen (Einladungen, die nur durch das Programm zustande kamen) von organischen Einladungen (die auch ohne Anreiz stattgefunden hätten) bei der Bewertung des Effekts?

Wir verwenden das Principal Stratification-Framework, um die Population in vier Gruppen (Strata) zu unterteilen: Always-takers (würden immer einladen), Compliers (würden nur wegen des Programms einladen), Never-takers und Defiers. Durch IV-Analyse mit einem binären Instrument (z.B. gesehen/nicht gesehen Banner) schätzen wir LATE — den Effekt nur für Compliers.

Für eine detailliertere Segmentierung verwenden wir Methoden des Causal Machine Learning (EconML, CausalML in Python), wie Causal Forest oder Meta-Learner (S-Learner, T-Learner), um den bedingten durchschnittlichen Behandlungseffekt (CATE) für verschiedene Segmente zu bewerten. Dies ermöglicht zu verstehen, für welche Nutzer (z.B. niedrige/hohe Bestellwerte) das Programm genau inkrementelle Einladungen generiert und für welche es einfach organisches Sharing festhält.

Beschreiben Sie den Ansatz zur Isolierung des ursächlichen Effekts von Empfehlungsprogrammen auf den langfristigen LTV unter Berücksichtigung von Endogenität der Selbstselektion und Verzögerungen bei der Konversion eingeladener Nutzer.

Antwort auf die Frage

Alltagssituation

Häufig übersehene Punkte von Kandidaten