Antwort auf die Frage

Historisch basierte die Bewertung von Treueprogrammen auf einem einfachen Vergleich der durchschnittlichen Bestellwerte von Teilnehmern und Nicht-Teilnehmern, was zu einer Überschätzung des Effekts aufgrund von Selection Bias führte. Moderne Produktanalytik erfordert die Isolierung des tatsächlichen kausalen Effekts unter Bedingungen, bei denen sich Benutzer aufgrund nicht beobachtbarer Merkmale (z. B. geschätztes Kaufvolumen) selbst für das Programm selektieren. Das Schlüsselproblem besteht darin, den Effekt des Programms von bestehenden Unterschieden zwischen den Gruppen zu trennen und die zeitlichen Verzögerungen zwischen der Gutschrift und der Aktivierung der Boni korrekt zu behandeln.

Zur Lösung ist es notwendig, eine Kombination aus Propensity Score Matching (PSM) und Difference-in-Differences (DiD) mit erweiterten Spezifikationen zeitlicher Effekte anzuwenden. Im ersten Schritt wird ein Modell zur Wahrscheinlichkeit des Beitritts zum Programm auf der Grundlage von Kovariaten bis zum Zeitpunkt des Starts (Kaufhistorie, Demografie, Engagement) erstellt. Benutzer werden nach nächstem Nachbarn oder nach Gewichten (IPW) zugeordnet, um die Verteilung der beobachtbaren Merkmale auszugleichen. Im zweiten Schritt wird DiD mit festen Effekten für Benutzer und Zeit angewendet, wobei die Zeiträume relativ zum Zeitpunkt der Cashback-Aktivierung in Buckets unterteilt werden (Event Study Design). Dies ermöglicht es, die Dynamik des Effekts zu verfolgen, wobei zu beachten ist, dass einige Benutzer die Boni innerhalb einer Woche aktivieren, während andere dies erst einen Monat später tun. Um die Kannibalisierung (zeitliche Verschiebung von Käufen) zu kontrollieren, werden Verzögerungen der abhängigen Variablen einbezogen und Kohorten mit unterschiedlichem Beobachtungszeitraum durch Survival Analysis analysiert.

Lebenssituation

Wir haben ein kumulatives Cashback von 5 % im Elektronik-Marktplatz eingeführt, bei dem Benutzer die Option in ihrem Profil aktivieren mussten. Nach einem Monat zeigten die Metriken einen Anstieg der Kaufhäufigkeit um 40 % bei den Teilnehmern, aber das Unternehmen war sich des Kausalzusammenhangs unsicher, da angenommen wurde, dass sich ursprünglich loyale Benutzer für das Programm anmelden. Das Problem wurde dadurch kompliziert, dass die Boni erst 14 Tage nach der Gutschrift eingelöst werden konnten, was zu einem künstlichen Anstieg der Aktivität in der dritten Woche führte.

Die erste betrachtete Option war ein klassischer A/B-Test mit erzwungener Randomisierung des Zugangs zum Cashback. Vorteile: reine Bewertung des kausalen Effekts. Nachteile: rechtliche Einschränkungen (man kann ein Finanzprogramm nicht ohne Zustimmung aufzwingen) und Verzerrung des Verhaltens (Benutzer, die von der Nichtverfügbarkeit des Cashbacks erfuhren, gingen zu Konkurrenten). Diese Option wurde aus ethischen und geschäftlichen Risiken abgelehnt.

Die zweite Option war ein einfacher Vergleich von „Teilnehmern vs. Nicht-Teilnehmern“ durch einen t-Test unter Berücksichtigung der Stichprobengröße. Vorteile: schnelle Implementierung und einfache Berichterstattung. Nachteile: katastrophale Überlebensverzerrung (Survivorship Bias) und Ignorieren der Endogenität; die Analyse zeigte, dass Teilnehmer vor der Aktivierung eine 2,3-mal höhere Basis-Kaufhäufigkeit hatten, was den Vergleich ungültig machte.

Die dritte Option war ein Regression Discontinuity Design (RDD) an der Schwelle des Betrags des ersten Kaufs, der die Berechtigung für Cashback automatisch gewährte. Vorteile: lokale Zufälligkeit um die Schwelle herum sorgt für eine unverzerrte Schätzung für marginale Benutzer. Nachteile: die Schätzung ist nur für eine schmale Gruppe an der Schwelle (local average treatment effect) gültig und nicht für die gesamte Zielgruppe; zudem gab es in unserem Fall keine strikte Schwelle – das Programm war sofort für alle nach dem Opt-in verfügbar.

Die gewählte Lösung war eine Kombination aus Propensity Score Matching zur Schaffung eines synthetischen Kontrollmechanismus und Kohortenbasiertes Difference-in-Differences unter Berücksichtigung von Verzögerungen. Wir haben Teilnehmer mit Nicht-Teilnehmern anhand von 15 Variablen (RFM-Segmente, Saisonalität, Gerät) gematcht und dann DiD mit festen Effekten für Woche und Benutzer angewendet. Um die 14-tägige Verzögerung zu berücksichtigen, haben wir eine Event Study mit Bins relativ zum Aktivierungszeitpunkt durchgeführt, was es ermöglichte, echtes Wachstum von Kaufverschiebungen zu trennen. Ergebnis: Der reine inkrementelle Effekt betrug +12 % bei der Kaufhäufigkeit und +8 % beim durchschnittlichen Bestellwert nach Abzug der Kannibalisierung, während die Rohdaten +40 % zeigten. Das Programm wurde als erfolgreich anerkannt, allerdings mit wesentlich bescheideneren ROI-Erwartungen.

Was Kandidaten oft übersehen

Wie kann man den Effekt des Programms korrekt von der intertemporalen Substitution von Käufen (intertemporal substitution) unterscheiden, wenn Verzögerungen zwischen der Gutschrift und der Einlösung der Boni vorliegen?

Die Antwort erfordert das Verständnis von Dynamic Treatment Effects. Es ist notwendig, nicht nur den durchschnittlichen Effekt zu modellieren, sondern auch dessen Dynamik durch die Event Study-Spezifikation: Y_it = α_i + γ_t + Σ_k β_k · D_i,t-k + ε_it, wobei D_i,t-k Dummy-Variablen relativ zum Aktivierungszeitpunkt sind. Wenn die Koeffizienten β_k vor der Aktivierung signifikant nicht von null abweichen (parallel trends test) und nach der Aktivierung einen Anstieg zeigen, gefolgt von einem Rückgang unter das Basisniveau – ist dies ein Hinweis auf Kannibalisierung (borrowed demand). Um den reinen LTV-Effekt zu bewerten, muss der Effekt über die Zeit integriert und mit der Kontrafaktum durch Synthetic Control Method verglichen werden, die auf Donoreinheiten mit ähnlichen vorherigen Trajektorien basiert.

Warum kann ein standardisierter A/B-Test mit individueller Randomisierung die SUTVA-Annahme in Cashback-Systemen verletzen?

SUTVA (Stable Unit Treatment Value Assumption) wird verletzt, wenn die Boni eines Benutzers das Verhalten anderer durch das Netzwerk beeinflussen (z. B. Familienstichproben oder Unternehmenskäufe). Wenn ein Ehemann Cashback aktiviert und eine Kaufentscheidung für die Familie trifft, die Frau jedoch aufhört, ihre eigenen Käufe zu tätigen, liefert individuelle Randomisierung eine verzerrte Bewertung. Es ist notwendig, Cluster Randomization auf der Ebene von Haushalten anzuwenden oder Methoden zur Analyse von Diffusion (Spillover Effects) wie Two-Stage Least Squares (2SLS) mit instrumentalen Variablen (z. B. Schwellenwerte für die Aktivierung, die zwischen Clustern variieren) zu verwenden.

Wie berücksichtigt man die Heterogenität des Effekts über die Lebensdauer des Kunden (customer lifetime stage) bei Vorliegen von Saisonalität?

Kandidaten ignorieren oft, dass der Effekt von Cashback unterschiedlich für neue Benutzer (Effekt der primären Motivation) und etablierte (Effekt der Bindung) ist. Es ist notwendig, Triple Difference (DDD) anzuwenden: Effekt des Programms = (Y_post - Y_pre) für treatment - (Y_post - Y_pre) für control, differenziert nach Segmenten der Dauer (neue/erfahrene). Dabei wird die Saisonalität durch feste Effekte des Monats im Zusammenhang mit dem Segment kontrolliert. Alternativ – Heterogeneous Treatment Effects durch Causal Forests oder Meta-learners (S-learner, T-learner), was es ermöglicht, Segmente mit positivem CATE (Conditional Average Treatment Effect) zu identifizieren und das Targeting des Programms auf diese zu optimieren, während Ausgaben für Benutzer mit null oder negativem Effekt vermieden werden.