Antwort auf die Frage

Historisch wurden Marketingkampagnen über den durchschnittlichen Effekt (ATE) bewertet, aber die Entwicklung von Causal ML führte zu Uplift-Modellen, die den individuellen Behandlungseffekt (ITE) vorhersagen. Klassisches A/B-Testing ist hier paradox: Um das Modell zu trainieren, benötigt man Daten über Behandelte und Kontrollierte für alle Segmente, aber um das Modell zu bewerten, muss es angewendet werden, was die Kontrollgruppe zerstört. Dies schafft ein Dilemma zwischen Erforschen und Ausnutzen (exploration-exploitation).

Das Problem wird durch Kreuzkontamination kompliziert, bei der das Verhalten von Benutzern in der Testgruppe die Kontrolle durch Netzwerkeffekte oder gemeinsame Ressourcen (z. B. Erschöpfung des Aktionscodes) beeinflusst. Eine Methode ist erforderlich, die es ermöglicht, das Modell gleichzeitig zu trainieren und seinen inkrementellen Effekt im Vergleich zu einer gleichmäßigen Verteilung oder dem Fehlen einer Kampagne zu isolieren.

Die Lösung basiert auf dem Two-Stage Approach. Die erste Phase ist exploration mit Randomisierung (20-30% des Traffics), um unvoreingenommene Daten zu sammeln, das Modell zu trainieren (X-learner oder R-learner) zur Bewertung von CATE (Conditional Average Treatment Effect). Die zweite Phase ist exploitation, bei der der Traffic schrittweise auf das Modell über Thompson Sampling oder Contextual Bandits umgestellt wird, um den Regret zu minimieren. Zur Isolierung des Effekts wird Cluster-based Randomization (Randomisierung nach geografischen Clustern) oder Switchback-Testing (zeitliche Randomisierung) mit anschließender Bewertung über die Synthetic Control Method (SCM) verwendet. Die Qualitätsmetrik ist der Qini-Koeffizient oder die Area Under the Uplift Curve (AUUC), die durch Inverse Propensity Weighting (IPW) zur Eliminierung der Auswahlverzerrung angepasst wird.

Lebenssituation

Das Problem trat in einem Marktplatz bei der Einführung einer Kampagne mit personalisierten Aktionscodes auf. Der Produktmanager wollte ein Uplift-Modell verwenden, um Rabatte nur an "persuadables" (die, die nur mit einem Aktionscode kaufen) zu senden und "sure things" und "lost causes" zu vermeiden. Ein standardmäßiges A/B-Testing war unmöglich, da Daten über die, die keinen Aktionscode erhielten, in allen Segmenten benötigt wurden, jedoch eine Zurückhaltung von 50% der Zielgruppe ohne Aktionscodes die Einnahmen kritisch beeinträchtigte.

Die erste Option — Hold-out Randomization mit der Beibehaltung von 10% der Benutzer in vollständiger Kontrolle über den gesamten Zeitraum. Vorteile des Ansatzes: reine ATE-Bewertung und die Möglichkeit, das Modell korrekt zu trainieren. Nachteile: erhebliche entgangene Einnahmen (opportunity cost), ethische Konflikte (Preisdiskriminierung ohne transparente Kriterien) und langsame Konvergenz des Modells aufgrund der kleinen Kontrollgruppe.

Die zweite Option — Thompson Sampling mit schrittweiser Erhöhung des Anteils des Traffics. Hier sind die "Hände" des Banditen die Targeting-Strategien (Uplift-Modell gegen Zufall). Vorteile: optimales Verhältnis von exploration/exploitation, Anpassungsfähigkeit an Saisonalität und Minimierung wirtschaftlicher Verluste. Nachteile: Schwierigkeiten bei der Interpretation in frühen Phasen, Risiko, in ein lokales Optimum bei unglücklicher Wahlauswahl zu fallen, und die Notwendigkeit großer Traffic-Mengen für statistische Signifikanz.

Die dritte Option — Geo-based Synthetic Control. Die Randomisierung fand nach Regionen statt: In den Testbereichen wurde das Uplift-Modell angewendet, in den Kontrollbereichen das alte System. Zur Bewertung wurde die SCM verwendet, die eine gewichtete Kombination von Kontrollregionen erstellt, die die Testregionen vor der Implementierung simuliert. Vorteile: Isolierung des Effekts von individueller Randomisierung, Arbeit mit aggregierten Daten und kein Kreuzkontamination zwischen Städten. Nachteile: Erfordernis der Stabilität der Regionen im Laufe der Zeit, Sensitivität gegenüber Ausreißern in kleinen geografischen Einheiten und Annahme paralleler Trends, die in Zeiten hoher Saisonalität oft verletzt wird.

Es wurde eine kombinierte Lösung gewählt: Geo-cluster Randomization mit Synthetic Control für die Offline-Validierung und Thompson Sampling für die Online-Optimierung innerhalb der Testcluster. Begründung: Die geografische Randomisierung schloss Kreuzkontamination aus (Benutzer aus verschiedenen Städten interagieren selten), und das Synthetic Control ermöglichte es, 50/50-Splits zu vermeiden. Das Thompson Sampling innerhalb der Testregionen gewährte eine schnelle Anpassung des Modells an lokale Präferenzen.

Ergebnis: Es gelang, den tatsächlichen inkrementellen Effekt des Uplift-Modells von +12% auf die Konversion im Vergleich zum Massenausstoß zu isolieren, während die Ausgaben für Aktionscodes um 35% gesenkt wurden. Synthetic Control zeigte, dass ohne das Modell der Trend in den Testregionen mit einer Genauigkeit von 94% (RMSPE) der Dynamik der synthetischen Kontrolle gefolgt wäre, was die Validität der Bewertung bestätigte.

Was Bewerber oft übersehen

Warum kann man die Konversion derjenigen, die einen Aktionscode nach dem Modell erhalten haben, nicht einfach mit denen vergleichen, die ihn nicht erhalten haben (observational data), selbst wenn man Propensity Score Matching verwendet?

Antwort: Self-selection bias und unobserved confounders. Benutzer mit hohem Uplift-Score können systematisch von nicht beobachtbaren Merkmalen unterscheiden (z. B. kürzlich erhaltene Gehälter oder die Suche nach einem bestimmten Produkt). Propensity Score Matching (PSM) korrigiert nur für beobachtbare Kovariaten, aber wenn es eine verborgene Variable gibt, die sowohl die Wahrscheinlichkeit des Erhalts des Aktionscodes als auch die Konversion beeinflusst, wird die Bewertung verzerrt. Zum Beispiel können aktive Benutzer mit vielen Sitzungen fälschlicherweise als "persuadables" eingestuft werden, aber sie kaufen auch ohne Rabatt. Für einen Einsteiger ist es entscheidend zu verstehen, dass die Korrelation zwischen dem vorhergesagten Uplift und der tatsächlichen Konversion nicht gleich dem kausalen Effekt ist — Randomisierung oder instrumentelle Variablen (IV) sind erforderlich, um zu isolieren.

Wie beeinflusst die zeitliche Abhängigkeit (time-varying confounders) die Bewertung des Uplift-Modells über längere Trainingszeiten und wie geht man damit um?

Antwort: Bei langfristigem Training tritt temporal confounding auf: Das Verhalten der Benutzer ändert sich (Saisonalität, Produktupdates) und die Daten der Erkundungsphase veralten zum Zeitpunkt der Ausnutzung. Klassische Uplift-Modelle nehmen Stationarität an, was selten zutrifft. Die Lösung besteht darin, adaptive experimentation mit decaying weights für alte Daten oder online learning Algorithmen (z. B. Bayesian Updating) zu verwenden. Auch ist eine Überwachung des concept drift über den Population Stability Index (PSI) für Merkmale und Modellleistung erforderlich. Anfängeranalysten trainieren häufig das Modell mit Quartalsdaten und wenden es über ein halbes Jahr an, ohne die Verschiebung des Benutzerverhaltens zu überprüfen (z. B. durch den Eintritt eines Konkurrenten), was zu negative uplift in der Produktion führen kann.

Warum kann die Metrik AUUC (Area Under Uplift Curve) irreführend sein, wenn zwei verschiedene Uplift-Modelle verglichen werden, und welche Alternativen sollten verwendet werden?

Antwort: AUUC hängt von der Verteilung des vorhergesagten Uplifts in der Population ab und ist nicht skalierungsinvariant. Wenn ein Modell konservativ einen niedrigen Uplift für alle vorhersagt und ein anderes aggressiv mit hoher Dispersion erfolgsversprechend ist, werden ihre Kurven sich schneiden und die AUUC wird ein mehrdeutiges Ergebnis liefern. Darüber hinaus ignoriert AUUC geschäftliche Einschränkungen (Budget für Aktionscodes). Alternativen sind der cost-sensitive Qini-Koeffizient oder die Expected Response bei festem Budget. Für einen Einsteiger ist es wichtig zu verstehen, dass ein gutes Modell nach AUUC ≠ eine gute Geschäftsmetrik ist. Es ist notwendig, Policy Evaluation mit der Simulation von Strategien zu verwenden: Benutzer nach dem vorhergesagten Uplift zu ranken, die Top-K% zu nehmen (gemäß dem Budget) und den tatsächlichen Anstieg mit dem kontrafaktischen Szenario über Doubly Robust Estimation oder Inverse Probability Weighting (IPW) zu vergleichen.