Antwort auf die Frage

Traditionelle Preismodellierungsansätze im E-Commerce haben sich lange auf einfache Korrelationsanalysen oder kurze A/B-Tests verlassen, um die Auswirkungen von Änderungen der Versandgrenzen zu bewerten. Mit der Entwicklung der Theorie der kausalen Inferenz (Causal Inference) wurde jedoch deutlich, dass drastische Änderungen in der Versandpolitik für die gesamte Nutzerbasis ein Problem der Endogenität der Selbstselektion und der zeitlichen Dynamik schaffen. Moderne Produktanalytik erfordert den Einsatz quasi-experimenteller Methoden wie Synthetic Control Method (SCM) und Bayesian Structural Time Series (BSTS), die ursprünglich zur Bewertung von makroökonomischen Politiken entwickelt wurden, aber erfolgreich für digitale Produkte mit hohen Metrikschwankungen angepasst wurden.

Bei der Erhöhung der Freibetragsgrenze für den kostenlosen Versand entsteht ein komplexes Problem der Identifikation des lokalen durchschnittlichen Behandlungseffekts (LATE). Nutzer mit hoher Kaufbereitschaft ändern ihr Verhalten (optimieren bis zur Grenze), während marginale Nutzer den Kauf aufschieben oder zu Konkurrenten abwandern. Die klassische Vorher-Nachher-Analyse liefert aufgrund von Saisonalität, Inflationswirkungen und konkurrierenden Kampagnen eine verzerrte Schätzung. Zusätzlich tritt der Effekt der intertemporalen Substitution (intertemporal substitution) auf, wenn Nutzer Käufe über die Zeit bündeln, was einen künstlichen Anstieg des durchschnittlichen Bestellwerts erzeugt, der nicht mit einem tatsächlichen Anstieg der Nachfrage verbunden ist, was eine Modellierung der zeitlichen Struktur der Reaktion erfordert.

Der optimale Ansatz besteht in der Kombination der Synthetic Control Method auf der Ebene aggregierter Nutzerkohorten und des Regression Discontinuity Design (RDD) zur lokalen Bewertung der Effekte auf marginale Konsumenten. Für SCM wird eine gewichtete Kombination geografischer Regionen oder Segmente mit ähnlicher historischer Dynamik erstellt, die den Trend der Zielgruppe vor der Intervention nachahmt, unter Verwendung des Gewichtungsoptimierungsalgorithmus Abadie-Diamond-Hainmueller. Für RDD werden Transaktionen in einem engen Band um die Grenze (optimale Bandbreite durch den Algorithmus Imbens-Kalyanaraman) analysiert, um den Reineffekt des Anreizes zu isolieren. Zusätzlich wird CausalImpact auf der Grundlage von BSTS angewendet, um die dynamische Schätzung der Abweichung vom synthetischen Trend vorzunehmen, wobei die statistische Signifikanz über den Permutationstest (Placebo-Tests) auf historischen Daten berechnet wird.

Situationsbeispiel

Ein großer Fashion-Marktplatz beschloss, die Freibetragsgrenze für den kostenlosen Versand von 1500₽ auf 2500₽ für die gesamte Zielgruppe in Russland gleichzeitig anzuheben. Das Produktteam stellte einen Anstieg des durchschnittlichen Bestellwerts um 22% in den ersten zwei Wochen fest, aber der CFO äußerte Zweifel an der Nachhaltigkeit dieses Effekts und befürchtete einen Abfluss wertvoller Nutzer und eine Kannibalisierung zukünftiger Verkäufe durch den Mechanismus der aufgeschobenen Käufe. Der Analyst hatte die Aufgabe, den tatsächlichen kausalen Effekt vom Rauschen saisonaler Verkaufsaktionen und dem veränderten Verhalten von Konkurrenten, die parallel Versandaktionen gestartet hatten, zu unterscheiden.

Die erste betrachtete Option war ein einfacher Vergleich der Metriken nach 30 Tagen vor und 30 Tagen nach der Änderung unter Verwendung eines t-Tests und der Berechnung des Uplifts in Prozent. Vorteile: maximale Umsetzungsgeschwindigkeit innerhalb eines Tages und hohe Verständlichkeit für das Management, ohne in die Statistiken einzutauchen. Nachteile: vollständige Ignorierung des aufsteigenden saisonalen Trends (Beginn der Frühlingskollektion), keine Kontrolle über externe Schocks (Werbekampagne eines Konkurrenten) und die Unmöglichkeit, den dynamischen Effekt des Ansammelns von Warenkörben abzuschätzen, was zu einer Überschätzung des Effekts um 40-60% führt.

Die zweite Option war ein Geographic Difference-in-Differences, wobei Regionen ohne Änderung der Schwelle (z.B. abgelegene Gebiete mit logistischen Einschränkungen) als Kontrollgruppe verwendet wurden. Vorteile: natürliche Variation und die Fähigkeit, regionale Unterschiede in der Preissensibilität über feste Effekte zu erfassen. Nachteile: kritische Verletzung der Annahme der parallelen Trends (parallel trends) aufgrund der Migration von Nutzern zwischen Städten (Verletzung der SUTVA) und signifikante Unterschiede im Wettbewerbsumfeld zwischen Hauptstädten und Regionen, was die Kontrollgruppe systematisch unvergleichbar macht.

Die dritte Option war die Synthetic Control Method auf der Ebene der Nutzerkohorten, gebildet nach historischer Kaufhäufigkeit und durchschnittlichem Bestellwert, basierend auf Daten der 12 Monate vor der Änderung. Vorteile: Erstellung eines optimalen Gewichtssatzes für die "Donor"-Segmente, das Saisonalität, Wochentage und Trends über eine konvexe Kombination berücksichtigt; Möglichkeit der visuellen Validierung der Anpassungsqualität im Vorbehandlungszeitraum. Nachteile: Anforderung an lange historische Daten (mindestens 10-15 Perioden), Empfindlichkeit gegenüber strukturellen Brüchen (regime switch), wie pandemiebedingte Verhaltensänderungen, und die Schwierigkeit, die Gewichte für das Geschäft zu interpretieren.

Es wurde eine kombinierte Lösung gewählt: SCM zur Bewertung des Gesamteffekts auf die Einnahmen und RDD mit einem lokalen Polynom zweiten Grades zur Bewertung der Effekte auf marginale Nutzer in der Bandbreite von 2300-2700₽. Dies ermöglichte es, den Effekt des "Nachkaufs" (basket augmentation) vom Effekt des "Abflusses" (churn) zu trennen und die Saisonalität korrekt über ein bayesianisches strukturelles Modell der Zeitreihen (BSTS), integriert in CausalImpact, zu berücksichtigen.

Das Endergebnis zeigte, dass der beobachtete Anstieg des Bestellwerts von 22% etwa doppelt so hoch war: Der tatsächliche inkrementelle Effekt betrug 11%, wobei 6% auf die zeitliche Verschiebung der Nachfrage (intertemporal substitution) und 5% auf einen tatsächlichen Anstieg des Warenkorbwerts entfielen. Die Analyse identifizierte das Segment der "versandempfindlichen" Nutzer (15% der Basis), die einen erhöhten Abfluss von 8% und einen Rückgang der Bestellhäufigkeit von 12% zeigten, was eine Anpassung der Politik ermöglichte: Einführung einer hybriden Schwelle von 1990₽ für das Segment der Niedrigbesteller mit hoher historischer Rücksendequote, um den negativen Effekt auf die Bindung abzumildern.

Was Bewerber häufig übersehen

Wie berücksichtigt man den Effekt des Ansammelns von Warenkörben (cart pooling) und die intertemporale Substitution von Käufen bei der Bewertung des dynamischen Schwellenwerts des Versands, wenn Nutzer strategisch die Konversion aufschieben?

Antwort: Es ist notwendig, die zeitliche Struktur der Entscheidungsfindung über Survival Analysis (Cox-Modell mit proportionalen Risiken) oder die Analyse der Intervalle zwischen den Sitzungen (inter-purchase time) zu modellieren. Die entscheidende Kennzahl wird nicht die Punktkonversion sein, sondern die Änderung der Hazard-Rate des Kaufs in Abhängigkeit vom aktuellen Betrag des Warenkorbs und der Entfernung zur Schwelle. Zusätzlich sollten die Kohorten von Nutzern, die die Schwelle durch den Kauf erreicht haben, hinsichtlich des erhöhten Anteils an Rückgaben innerhalb von 14 Tagen (Rückgabekanibalisierung) analysiert werden, was die GMV-Kennzahl verzerrt und eine Anpassung der return rate im Modell erfordert.

Warum sind standardisierte Vertrauensintervalle (confidence intervals) im Rahmen der Synthetic Control Method nicht korrekt und wie sollte die statistische Signifikanz des kausalen Effekts in dieser Methodologie bewertet werden?

Antwort: In SCM-Schätzungen sind sie inferential uncertainty ausgesetzt, die mit dem Prozess der Gewichtung von Donoreinheiten und der Endlichkeit der Stichprobe verbunden ist, was die Annahmen der klassischen frequentistischen Statistik über die Unabhängigkeit der Beobachtungen verletzt. Der korrekte Ansatz ist der Permutationstest (Placebo-Test), bei dem derselbe SCM-Algorithmus auf jede Donoreinheit aus dem Pool angewendet wird (wir simulieren, dass sie die Behandlung erhalten haben), was eine empirische Verteilung der Placebo-Effekte erzeugt. Ein Effekt gilt als statistisch signifikant auf dem Niveau von 5%, wenn das post/pre-RMSPE-Verhältnis für die behandelte Einheit das 95. Perzentil der Placebo-Verteilung überschreitet, wie in den Arbeiten von Abadie, Diamond und Hainmueller (2010, 2015) formalisiert.

Wie unterscheidet man den Effekt der Änderung der Versandgrenze von gleichzeitigen Änderungen der Verkehrsqualität oder der Wettbewerbsaktivität bei der Verwendung von Causal Impact oder Synthetic Control?

Antwort: Es ist entscheidend, covariates (Prädiktoren) in das Modell einzubeziehen, die nicht von der Intervention beeinflusst werden (untreated confounders), die jedoch mit der Zielmetrik korrelieren - beispielsweise die Besucherzahlen der Wettbewerber-Websites (über SimilarWeb oder Paneldaten), das gesamte Marktvolumen des E-Commerce in der Region oder die CTR des organischen Verkehrs. In der bayesianischen Struktur BSTS, die der Grundlage von CausalImpact zugrunde liegt, treten diese Variablen als Regressoren in das Zustandsraum-Modell ein, wobei allgemeine Schocks isoliert werden. Es sollten auch Granger-Kausalität-Tests zwischen den Prädiktoren und dem Ergebnis vor der Intervention durchgeführt werden und placebo-in-time-Tests verwendet werden, bei denen das Datum der "Intervention" auf historische Zeiträume verschoben wird, um das Fehlen von falsch positiven Auslösungen zu überprüfen.