Antwort auf die Frage

Geschichtlicher Kontext. Seit den 2020er Jahren hat sich die Evolution des E-Commerce vom schnellen Versand (Same-Day) hin zu nachhaltiger Logistik verlagert, wo die Konsolidierung von Bestellungen den CO2-Fußabdruck und die Kosten für die letzte Meile senkt. Frühe Experimente wie Amazon Day und ähnliche Dienste haben gezeigt, dass die freiwillige Zusammenlegung von Lieferungen eine Selbstselektion von Nutzern mit geringerer Dringlichkeit zur Folge hat, was endogene Effekte in der Bewertung der Auswirkungen auf die Produktmetriken schafft. Traditionelle A/B-Tests erwiesen sich als unbrauchbar bei erzwungener Konsolidierung, da die logistische Infrastruktur eine massenhafte Routenoptimierung auf zonenübergreifender Ebene erfordert und nicht auf individueller Nutzerbasis.

Problemstellung. Bei der Einführung eines Konsolidierungssystems (zum Beispiel nur Dienstags und Freitags zu liefern) gibt es das Problem der fehlenden zufälligen Verteilung: Nutzer in den Einführungszonen unterscheiden sich systematisch in der geografischen Entfernung zu den Lagern und in ihrer Geduld bezüglich Wartezeiten. Darüber hinaus besteht das Risiko von Spillover-Effekten, wenn Nutzer ihre Lieferadresse auf die ihrer Arbeitsstelle oder Freunde in benachbarten Regionen ändern, ohne zu konsolidieren, was die Annahme SUTVA (Stable Unit Treatment Value Assumption) verletzt. Saisonalität der Nachfrage und die Korrelation zwischen dem Start und der logistischen Optimierung in einkommensstarken Regionen verzerren außerdem die Bewertung des tatsächlichen kausalen Effekts.

Detaillierte Lösung. Zur Isolierung des Effekts wird Staggered Difference-in-Differences (DiD) verwendet, bei dem die Einführung schrittweise (Rollout) in den Logistikzonen erfolgt, wobei die Zeiträume vor der Einführung als Kontrolle für die Zeiträume danach dienen. Es ist wichtig, die Annahme über parallele Trends durch Event-Studien zur Analyse der Dynamik der Metriken vor dem Einführungszeitpunkt zu überprüfen, um sicherzustellen, dass es keine differenziellen Trends zwischen zukünftigen Behandlungs- und Kontrollgruppen gibt. Für jede Zone wird ein Synthetic Control aus Spenderregionen mit ähnlicher historischer Auftragsdynamik, aber ohne geplante Einführung erstellt, um einen Counterfactual zu modellieren und die Robustheit der Schätzungen zu erhöhen.

Um partielle Einhaltung (Partial Compliance) zu korrigieren, wird eine IV-Regression (Instrumental Variable) eingesetzt, bei der das Instrument (Z) die Zugehörigkeit eines Nutzers zur Einführungszone (Assignment) darstellt, die die tatsächliche Nutzung der Konsolidierung (D) vorhersagt, während das Outcome (Y) die Bindung oder Kaufhäufigkeit ist. Dies ermöglicht die Schätzung des LATE (Local Average Treatment Effect) – der Effekt für diejenigen, die ihr Verhalten aufgrund der Einführung geändert haben (Compliers), im Gegensatz zu ITT (Intent-to-Treat), der die Wirkung des Angebots des Dienstes zeigt. Die Analyse der Heterogenität nach Produktkategorien (Impulse- vs. Vorratswaren) hilft, den wahren Rückgang der Nachfrage von intertemporärer Substitution zu unterscheiden.

Lebenssituation

Ein Einzelhändler für Hausgeräte hat in drei großen Städten ein Pilotprojekt zur Konsolidierung von Lieferungen gestartet, um die logistischen Kosten um 30 % zu senken. Die Analyse stieß auf Verzerrungen beim Vergleich von Nutzern, die der Konsolidierung zugestimmt hatten (Treatment), mit den Ablehnenden (Control): Die Adoptoren hatten historisch eine geringere Kaufhäufigkeit und einen höheren durchschnittlichen Warenkorb, was auf eine Selbstselektion der planenden Käufer hinwies. Ein einfaches Vergleich hätte zu einem falschen Rückgang der Bindung geführt, während das Verhalten in der Tat stabil, aber durch Auswahlverzerrungen verzerrt sein könnte.

Erste Option – direkter Vergleich der Metriken vor und nach der Einführung (Pre-Post-Analyse) innerhalb der Zone. Die Vorteile liegen in der Einfachheit der Umsetzung und der schnellen Ergebniserzielung ohne die Notwendigkeit von Daten aus anderen Regionen. Die Nachteile sind offensichtlich: Es ist unmöglich, den Effekt der Konsolidierung von saisonalen Nachfrageschwankungen und allgemeinen Trends des Nutzerwachstums zu trennen, was zu einem systematischen Verzerrung bei der Koinzidenz des Starts mit Feiertagsperioden oder Werbekampagnen führt.

Zweite Option impliziert einen Querschnittsvergleich von Zonen mit und ohne Einführung zu einem festen Zeitpunkt. Die Vorteile beinhalten die Möglichkeit, temporäre Trends durch einen Momentaufnahme der Daten zu kontrollieren und die Notwendigkeit einer langen Historie in den Kontrollregionen zu vermeiden. Die Nachteile sind, dass die Regionen für die Einführung nach dem Kriterium hoher Bestellanzahl und Benutzerloyalität ausgewählt wurden, was zu einer starken Auswahlverzerrung (Selection Bias) führt und die Gruppen in Bezug auf Ausgangsmerkmale unvergleichbar macht.

Dritte Option verwendet Staggered DiD mit Propensity-Score-Matching und Synthetic Control. Die Vorteile liegen darin, dass Regionen ohne Einführung als Kontrollgruppe verwendet werden können, was es ermöglicht, regionale und zeitliche fixe Effekte beizubehalten, während Matching die Vergleichbarkeit der Pre-Trend-Merkmale verbessert. Die Nachteile beinhalten die Komplexität der Validierung der Annahme über parallele Trends bei heterogenen Effekten über die Zeit und das Risiko von räumlicher Korrelation (Spatial Spillover) zwischen benachbarten Zonen, in denen Nutzer die Lieferadressen ändern können.

Ausgewählte Lösung und Ergebnis: Die dritte Methode wurde gewählt, mit zusätzlicher Verwendung von IV-Regression an den Grenzen der Logistikzonen (RDD-Stil Grenzanalyse) zur lokalen Validität. Dies ermöglichte es, den Effekt von regionalen Unterschieden im Kaufverhalten und Serviceniveau zu isolieren. Die Analyse zeigte, dass der wahre Effekt der Konsolidierung – ein Rückgang der Transaktionshäufigkeit um 8 % (nicht 15 % wie in der naiven Analyse), aber ein Anstieg des durchschnittlichen Warenkorbs um 22 % durch die Zusammenlegung kleinerer Bestellungen ist. Die Bindung blieb auf dem Niveau der Kontrollgruppe, was die Skalierung der Funktion in andere Regionen mit prognostizierten wirtschaftlichen Effekten rechtfertigte.

Infolgedessen senkte das Unternehmen die logistischen Kosten um 35 % durch Routenoptimierung und kompensierte den Rückgang der Bestellhäufigkeit durch Anstieg des durchschnittlichen Warenkorbs. Das Prognosemodell auf Basis der erhaltenen Koeffizienten ermöglichte die Berechnung des Break-Even-Punktes für den Start in neuen Regionen mit unterschiedlicher Bevölkerungsdichte. Die Methodologie wurde als Standard zur Bewertung logistischer Innovationen in Abwesenheit klassischer A/B-Tests angenommen.

Was Kandidaten oft übersehen

Wie unterscheidet man den echten Rückgang der Kaufhäufigkeit von intertemporärer Substitution, wenn Nutzer einfach den Einkauf bis zum nächsten Lieferfenster aufschieben?

Die Antworten der Kandidaten ignorieren oft die dynamische Natur der Nachfrage und gehen davon aus, dass ein Rückgang der Häufigkeit innerhalb eines Monats gleichbedeutend mit einem Verlust des Kunden ist. Es ist notwendig, Nutzerkohorten mit langem Zeitverzug (180+ Tage) zu analysieren und die Produktkategorien zu differenzieren: Für verderbliche oder Impulse-Waren (Snacks, Accessoires) ist eine Verschiebung gleichbedeutend mit einem Verlust, während dies bei geplanten Käufen (Haushaltsgeräte) einfach eine zeitliche Verschiebung ist. Methodologisch sollten Distributed Lag Models verwendet oder das „Stockpiling“-Verhalten durch die Metrik der Lagerhaltungstage zu Hause analysiert werden, die auf Basis der Kaufhistorie von regelmäßig konsumierten Kategorien berechnet wird. Wenn die Gesamtanzahl der Artikel über 90 Tage gesunken ist – dann ist das ein Verlust an Nachfrage, wenn sie gleich geblieben ist, aber das Intervall zwischen den Bestellungen gewachsen ist – dann ist das eine Substitution.

Wie berücksichtigt man räumliche Kontamination (Spillover-Effekte), wenn Nutzer die Lieferadresse für die Arbeit oder Freunde in benachbarten Zonen ohne Konsolidierung ändern, um die Ware schneller zu erhalten?

Der Standard-DiD geht von der Annahme aus, dass es keinen Einfluss der Behandlung auf die Kontrollgruppe gibt, aber in der Praxis können Nutzer aus der „Treatment“-Gruppe Adressen in der „Control“-Gruppe für dringende Bestellungen verwenden und die Kontrollmetriken nach oben verzerren. Eine Lösung besteht in einem geografischen Filter: Man analysiert nur Nutzer mit einer „stabilen“ Wohnadresse (Historie > 6 Monate ohne Änderungen) und schließt hybride Bestellungen (Lieferung in eine andere Zone) aus. Alternativ kann man spatial DiD mit Gewichtungen verwenden, die umgekehrt proportional zur Entfernung zur Zonengrenze sind, oder nur Regionen analysieren, die mehr als 50 km von den Grenzen entfernt sind (Donut RDD), wo Spillover minimal ist.

Wie interpretiert man korrekt den Unterschied zwischen ITT (Intent-to-Treat) und LATE (Local Average Treatment Effect) im Kontext partiellem Compliance, wenn nicht alle Nutzer in der Einführungszone die Konsolidierung nutzen?

Kandidaten vermischen oft den Effekt des „Angebots des Dienstes“ und der „tatsächlichen Nutzung“. ITT bewertet den Effekt auf alle Nutzer in der Einführungszone, einschließlich derjenigen, die die Funktion ignoriert haben, und ist nützlich für den Business-Case der Skalierung. LATE (über IV-Regression mit dem Instrument „Vorhandensein des Dienstes in der Zone“) bewertet die Wirkung nur für Compliers – diejenigen, die ihr Verhalten aufgrund der Einführung geändert haben. Wenn die Compliance niedrig ist (zum Beispiel nutzen 30 % die Konsolidierung), wird ITT um den Faktor 3 unter dem wahren Effekt für die Nutzer der Funktion liegen. Es ist wichtig, beide Metriken zu berichten: ITT für die Prognose des allgemeinen Geschäftseffekts bei der Skalierung und LATE zum Verständnis des Wertes für das bestimmte Segment, das die Entscheidung über die Nutzung trifft.