Antwort auf die Frage

Historisch haben sich Lieferservices von dem Modell „Lieferung innerhalb von 60 Minuten“ zur hyperlokalen Logistik mit genauen Zeitfenstern entwickelt. Dieser Übergang schafft ein methodologisches Problem: Restaurants mit ursprünglich hoher operativer Effizienz (kurze Vorbereitungszeit, Nähe zu Gebieten mit hoher Auftragsdichte) selektieren sich in den ersten Wellen der Einführung selbst aus, während problematische Punkte später oder gar nicht angeschlossen werden. Ein direkter Vergleich der Conversion vor und nach der Einführung führt zu einer überhöhten Schätzung des Effekts, da systematische Unterschiede zwischen Early Adopters und Laggers ignoriert werden.

Das Problem wird durch geografische Clusterbildung verschärft: Restaurants im Stadtzentrum, wo die Nachfrage hoch und stabil ist, erhalten häufiger früher Zugang zur Funktion als periphere Punkte mit volatiler Nachfrage. Saisonale Schwankungen (z.B. zu den Feiertagen oder Sommerflauten) verzerren zudem die beobachteten Trends und machen es unmöglich, einfache Mittelwertvergleiche zwischen Gruppen zu verwenden.

Um den wahren Effekt zu isolieren, sollte eine Kombination von Difference-in-Differences (DiD) mit festen Effekten für Restaurant und Zeit, ergänzt durch Propensity Score Matching (PSM) zur Beseitigung von Selbstselektionseffekten, angewendet werden. Im ersten Schritt wird ein Modell zur Wahrscheinlichkeit der Anbindung an das System der genauen Slots auf Basis von Kovariaten (historische Lieferzeiten, Bewertungen, Dichte der Kuriere im Umkreis) erstellt, wonach jedem bearbeiteten Restaurant ein Kontroll-„Zwilling“ aus den noch nicht angeschlossenen zugeordnet wird. Anschließend wird die doppelte Differenz in der Dynamik der Conversion zwischen diesen Paaren geschätzt, was es ermöglicht, nicht beobachtbare konstante Merkmale (z.B. Küchenqualität) zu kontrollieren. Zur Berücksichtigung räumlicher Korrelationen wird eine Clusterung der Standardfehler auf Ebene geografischer Zellen vorgenommen oder die Synthetic Control Method verwendet, die eine gewichtete Kombination nicht angeschlossener Restaurants schafft, die ein kontrafaktisches Szenario für behandelte Einheiten simuliert.

Lebenssituationsbeispiel

Bei dem größten nationalen Lieferservice war die Einführung der Funktion „Lieferung im gewählten 15-minütigen Fenster“ für Premium-Restaurants geplant. Der Pilotstart erfolgte in drei Städten, in denen sich zunächst 15 % der Partner mit historisch kurzen Zubereitungszeiten und hohen Bewertungen anschlossen. Nach einem Monat verzeichneten Analysten einen Anstieg der Conversion um 22 % bei angeschlossenen Restaurants, aber das Geschäft war unsicher, ob dies der Effekt der Funktion oder einfach das Ergebnis der ursprünglich hohen Qualität dieser Punkte war.

Drei Ansätze zur Bewertung wurden geprüft. Die erste Option — ein einfacher Vergleich der durchschnittlichen Bestellwerte und Conversion vor und nach der Anbindung — wurde sofort verworfen: Sie ignorierte das trendmäßige Marktwachstum und die saisonalen Nachfragespitzen während der Feiertage, was zu einer überhöhten Schätzung um +22 % führte, aber nicht berücksichtigte, dass diese Restaurants ohne die neue Funktion um 8-10 % schneller als der Markt wuchsen.

Die zweite Option — eine Kohortenanalyse, die Nutzer verglich, die die genaue Lieferzeit sahen, mit denen, die die Standardzeit „40-50 Minuten“ sahen — erwies sich ebenfalls als problematisch: Nutzer in Gebieten mit Premium-Restaurants hatten ursprünglich einen höheren durchschnittlichen Bestellwert und Loyalität, was zu einer Selbstselektion führte. Der Versuch, die Stichprobe nach geografischen Kriterien zu beschränken, führte zu einem Verlust von 40 % der Daten und verringerte die Teststärke.

Die dritte Option, die gewählt wurde, beinhaltete den Aufbau von Synthetic Control für jedes angeschlossene Restaurant auf Basis von 50 nicht angeschlossenen „Spendern“ mit ähnlicher Verkaufshistorie, Geografie und Saisonalität. Die Methodologie DiD wurde auf diese gewichteten synthetischen Gruppen angewendet, wobei zusätzlich Witterungsbedingungen (die die Nachfrage nach Lieferungen beeinflussten) und Wochentage kontrolliert wurden. Dies ermöglichte die Isolierung des reinen Effekts von +9,3 % in der Conversion und +14 % in der Häufigkeit von Wiederbestellungen, wobei eine Heterogenität festgestellt wurde: der Effekt war signifikant nur für Restaurants mit einer Zubereitungszeit von weniger als 12 Minuten, während für langsamere Küchen das präzise Lieferfenster keinen statistisch signifikanten Anstieg brachte, da der Engpass nicht in der Logistik, sondern in der Produktion lag.

Was Kandidaten oft übersehen

Wie das Einhalten der Annahme paralleler Trends (parallel trends) in DiD überprüft werden kann, wenn die Early Adopters sich systematisch von der Kontrollgruppe unterscheiden?

Kandidaten geben häufig an, DiD anzuwenden, ohne die Schlüsselannahme zu überprüfen: Vor der Einführung müssen die Trends der Metriken in der Behandlungs- und Kontrollgruppe parallel verlaufen. In einem Umfeld der Selbstselektion ist diese Annahme normalerweise verletzt. Es muss eine Event Study (dynamische DiD) mit Indikatoren für vorlaufende Zeiträume (lead indicators) einige Wochen vor der Einführung durchgeführt werden. Wenn die Koeffizienten bei diesen Indikatoren statistisch signifikant und von null verschieden sind, sind die Trends nicht parallel, und es ist erforderlich, Augmented DiD oder die Hinzufügung von Trendinteraktionen (interactions with time trends) zur Kontrolle von differentialen Trends zu verwenden. Außerdem kann ein Change-in-Changes Modell genutzt werden, das weniger empfindlich gegenüber Verstößen gegen die Parallelität ist, aber die Monotonie der Verteilung der Ausgangswerte erfordert.

Wie man räumliche Spillover-Effekte (spillover effects) berücksichtigt, wenn die Einführung der genauen Lieferung in einem Bezirk das Verhalten der Nutzer in benachbarten Bezirken ohne Funktion beeinflusst?

Analytiker ignorieren oft, dass Nutzer zwischen den Bezirken migrieren oder ihre Vorlieben ändern können, nachdem sie von der Funktion bei Freunden gehört haben. Dies führt zu einer positiven Verzerrung in der Kontrollgruppe (SUTVA-Verletzung). Für die Diagnose müssen Spatial DiD durchgeführt werden, wobei räumliche Lags (spatial lags) der Konzentration angeschlossener Restaurants im Umkreis von 1-2 km um jeden Punkt in das Modell aufgenommen werden. Wenn der Koeffizient des räumlichen Lags signifikant ist, existieren Netzwerkeffekte. In diesem Fall führt die klassische DiD-Schätzung zu einer Unterschätzung des Effekts (attenuation bias), und es ist erforderlich, Two-Stage Least Squares (2SLS) mit Instrumenten auf der Ebene administrativer Grenzen zu verwenden (z.B. die technische Bereitschaft eines bestimmten Lagers zur Sortierung nach Zeitfenstern), die die Anbindung eines Restaurants beeinflussen, aber nicht direkt mit der Nachfrage in benachbarten Bezirken korrelieren.

Warum sollte man einfaches Propensity Score Matching ohne nachfolgendes DiD nicht verwenden, und welche Fehler treten bei der Bewertung langfristiger Effekte (dynamic treatment effects) auf?

Einsteiger wenden häufig PSM als eigenständige Methode an, um vergleichbare Gruppen zum Zeitpunkt t0 zu erstellen, vergleichen sie dann aber zu einfachen Mittelwerten zu t1. Dies ignoriert die zeitliche Struktur der Daten und mögliche zeitliche Schocks. Der richtige Ansatz ist PSM-DiD, bei dem Matching nur zur Auswahl der Kontrollgruppe verwendet wird, während die Effektbewertung über die Differenz der Differenzen erfolgt. Darüber hinaus vernachlässigen Kandidaten häufig das Problem dynamischer Effekte: Der Effekt der genauen Lieferung kann mit der Zeit zunehmen (Nutzer gewöhnen sich an die Funktion) oder abnehmen (Neuartigkeitseffekt). Dafür ist es notwendig, ein staggered DiD mit mehreren Implementierungszeiträumen zu erstellen und moderne Anpassungen zur Beseitigung von Verzerrungen zu verwenden, die bei heterogenen Effekten über die Zeit entstehen (z.B. die Methode Callaway & Sant'Anna oder Sun & Abraham zur korrekten Aggregation kohortenbasierter Effekte), da die standardmäßige zwei-periodische DiD in solchen Fällen eine verzerrte Schätzung des durchschnittlichen Effekts auf behandeltes (ATT) liefert.