Antwort auf die Frage

Historischer Kontext. Im klassischen Online-Retail wurde das Fehlen eines Produkts in einer Bestellung (out-of-stock) traditionell durch die Stornierung der Position oder durch einen Anruf des Managers gelöst, was die Konversion und Zufriedenheit drastisch verringerte. Mit der Entwicklung von ML-Empfehlungssystemen wurde es möglich, substitutions in Echtzeit basierend auf semantischer Nähe, Preisparität und der Historie von Ersatzprodukten anzubieten. Einfacher Vergleich von Bestellungen mit und ohne Substitutionen ergibt jedoch eine verzerrte Bewertung, da das Vorhandensein einer Substitution mit dem ursprünglichen Mangel an Produkten korreliert, und Nutzer, die automatische Substitutionen akzeptieren, systematisch von denjenigen abweichen, die sie ablehnen.

Problemstellung. Die wesentliche Schwierigkeit besteht in der Endogenität der Selbstauswahl: Loyale Nutzer erlauben häufiger automatische Substitutionen, während zufällige Mängel die Stichprobe ungleichmäßig nach Kategorien betreffen (verderbliche Waren vs. Technik). Darüber hinaus erfolgt die Implementierung auf Lager-Ebene, was klassisches A/B-Testing auf Nutzer-Ebene aufgrund von Kontamination durch den gemeinsamen Bestand ausschließt. Es ist notwendig, den reinen Effekt der Qualität der ML-Substitution vom grundsätzlichen Negativ des Produktmangels zu isolieren und die Heterogenität nach Kategorien zu berücksichtigen.

Detaillierte Lösung. Der optimale Ansatz ist eine Kombination aus Difference-in-Differences (DiD) auf Lager-Ebene und Causal Forest zur Bewertung der Heterogenität des Effekts. Für Lager mit der Implementierung von ML-Substitutionen (treatment) wird eine Kontrollgruppe durch die Synthetic Control Method ausgewählt, wobei Lager ohne automatische Substitutionen mit ähnlicher Nachfrage- und Saisonalitätsstruktur verwendet werden. Für Nutzer innerhalb der treatment-Lager wird Propensity Score Matching verwendet, um diejenigen zu paaren, die Substitutionen akzeptieren und ablehnen, basierend auf historischen Merkmalen (Bestellfrequenz, durchschnittlicher Bestellwert, kategorielle Präferenzen). Der Effekt wird als Conditional Average Treatment Effect (CATE) mit Aufschlüsselung nach Substituierbarkeitskategorien (hoch/mittel/niedrig) bewertet, was es ermöglicht, den technologischen Effekt vom Selektions-Effekt zu trennen.

Lebenssituation

Das Unternehmen „ProduktPlus“ implementierte ein System intelligenter Substitutionen für fehlende Positionen in Online-Bestellungen. Das Problem bestand darin, dass 15% der Bestellungen out-of-stock Positionen enthielten, was zu einer Abwanderung der Nutzer führte. Die Analysten mussten messen, ob die ML-Substitutionen tatsächlich den negativen Effekt des Mangels verringern oder einfach die Einkaufsprobleme verschleiern.

Erste Option — klassisches A/B-Testing auf Niveau der Nutzer mit Unterteilung in die Gruppen „automatische Substitution aktiviert“ und „deaktiviert“. Vorteile: einfache Interpretation und direkte Vergleichbarkeit der Konversionsmetriken. Nachteile: in der Praxis nicht möglich, da ein Lager beide Gruppen bedient, und wenn ein Produkt ausverkauft ist, kann es nicht „zurückgegeben“ werden für die Kontrollgruppe, was eine logistische Kollision und Kontamination erzeugt.

Zweite Option — Vergleich „vor und nach“ in denselben Lagern ohne Kontrollgruppe. Vorteile: einfache Berechnung und kein Bedarf an Synchronisierung mit anderen Lagern. Nachteile: Saisonalität der Produktnachfrage und Änderungen im Sortiment verzerren das Ergebnis, es ist unmöglich, den Effekt der Funktion vom allgemeinen Wachstum der Basis zu trennen.

Dritte Option — quasi-experimentelles Design Difference-in-Differences unter Verwendung von städtischen Mikrolagern als Randomisierungseinheiten, bei denen die treatment-Lager das ML-Modell erhielten, während die Kontrolllager auf manuelle Genehmigung blieben. Vorteile: beseitigt systematische Trends und Saisonalität, ermöglicht statistisch signifikante Schlussfolgerungen. Nachteile: erfordert strenge Annahmen über parallele Trends und eine ausreichende Anzahl homogener Lager zur Bildung der synthetischen Kontrolle.

Die gewählte Lösung: Das Team wählte die dritte Option mit zusätzlicher Anwendung des Causal Forest zur Segmentierung der Nutzer nach Bereitschaft, Substitutionen zu akzeptieren. Dies ermöglichte es, den Effekt für „Konservativen“ und „frühe Nachfolger“ separat zu isolieren, indem die vorherige Bestellhistorie durch Propensity Score Matching angepasst wurde.

Das Endergebnis: Es konnte festgestellt werden, dass die ML-Substitutionen die Retention um 12% nur für Kategorien mit hoher Substituierbarkeit (Milchprodukte, Trockenwaren) erhöhen, aber die Zufriedenheit um 8% für Nischenprodukte (Craft-Bier, Bio) verringern, wo Substitutionen als aufdringlich wahrgenommen werden. Das Unternehmen schränkte automatische Substitutionen auf Kategorien mit hoher Präferenzkorrelation ein, was zu einem Anstieg des NPS um 0,4 Punkte und einer Verringerung der Betriebskosten für manuelle Umgruppierung um 23% führte.

Was Kandidaten oft übersehen

Wie unterscheidet man den Effekt der Technologie der automatischen Substitution vom Effekt der Qualität eines bestimmten ML-Modells und vermeidet Überlebensverzerrung (survivorship bias)?

Antwort. Kandidaten vermischen häufig den technologischen Effekt (die Möglichkeit der Substitution an sich) mit dem qualitativen (Genauigkeit der Auswahl eines Äquivalents). Zur Trennung ist es wichtig, eine Dosis-Antwort-Funktion (dose-response function) zu erstellen, bei der „Dosis“ die Wahrscheinlichkeit der Relevanz der Substitution anhand der Modellmetrik (NDCG@1) ist. Durch die Anwendung der Fuzzy Regression Discontinuity um den Schwellenwert der Akzeptanzrate des Modells (z.B. Substitutionen mit Sicherheit > 0.8 vs 0.6) kann der reine Effekt der Qualität vom Effekt des Vorhandenseins der Funktion isoliert werden. Dabei ist es wichtig, Überlebensverzerrungen zu berücksichtigen: Nutzer, die in der ersten Bestellung schlechte Substitutionen erhielten, können die Funktion für immer deaktivieren, was die Stichprobe zu Gunsten erfolgreicher Fälle verzerrt. Zur Korrektur wird das Heckman-Auswahlmodell verwendet, das das Auswahlgleichung (Wahrscheinlichkeit, nach der ersten Erfahrung in der Stichprobe zu bleiben) und die Ergebnisequation (Zufriedenheit) gemeinsam modelliert.

Wie berücksichtigt man Kreuzkontamination (spillover) zwischen Kategorien, wenn eine fehlgeschlagene Substitution in einer Kategorie die Wahrnehmung der gesamten Bestellung und die Stornierung anderer Positionen beeinflusst?

Antwort. Der Standardansatz bewertet den Effekt einer Kategorie isoliert und ignoriert negative Spillover auf den Warenkorb. Um zwischenkategoriale Effekte zu berücksichtigen, muss die Bestellung als System von wechselseitigen Waren modelliert werden, wobei Graph Causal Models oder Structural Equation Modeling (SEM) verwendet werden. Konkret wird ein Graph der Abhängigkeiten zwischen den Kategorien erstellt (z.B. der Ersatz von Joghurt beeinflusst die Wahrnehmung von Müsli), und der Effekt wird über den Total Treatment Effect mit Kontrolle der Kovariaten für benachbarte Positionen bewertet. Alternativ wird eine Mediationsanalyse verwendet, bei der der Mediator das „Enttäuschungsflag“ ist (Entfernen anderer Waren aus dem Warenkorb nach Anzeige der Substitution). Dadurch kann der Gesamteffekt in einen direkten (in der Kategorie) und indirekten (durch Änderung des Warenkorbs) Effekt zerlegt werden, wodurch eine überhöhte Bewertung der Vorteile von Substitutionen vermieden wird.

Wie interpretiert man die Ergebnisse korrekt, wenn das ML-Modell dynamisches Lernen (learning effects) zeigt und die Qualität der Substitutionen im Laufe der Zeit besser wird, was einen zeitlichen Trend in der treatment-Gruppe erzeugt?

Antwort. Anfänger-Analytiker ignorieren die non-stationarity des Effekts und nehmen an, dass ATE über den gesamten Beobachtungszeitraum konstant ist. Bei dynamischem Lernen des Modells unterscheidet sich der Effekt „heute“ systematisch vom Effekt „vor einem Monat“, was die Annahme der Stable Unit Treatment Value Assumption (SUTVA) über zeitliche Stabilität verletzt. Die Lösung besteht darin, Time-Varying Coefficient Models oder Bayesian Structural Time Series (BSTS) anzuwenden, wobei der Trend des Effekts als latente Variable modelliert wird. Im Rahmen von DiD muss die Wechselwirkung von Zeit und Treatment (event study design) einbezogen werden, um die Hypothese von parallelen Trends für jeden zeitlichen Abschnitt zu überprüfen. Wenn der Effekt wächst, ist es wichtig, die learning curve des Modells (Verbesserung des Algorithmus) von der user adaptation (Gewöhnung der Nutzer an die Funktion) zu unterscheiden, indem unterschiedliche Nutzerkohorten und Modellversionen zur Dekompensation verwendet werden.