Antwort auf die Frage

Geschichtlicher Kontext. In den letzten Jahren ist BNPL (Buy Now Pay Later) zum Standard für Fintech-Integrationen im Einzelhandel geworden, der es Nutzern ermöglicht, Zahlungen zinsfrei zu splitten. Analysten stehen vor einem fundamentalen Problem: Ein randomisierter Versuch kann nicht durchgeführt werden, da die Ablehnung eines Kredits aus ethischen und rechtlichen Gründen unmöglich ist, und Nutzer auswählen sich selbst nach Kreditwürdigkeit. Dies führt zu klassischer Endogenität, wenn die beobachtete Korrelation zwischen der Nutzung von BNPL und einem hohen Bestellwert auf bereits bestehenden Merkmalen zahlungskräftiger Kunden basiert und nicht auf dem Produkt selbst.

Problemstellung. Die Hauptprobleme umfassen einen abrupten Unterschied in den Merkmalen an der Genehmigungsschwelle (z.B. 700 Punkte), Saisonalität (Black Friday, Jahresendzeit), Kannibalisierung künftiger Verkäufe (intertemporale Substitution) und eine Zunahme der Rückgaben aufgrund impulsiver Käufe. Es ist notwendig, den reinen inkrementellen Effekt (LATE — Local Average Treatment Effect) für Nutzer an der Genehmigungsgrenze zu isolieren und den Einfluss von Störfaktoren zu minimieren.

Detaillierte Lösung. Der optimale Ansatz ist das Sharp Regression Discontinuity Design (RDD) an der Genehmigungsschwelle mit einem Band von ±30-50 Punkten. Die Methodologie beruht auf der Annahme lokaler Zufälligkeit: Nutzer mit 695 und 705 Punkten sind statistisch nicht unterscheidbar in beobachtbaren und nicht beobachtbaren Merkmalen, fallen jedoch in verschiedene Gruppen (Kontroll- und Behandlungsgruppe). Zusätzlich wird Difference-in-Differences (DiD) angewendet, um die Dynamik vor und nach der Einführung innerhalb dieses Bandes zu verfolgen, was die Saisonalität kontrolliert. Zur Bewertung der Kannibalisierung wird eine Event Study mit Verzögerungen (Ausgaben in den Monaten t-3, t-2 vor der Nutzung von BNPL) verwendet. Wenn ein Instrument verfügbar ist (Genehmigungsschwelle), aber Nichtbefolgung vorliegt (genehmigte, aber nicht nutzende BNPL), wird Fuzzy RDD über Two-Stage Least Squares (2SLS) angewendet. Es ist wichtig, den Gleichgewicht der Kovariaten (Covariate Balance Tests) und die Dichteverteilung (McCrary test) zur Validierung des Designs zu überprüfen.

Lebenssituation

Ein Elektronik-Marktplatz hat BNPL von einem Partnerbank mit einer strengen Genehmigungsschwelle von 650 Punkten im internen Bewertungssystem integriert. Das Unternehmen verzeichnete einen Anstieg des durchschnittlichen Bestellwerts um 35% bei Nutzern mit BNPL, vermutete jedoch, dass dies auf die Selbstauswahl wohlhabenderer Kunden zurückzuführen war. Es musste eine Entscheidung über die Erhöhung des Kreditlimits getroffen werden, aber eine Einschätzung des tatsächlichen kausalen Effekts war erforderlich.

Option 1: Einfache Vergleich „BNPL genutzt“ vs. „nicht genutzt“ ohne Berücksichtigung der Schwelle. Vorteile: maximale einfache Umsetzung in SQL, erfordert keine komplexe Statistik. Nachteile: kritische Auswahlverzerrung (selection bias) — genehmigte Nutzer haben ein höheres Einkommen und eine Geschichte von Käufen, was zu einer überhöhten Schätzung des Effekts von bis zu +40% führt, die nicht mit dem Produkt verbunden ist. Das Ergebnis ist nicht geeignet für Entscheidungsfindungen.

Option 2: Before-After-Analyse für die gesamte Zielgruppe ohne Unterteilung in Gruppen. Vorteile: berücksichtigt allgemeine Wachstumstrends der Plattform und ist einfach zu interpretieren. Nachteile: es ist unmöglich, den Effekt von BNPL vom saisonalen Anstieg (Weihnachtsverkäufe) und gleichzeitigen Marketingkampagnen zu trennen. Die Schätzung ist aufgrund temporärer Nachfrageschocks verzerrt.

Option 3: Regression Discontinuity Design (RDD) an der Schwelle von 650 Punkten mit ±40 Punkten Bandbreite. Vorteile: nutzt den scharfen Unterschied in der Genehmigungswahrscheinlichkeit als natürliches Experiment und bewertet den Effekt für „marginale“ Nutzer, die die Schwelle „gerade so“ überschritten oder nicht überschritten haben. Kontrolliert nicht messbare Merkmale in der lokalen Nachbarschaft. Nachteile: bewertet nur den lokalen Effekt (LATE), der nicht ohne weiteres auf alle Nutzer mit hohem Score extrapoliert werden kann; erfordert eine große Stichprobe in der Nähe der Schwelle für statistische Power.

Ausgewählte Lösung: Kombination aus Sharp RDD für Nutzer im Band von 610-690 Punkten mit Propensity Score Matching basierend auf historischen Ausgaben und Einkaufs-kategorien, ergänzt durch Difference-in-Differences, um die Dynamik über 90 Tage nach dem Kauf zu verfolgen. Zur Kontrolle der Saisonalität wurden feste Effekte pro Woche eingeführt (Week Fixed Effects). Dadurch konnte der reine Produkteffekt von den Merkmalen des Kreditnehmers isoliert werden.

Ergebnis: Ein statistisch signifikanter Anstieg des durchschnittlichen Bestellwerts um 17% (ITT — Intent-to-Treat) für marginale Nutzer wurde festgestellt, aber ein Anstieg der Rücksendungsquote um 11% aufgrund impulsiver Käufe. Der Effekt erwies sich als heterogen: hoch für Elektronik (+24%), null für Haushaltschemikalien. Basierend auf den Daten wurde die Genehmigungsschwelle für risikobehaftete Warengruppen angepasst, was die Rückgabequote um 4% ohne Umsatzverlust senkte.

Was Kandidaten oft übersehen

Wie kompliziert man den Effekt der „Neuheit“ (novelty effect) von einer nachhaltigen Verhaltensänderung bei der Anwendung von RDD?

Es ist erforderlich, Dynamic RDD durchzuführen und den Effekt über Zeitintervalle hinweg zu analysieren (cohort-level RDD). Der Effekt wird separat für die Wochen 1-2 (Neuheit) und die Monate 3-6 (nachhaltiges Verhalten) bewertet. Wenn die Koeffizienten signifikant unterschiedlich sind (Überprüfung durch Chow test), verwenden wir nur das langfristige Fenster oder führen die Interaktion von Zeit mit treatment ein. Es ist auch wichtig, die pre-trend parallel zu überprüfen — das Fehlen eines Unterschieds in den Ausgangsbedingungen (Ausgaben) in Zeiträumen vor dem Überschreiten der Schwelle, was die Validität des Designs und das Fehlen von Anticipation Effects bestätigt.

Wie kann man die Kannibalisierung zukünftiger Verkäufe (intertemporale Substitution) bei der Einführung von BNPL korrekt bewerten?

Standard-RDD bewertet nur den statischen Effekt zum Zeitpunkt des Kaufs. Für die Kannibalisierung erstellen wir eine Event Study mit Verzögerungen und Überführungen (leads/lags) in Bezug auf den Zeitpunkt der ersten Verwendung von BNPL. Wir analysieren die Ausgaben in den Zeiträumen t-3, t-2, t-1 (vor) und t+1, t+2, t+3 (nach) Monaten. Wenn die Summe der Koeffizienten zu Leads (Pre-Periods) negativ und signifikant ist, weist dies auf die Entlehnung aus der Zukunft hin (der Nutzer plante die Anschaffung und beschleunigte sie dank BNPL). Wir verwenden die Local Projections Methode von Jordà für dynamische Multiplikatoren, die es ermöglicht, den reinen inkrementellen Effekt über einen längeren Zeitraum zu bewerten.

Warum kann in diesem Fall nicht einfach die Anpassung nach Neigung (Propensity Score Matching) ohne RDD verwendet werden und welche Annahmen werden verletzt?

PSM erfordert die Annahme der Unconfoundedness (Ignorability), was unmöglich ist, wenn nicht messbare Merkmale, die die Genehmigung beeinflussen (z.B. „Finanzdisziplin“, informelle Einkommensquellen, die nicht in die Bewertung gefallen sind), vorhanden sind. Diese latenten Variablen korrelieren sowohl mit der Genehmigung als auch mit den Ausgaben, was eine Verzerrung erzeugt. RDD schwächt diese Voraussetzung auf lokale Zufälligkeit an der Schwelle (Local Randomization), wo nicht messbare Merkmale zufällig verteilt sind. Kandidaten ignorieren oft die Notwendigkeit, die Dichteverteilung der Scores (McCrary test) und das Gleichgewicht der Kovariaten (Covariate balance tests) in der Nähe der Schwelle zu überprüfen, was entscheidend für die Validität der Schlussfolgerungen ist.