Antwort auf die Frage.

Historisch betrachtet hat sich die E-Commerce-Entwicklung von isolierten Produktkarten hin zu komplexen Entscheidungsunterstützungswerkzeugen entwickelt. In den 2010er Jahren wurde das Erscheinen von Vergleichsfunktionen als Antwort auf das Wachstum des Sortiments und die kognitive Überlastung der Benutzer eingeführt, jedoch stießen klassische Korrelationsmetriken zwischen der Nutzung des Vergleichs und hohen Bestellwerten unweigerlich auf Endogenität: Die Funktion wird von bereits motivierten Käufern mit hoher Kaufabsicht genutzt.

Das Problem der Messung besteht aus dreifacher Komplexität: Selbstselektion nach Engagement (selection bias), schrittweise Einführung in Kategorien, die die Synchronität stört (staggered adoption), und Netzwerkeffekte innerhalb der Kategorie, bei denen der Vergleich die Nachfrage von einem SKU auf ein anderes zieht. Ohne Kontrolle dieser Faktoren erhält der Analyst eine verzerrte Schätzung, die den Effekt für aktive Benutzer überbewertet und externe Effekte für die nicht verwendenden Funktionen ignoriert.

Eine detaillierte Lösung erfordert eine Kombination aus Instrumentalvariablen (IV) und Difference-in-Differences (DiD). Als Instrument wird die quasi-zufällige Sichtbarkeit des Vergleichs-Buttons verwendet, zum Beispiel durch einen A/B-Test zur Platzierung des UI-Elements oder exogene Faktoren wie die Bildschirmauflösung, die die Anzeige beeinflussen. Dies ermöglicht die Isolierung von Variationen, die nicht von den Absichten des Benutzers abhängen. Zur Kontrolle von Zeittrends wird DiD mit gestaffeltem Beginn (staggered DiD) angewendet, wobei Kategorien verglichen werden, in denen die Funktion bereits gestartet wurde, mit noch nicht betroffenen, unter Berücksichtigung von Cohort Fixed Effects. Die Schlüsselmetrik wird der Local Average Treatment Effect (LATE) — Effekt für „Komplizierende“ (compliers), diejenigen, die den Vergleich nur aufgrund der Sichtbarkeit des Buttons genutzt haben, was eine konservative, aber kausal saubere Schätzung bietet.

Situation aus dem Leben

Kontext: Ein großer Elektronikmarktplatz hat die Funktion „Vergleich nach Eigenschaften“ für Smartphones und Laptops gestartet. Nach einem Monat zeigte die Analyse, dass Benutzer, die den Vergleich geöffnet hatten, einen durchschnittlichen Bestellwert von 40 % höher hatten, aber gleichzeitig 4-mal mehr Seiten vor dem Kauf ansahen.

Lösungsvorschlag 1: Direkter Gruppenvergleich (t-Test). Der Analyst vergleicht einfach die durchschnittlichen Metriken von Benutzern mit dem Flag „Vergleich verwendet“ gegen „nicht verwendet“ in SQL. Vorteile: erfordert eine Abfrage, Ergebnisse in Minuten. Nachteile: vollständige Ignorierung der Selbstselektion; hohe Engagement geht dem Einsatz der Funktion voraus, nicht folgt daraus; die Schätzung ist nach oben verzerrt.

Lösungsvorschlag 2: Vorher/Nachher-Analyse über die Zeit. Vergleich der Metriken der gesamten Plattform vor und nach der Einführung der Funktion. Vorteile: Einfachheit der Interpretation, allgemeiner Trend sichtbar. Nachteile: Saisonalität (Einführung fiel mit der Präsentation neuer iPhones zusammen), Marketingkampagnen und allgemeines Unternehmenswachstum verdecken vollständig den wahren Effekt; es ist unmöglich, den Einfluss der Funktion von externen Schocks zu trennen.

Lösungsvorschlag 3: Regression Discontinuity (RD). Verwendung einer Schwellenregel: Der Vergleichs-Button erscheint erst nach dem Ansehen von 3 Produkten einer Kategorie. Vorteile: Ein scharfer Bruch (cutoff) schafft eine quasi-experimentelle Variation um die Schwelle. Nachteile: Benutzer manipulieren ihr Verhalten, indem sie leere Tabs öffnen, um die Schwelle zu erreichen; „Verschwommenheit“ (fuzziness) beeinträchtigt die RD-Annahmen.

Lösungsvorschlag 4: Instrumentalvariablen mit UI-Test. Ein unabhängiger A/B-Test zur Sichtbarkeit des Buttons (Helligkeit, Größe) wird durchgeführt, der die Funktionalität nicht ändert, aber die Klickwahrscheinlichkeit beeinflusst. Dieser Test dient als Instrument für die Two-Stage Least Squares (2SLS) Regression. Vorteile: Randomisierung gewährleistet die Exogenität des Instruments; der Effekt wird genau für die gemessen, die „gezwungen“ sind, durch die Sichtbarkeit des Buttons zu vergleichen. Nachteile: benötigt eine große Stichprobe für die Stärke des Instruments (first-stage F-statistic > 10); Schwierigkeit bei der Interpretation von LATE für das Geschäft.

Gewählte Lösung und Begründung: Kombination von Lösungsvorschlag 4 (hauptsächlich) und Lösungsvorschlag 2 (robustness check). Die IV-Schätzung liefert den kausalen Effekt für marginale Benutzer, während DiD das Fehlen globaler Verzerrungen in den Kategorien bestätigt. Dieser Ansatz erlaubt es, den Funktionseffekt von der angeborenen Aktivität der Benutzer zu trennen.

Endergebnis: Der tatsächliche inkrementelle Effekt auf den AOV betrug +8 % (anstatt der beobachteten +40 %), und die Entscheidungszeit änderte sich statistisch signifikant nicht. Die Funktion wurde beibehalten, aber der Empfehlungsalgorithmus wurde angepasst, um den Vergleichs-Button nicht Benutzern mit geringer historischer Engagement zu zeigen, wo der Effekt nahe null ist, was die Serverlast ohne Verlust von Einnahmen verringerte.

Was Kandidaten oft übersehen

Wie sollten Korrelationen von Fehlern innerhalb einer Sitzung bei der Analyse von Entscheidungen zwischen mehreren Alternativen korrekt behandelt werden?

Wenn ein Benutzer Produkte vergleicht, sind seine Entscheidungen für jedes SKU innerhalb einer Sitzung korreliert, was die Annahme der Unabhängigkeit der Beobachtungen (i.i.d.) verletzt. Standardfehler der Schätzungen werden unterschätzt, was zu falsch-positiven Schlussfolgerungen über die Signifikanz des Effekts führt. Zur Korrektur müssen clustered standard errors auf Benutzerebene oder Sitzungsebene verwendet werden, oder hierarchisches lineares Modellieren (HLM) angewendet werden. Dies ist besonders kritisch bei der Arbeit mit Paneldaten, bei denen ein Benutzer viele Vergleiche generiert, und das Ignorieren der Clusterbildung kann die t-Statistik um das 2-3-fache erhöhen.

Wie misst man negative Externalitäten (negative Spillover) auf Produkte, die nicht in die Vergleichsauswahl gefallen sind?

Die Vergleichsfunktion kann Verkäufe von Produkten kannibalisieren, die nicht in die Vergleichsliste aufgenommen wurden, aber nahe Substitute sind. Kandidaten schauen oft nur auf SKU-Ebene innerhalb des Warenkorbs und übersehen das Gesamtequilibrium der Kategorie. Zur Bewertung solcher Effekte müssen aggregierte Metriken auf Kategorieebene (category-level DiD) analysiert und die Lagerbestände (inventory levels) kontrolliert werden. Wenn der Vergleich die Nachfrage nach bestimmten Modellen zieht und deren Mangel verursacht, kann der beobachtete Anstieg der Verkaufszahlen bei Wettbewerbern im Vergleichsset ein Artefakt von stock-out und nicht von der Benutzerpräferenz sein.

Wie trennt man den Effekt der Implementierung der Funktion vom Effekt des Lernens der Benutzer (learning-by-doing) und der Neuheit (novelty effect)?

Benutzer, die eine neue Funktion entdecken, sammeln gleichzeitig Erfahrung mit der Plattform, was die Konversion separat beeinflusst. Anfängeranalytiker interpretieren oft das Wachstum der Metriken bei frühen Adoptern als reinen Produkteffekt. Um diese Effekte zu trennen, sollten user tenure fixed effects oder die Stichprobe auf Benutzer mit der gleichen Anzahl historischer Sitzungen eingeschränkt werden. Alternativ kann eine Kohortenanalyse verwendet werden, um neue Benutzer zu vergleichen, die die Funktion ab dem ersten Tag zur Verfügung haben, mit Kohorten „vor der Einführung“ unter Berücksichtigung der Kalenderzeit, was es ermöglicht, den Einfluss der Erfahrung vom Einfluss des Vergleichsinstruments zu isolieren.