Der historische Kontext des Problems reicht zurück zur Evolution von Benutzerinhalten im E-Commerce. In den Anfängen des digitalen Handels dominierten professionelle Beschreibungen, aber mit der Entwicklung von Web 2.0 gab es einen Übergang zu UGC (User Generated Content), der das Vertrauen erhöhte, jedoch ein Problem mit Informationsüberlastung schuf. Moderne Benutzer erleben Dutzende von Bewertungen für ein Produkt, was die kognitive Belastung und die Entscheidungszeit erhöht. Das Auftreten von Large Language Models (LLM) ermöglichte die Automatisierung der Zusammenfassung, jedoch führt der Austausch der authentischen Stimme des Verbrauchers durch maschinelle Interpretation zu Unsicherheit in der kausalen Beziehung zwischen den angezeigten Informationen und dem Verhalten des Benutzers.
Die Problemstellung wird durch drei Faktoren kompliziert, die klassisches A/B-Testing unmöglich machen. Erstens schafft der schrittweise Rollout nach Kategorien eine staggered adoption, bei der Kontrollgruppen im Laufe der Zeit zu Testgruppen werden, was die Stabilität des Vergleichs stört. Zweitens ist die Qualität der KI-Zusammenfassung endogen: Kategorien mit hohem Volumen an Bewertungen erhalten präzise Badges, während solche mit geringem Volumen verzerrt werden, was mit der Popularität des Produkts als verborgenem Störfaktor korreliert. Drittens besteht das Risiko eines Täuschungseffekts: Wenn ein Benutzer eine Diskrepanz zwischen dem Badge und dem tatsächlichen Produkt entdeckt, sinkt das Vertrauen in die Plattform, was sich nur durch Kohortenanalysen auf die langfristige Bindung auswirkt.
Eine detaillierte Lösung erfordert eine Kombination aus quasi-experimentellen Methoden. Das Hauptinstrument ist Staggered Difference-in-Differences (DiD) mit festen Kategorie- und Zeit-Effekten, das hilft, den Effekt unter den Bedingungen der schrittweisen Einführung zu erfassen. Zur Berücksichtigung der Endogenität der Generierungsqualität wird Causal Forest verwendet, das die Heterogenität der Auswirkungen in Abhängigkeit vom Volumen der Trainingsdaten modelliert. Es ist entscheidend, Placebo-Tests in Kategorien ohne Änderungen zur Validierung paralleler Trends durchzuführen und auch Survival Analysis zur Verfolgung der Rücklaufdynamik über die Zeit zu verwenden, um den kurzfristigen Effekt der Konversion vom langfristigen Effekt des Vertrauens zu trennen.
Der Marktplatz „DomashniyUyut“, spezialisiert auf Möbel und Dekoration, sah sich mit einem kritischen Rückgang des Engagements auf den Produktseiten konfrontiert, wo 68% der Benutzer den Bereich mit den textlichen Bewertungen übersprangen und wichtige Informationen über die Montagequalität und Materialien verpassten. Das Produktteam schlug eine innovative Lösung vor – den Austausch ausgedehnter Kommentare gegen visuelle KI-Badges mit Zusammenfassungen der Schlüsselthesen, jedoch befürchteten Stakeholder eine verborgene Verschlechterung der Vertrauensmetrics und einen Anstieg der Rückläufer aufgrund möglicher „Halluzinationen“ des Modells. Die Analysten standen vor der Aufgabe, den reinen kausalen Effekt der Einführung zu messen, ohne die Möglichkeit, einen klassischen Splittest auf Benutzerbasis durchzuführen.
Die erste Option sah klassisches A/B-Testing mit Randomisierung auf Benutzerebene durch einen Hash von user_id vor. Die Vorteile dieses Ansatzes umfassten strenge kausale Identifizierung und einfache statistische Verarbeitung über einen Standard-t-Test oder Bootstrap. Die Nachteile erwiesen sich jedoch als kritisch für das Produkt: Benutzer teilten aktiv Screenshots von Produkten in sozialen Medien, was eine zwischen Gruppen liegende Kontamination erzeugte, während unterschiedliche Darstellungen desselben Produkts bei verschiedenen Benutzern die Konsistenz des UX störten und kognitiven Dissonanz erzeugten.
Die zweite Option basierte auf der Synthetic Control Method, bei der für jede Kategorie, die KI-Badges einführt, eine gewichtete synthetische Kontrolle aus unveränderten Kategorien mit ähnlichen historischen Konversionstrends und Saisonalität erstellt wurde. Die wichtigsten Vorteile lagen in der natürlichen Wahrnehmung durch die Benutzer und der Notwendigkeit, den Traffic nicht zu teilen, was die Integrität des Benutzererlebnisses bewahrte. Namun, bedeutende Nachteile beinhalteten die Unmöglichkeit, eine zuverlässige Kontrolle für einzigartige Kategorien wie „smarte Kühlschränke“ ohne direkte Analogien zu erstellen, sowie das Risiko von Verzerrungen bei globalen Schocks, die alle Kategorien gleichzeitig betreffen.
Die optimale Lösung bestand in der Kombination von Staggered Difference-in-Differences mit Two-Way Fixed Effects (TWFE) und Causal Forest zur Analyse der Heterogenität des Effekts auf Basis des Ausgangsdatenvolumens. Dieser Ansatz ermöglichte die Nutzung der natürlichen Reihenfolge der schrittweisen Einführung (zuerst Massen-Elektronik, dann Möbel) als Quelle exogener Variation unter Kontrolle der kategorischen und zeitlichen festen Effekte. Ein kritischer Faktor bei der Auswahl war die Möglichkeit, unterschiedliche Auswirkungen für stark belastete Kategorien mit präzisen Zusammenfassungen und Nischenkategorien mit „Halluzinationen“ von LLM zu modellieren, was einen strategischen Vorteil bei der Entscheidungsfindung über die Skalierung gab.
Die endgültige Umsetzung zeigte eine ausgeprägte Heterogenität: In Kategorien mit mehr als 50 Bewertungen stieg die Konversion um 12% aufgrund der Verringerung der kognitiven Belastung, während die Rücklaufquote um 3% sank, dank der genauen Übermittlung der Schlüsselfunktionen. Im Gegensatz dazu wurde in Nischenkategorien mit weniger als 10 Bewertungen ein Anstieg der Rückläufe um 8% festgestellt, aufgrund der Diskrepanz zwischen den generierten Badges und der tatsächlichen Qualität des Produkts, was zur Entscheidung führte, die KI-Zusammenfassungen für Segmente mit unzureichendem Datenvolumen vollständig abzuschalten. Infolgedessen hatte die Plattform keinen signifikanten Effekt auf den Gesamt-GMV, erhöhte jedoch erheblich die Qualität des Benutzererlebnisses und senkte die operativen Kosten für die Bearbeitung von Rückläufern in stark frequentierten Kategorien.
Endogenität der Generierungsqualität als Störfaktor
Kandidaten interpretieren häufig die Einführung von Badges als binäre Wirkung, ohne zu beachten, dass die Effektivität der LLM-Zusammenfassung eine kontinuierliche Funktion vom Volumen der ursprünglichen Bewertungen ist und keine Konstante. Tatsächlich ziehen Kategorien mit hoher Konversion von Anfang an mehr Bewertungen an, wodurch eine umgekehrte Kausalität entsteht: Popularität → Volumen der Daten → Qualität der KI → beobachtetes Wachstum der Konversion, das fälschlicherweise nur den visuellen Badges zugeschrieben wird. Der korrekte Ansatz erfordert die Verwendung von instrumentalen Variablen, wie z.B. das Alter des Produkts als Instrument für das Volumen der Bewertungen oder die Anwendung von Regression Discontinuity über den Schwellenwert der Anzahl der Bewertungen, um den reinen Effekt der Generierungsqualität vom Effekt der Popularität der Kategorie zu isolieren.
Interkategorielle Spillover und Aufmerksamkeitsersatz
Kandidaten berücksichtigen selten, dass Benutzer Produkte innerhalb einer Sitzung zwischen Kategorien vergleichen, was interkategorielle Spillover (cross-category spillovers) schafft. Wenn in der Kategorie „Smartphones“ ansprechende KI-Badges erscheinen, während in „Hüllen“ traditionelle Textblöcke angezeigt werden, erzeugt dies eine Informationsasymmetrie, die die Nachfrage in die Testkategorie nicht aufgrund einer Verbesserung des UX, sondern aufgrund von Aufmerksamkeitsersatz (attention substitution) ablenkt. Für eine korrekte Bewertung ist es erforderlich, interkategorielle Effekte über Spatial Econometrics in das Modell einzubeziehen oder die Veränderung des Anteils des Warenkorbs (share of wallet) der Kategorie in der Gesamtbestellung des Benutzers zu analysieren, und nicht nur die interkategoriale Konversion zu betrachten.
Dynamische Effektenthüllung und Lernkurve
Anfängeranalysten fixieren einen statischen Effekt im kurzfristigen Beobachtungsfenster und übersehen, dass sich die Wahrnehmung von KI-Inhalten im Laufe der Zeit mit der Ansammlung von Benutzererfahrungen verändert. Erste Benutzer betrachten Badges als objektive Aggregation, aber nach der ersten Rückgabe eines Produkts mit irreführendem Badge bildet sich KI-Skepsis, und der positive Effekt schwindet oder kehrt sich ins Negative um. Um dieses Muster zu identifizieren, ist eine Event-Studie mit Lags und führenden Variablen (leads and lags) notwendig sowie eine Segmentierung nach dem „Alter“ des Benutzers in Bezug auf den ersten Kontakt mit KI-Inhalten, die es ermöglicht, eine Lernkurve zu erstellen und die langfristige Stabilität des Effekts vorherzusagen.