Antwort auf die Frage

Historisch gesehen hat sich der Kundenservice von der Monopolisierung durch menschliche Betreiber hin zur Automatisierung durch regelbasierte Chatbots entwickelt, die jedoch oft frustrierten, weil sie starre Szenarien boten. Die moderne Phase wird durch die Einführung von Large Language Models (LLM) wie GPT-4 oder Claude charakterisiert, die in der Lage sind, kontextuelle Dialoge zu führen und komplexe Aufgaben ohne starres Programmieren von Logik zu lösen. Das Problem der Bewertung der Effektivität solcher Systeme wird dadurch verschärft, dass traditionelle Kennzahlen (Lösungszeit, Kosten pro Ticket) nichtlinear mit der Servicequalität korrelieren: Kostensenkungen können zu einem Rückgang des CSAT führen, während eine höhere Automatisierung zu einer Zunahme der Frustration bei misslungenen Eskalationen führen kann.

Die Problemstellung erfordert eine Isolierung des reinen Effekts des AI-Assistenten, der von Saisonalität (Feiertagsverkäufe verändern das Anfrageprofil), Neuigkeits-Effekten (Nutzer experimentieren in den ersten Wochen aktiver mit dem Bot) und endogener Selbstselektion (einfache Anfragen gehen an den Bot, komplexe direkt zu Menschen) abgetrennt ist. Klassische Randomisierung ist nicht möglich, da die Deaktivierung des Supports für die Kontrollgruppe während der Spitzenzeiten ethische und geschäftliche Risiken birgt, während die Eskalation des Dialogs vom Bot zum Menschen den reinen Effekt verschmutzt.

Die optimale Lösung ist die Verwendung von Regression Discontinuity Design (RDD) an der Schwelle der Wartezeit. Wenn die Anzahl der wartenden Nutzer den Schwellenwert N (z. B. 5 Personen) überschreitet, bietet das System automatisch den AI-Assistenten als Alternative zur Wartezeit auf einen Operator an. Dies schafft ein natürliches Experiment: Die Nutzer links und rechts von der Schwelle sind statistisch identisch bezüglich beobachteter und nicht beobachteter Merkmale. Um den Lerneffekt der Modelle zu berücksichtigen, wird Difference-in-Differences mit einer Proxy-Gruppe verwendet - z.B. werden Nachtnutzer, bei denen der Bot ständig arbeitet, mit einem ähnlichen Zeitfenster vor der Einführung verglichen. Zur Analyse der Heterogenität der Effekte (unterschiedlicher Einfluss auf unterschiedliche Anfragestellungen) werden Causal Forests eingesetzt, die es ermöglichen, bedingte durchschnittliche Effekte der Intervention (CATE) zu berechnen.

Lebenssituation

In einem großen E-Commerce-Projekt mit 500.000 Anfragen pro Monat beschloss das Team, einen LLM-Assistenten zur Bearbeitung von Anfragen wie "Wo ist meine Bestellung?" und "Adressänderung der Lieferung" einzuführen. Das Problem bestand darin, dass der Pilot mit der Vorweihnachtszeit zusammentraf, als der Traffic um das Drei-fache stieg und historische Daten ein saisonales Sinken des CSAT aufgrund von Logistikverzögerungen unabhängig von der Qualität des Supports zeigten.

Die erste betrachtete Option war der direkte Vergleich der Kennzahlen einen Monat vor und einen Monat nach der Implementierung. Vorteile: Einfachheit der Umsetzung, keine Veränderungen in der Infrastruktur erforderlich. Nachteile: Vollständige Abwesenheit von Kontrolle über die Saisonalität, nicht möglich, den Effekt der AI vom Effekt des Anstiegs des Gesamttraffics und Änderungen im Sortiment (Weihnachtsartikel haben ein anderes Rücksendeprofil) zu trennen. Dieser Ansatz wurde sofort verworfen.

Die zweite Option war ein geo-split A/B-Test, bei dem der Bot in einigen Regionen aktiviert und in anderen nicht aktiviert war. Vorteile: Reine Randomisierung, einfache Interpretation. Nachteile: Netzwerk-Effekte (der Nutzer kann in Region A leben, aber eine Bestellung in Region B für einen Freund aufgegeben) und unterschiedliche logistische Infrastrukturen beeinflussen die Art der Anfragen, während in Spitzenzeiten eine Überlastung in einer Region das Risiko birgt, Kunden zu verlieren. Es wurde beschlossen, nach einer Alternative zu suchen.

Die gewählte Lösung war RDD mit einer Schwelle von 3 wartenden Personen. Wenn die Warteschlange 3 überstieg, bot das System den AI-Assistenten mit der Möglichkeit an, in der Warteschlange auf einen Menschen zu warten. Zur Korrektur des Eskalationseffekts wurde eine Intent-to-Treat (ITT)-Analyse verwendet: Es wurden alle verglichen, denen der Bot angeboten wurde, unabhängig von der tatsächlichen Nutzung, um eine Verzerrung der Selbstselektion nach technischer Versiertheit zu vermeiden. Darüber hinaus wurde ein Synthetic Control aus historischen Daten ähnlicher Gruppen von Anfragen, bei denen der Bot nicht angewandt wurde (z.B. komplexe Reklamationen), erstellt, um saisonale Schwankungen herauszufiltern.

Das endgültige Ergebnis: Es konnte gemessen werden, dass der AI-Assistent die durchschnittliche Lösungszeit einfacher Anfragen von 8 auf 2 Minuten ohne statistisch signifikanten Rückgang des CSAT senkte (Differenz von 0,1 Punkten im Vertrauensintervall). Es wurde jedoch ein negativer Effekt für das Segment „Rücksendungen“ festgestellt: Bei der Eskalation vom Bot zu einem Menschen war der CSAT um 15% niedriger als bei direkter Kontaktaufnahme mit einem Operator, was zur Schaffung eines separaten Fast-Track-Pfades für solche Anfragen führte. Die Betriebskosten wurden um 30% durch die Entlastung der ersten Linie gesenkt.

Was Kandidaten oft übersehen

Wie kann man die Endogenität der Eskalation korrekt behandeln, wenn der Nutzer, frustriert vom Bot, mit einer erhöhten Frustration zu einem Menschen wechselt?

Kandidaten schlagen oft vor, nur erfolgreiche Dialoge mit dem Bot gegen Dialoge mit einem Menschen zu vergleichen und ignorieren dabei die Überlebensverzerrung. Der richtige Ansatz ist die Analyse des Local Average Treatment Effect (LATE) durch instrumentelle Variablen: Die Nutzung zufälliger technischer Störungen im Betrieb des Bots (wenn er vorübergehend nicht verfügbar ist) als Instrument zur Bewertung des Effekts für die, die vom Bot bedient worden wären, wenn diese Möglichkeit besteht. Dies ermöglicht die Trennung des Effekts der Technologie selbst von dem Selektionseffekt nach Anfragearten.

Warum sind Standardmetriken wie die Genauigkeit des Bots (F1-Score, BLEU) für die produktbezogene Bewertung des kausalen Effekts nicht korrekt?

Analytiker konzentrieren sich oft auf die Qualität der Antwortgenerierung und vergessen, dass das Produktziel die Veränderung von Geschäftszahlen ist und nicht technische Perfektion. LLMs können grammatikalisch korrekte, aber irrelevante Antworten generieren oder umgekehrt technisch ungenaue, aber die Nutzerprobleme lösende Anweisungen geben (z.B. "Bitte versuchen Sie, die App neu zu starten"). Der korrekte Ansatz ist die Bewertung des Uplift auf der Ebene der Nutzungssitzung unter Verwendung von Propensity Score Matching, um die Komplexität von Anfragen abzugleichen, anstatt die Textgenerierungsgenauigkeit zu berücksichtigen.

Wie berücksichtigt man die Nichtstationarität des Effekts bei der ständigen Nachschulung des Modells mit neuen Daten?

Kandidaten übersehen, dass LLMs in der Produktion kontinuierlichem Lernen unterliegen: Das Modell wird täglich an markierten Dialogen nachtrainiert, weshalb der Effekt der Woche 1 nicht mit dem Effekt der Woche 4 vergleichbar ist. Es ist notwendig, Time-Varying Treatment Effects-Modelle mit Rolling-Window-Bewertungen oder Bayesian Structural Time Series (BSTS) für eine dynamische Korrektur des Baseline zu verwenden. Das Ignorieren dessen führt zu einer Unterschätzung des langfristigen Effekts, wenn der Bot auf die Produktspezifik berücksichtigt wird, oder zu einer Überbewertung des Neuigkeits-Effekts.