Antwoord op de vraag

Historisch gezien is klantenservice geëvolueerd van een monopolie van menselijke operators naar automatisering via rule-based chatbots, die echter vaak frustratie bij gebruikers veroorzaken door strikte scenario's. De moderne fase wordt gekenmerkt door de implementatie van Large Language Models (LLM) zoals GPT-4 of Claude, die in staat zijn contextuele dialogen te voeren en complexe taken op te lossen zonder strikte programmering van de logica. Het probleem bij het evalueren van de effectiviteit van dergelijke systemen wordt verergerd door het feit dat traditionele metrics (oplossingstijd, kosten per ticket) niet-lineair correleren met de servicekwaliteit: kostenverlaging kan leiden tot een daling van CSAT, terwijl verhoogde automatisering kan resulteren in meer frustratie bij mislukte escalaties.

De probleemstelling vereist isolatie van het zuivere effect van de AI-assistent, los van seizoensgebondenheid (seizoensgebonden verkoop beïnvloedt het profiel van aanvragen), nieuwheidseffect (gebruikers experimenteren actiever met de bot in de eerste weken) en endogeniteit van zelfselectie (eenvoudige aanvragen gaan naar de bot, complexe gaan direct naar mensen). Klassieke randomisatie is niet mogelijk, omdat het uitschakelen van ondersteuning voor de controle groep tijdens piekuren ethische en zakelijke risico's met zich meebrengt, en de escalatie van de dialoog van de bot naar de mens verontreinigt het zuivere effect.

De optimale oplossing is het gebruik van Regression Discontinuity Design (RDD) op de drempel van de lengte van de wachtrij. Wanneer het aantal wachtende gebruikers de drempel N (bijvoorbeeld 5 mensen) overschrijdt, biedt het systeem automatisch de AI-assistent aan als alternatief voor het wachten op een operator. Dit creëert een natuurlijk experiment: gebruikers aan de linkerkant en rechterkant van de drempel zijn statistisch identiek qua waargenomen en niet-waargenomen kenmerken. Om het leereffect van het model te kwantificeren, wordt Difference-in-Differences toegepast met een proxy-groep — bijvoorbeeld gebruikers in de nacht, waar de bot constant werkt, worden vergeleken met een vergelijkbaar tijdvenster vóór de implementatie. Voor de analyse van heterogene effecten (verschillende impact voor verschillende categorieën aanvragen) worden Causal Forests gebruikt, die in staat zijn om voorwaardelijke gemiddelde effecten van de impact (CATE) te construeren.

Een levenssituatie

In een groot e-commerceproject met 500K aanvragen per maand besloot het team om een LLM-assistent te implementeren voor het afhandelen van aanvragen zoals "waar is mijn bestelling" en "verander afleveradres". Het probleem was dat de pilot samenviel met het voorjaarsseizoen, toen het verkeer met 3 keer toenam, en historische gegevens een seizoensgebonden daling van de CSAT toonden als gevolg van vertragingen in de logistiek, ongeacht de kwaliteit van de ondersteuning.

De eerste overweging was om de metrics van de maand vóór de implementatie te vergelijken met de maand erna. Pluspunten: eenvoud van implementatie, geen wijzigingen in de infrastructuur vereist. Minpunten: volledige afwezigheid van controle op seizoensgebondenheid, niet in staat om het effect van de AI te scheiden van het effect van de algehele toename in verkeer en veranderingen in het assortiment (voorjaarsproducten hebben een ander retourprofiel). Deze benadering werd meteen verworpen.

De tweede optie was een geo-split A/B-test, waarbij in sommige regio's de bot was ingeschakeld en in andere niet. Pluspunten: schone randomisatie, eenvoudige interpretatie. Minpunten: netwerkeffecten (een gebruiker kan in regio A wonen, maar een bestelling plaatsen in regio B voor een vriend), verschillende logistieke infrastructuren beïnvloeden de aard van aanvragen, en tijdens piekuren zou overbelasting in één regio het risico op verlies van klanten met zich meebrengen. Er werd besloten naar alternatieven te zoeken.

De gekozen oplossing was RDD met een drempel van 3 wachtenden in de rij. Wanneer de rij meer dan 3 wachtenden overschreed, bood het systeem de AI-assistent aan met de mogelijkheid om in de rij voor de mens te blijven. Om het effect van escalatie te corrigeren, werd Intent-to-Treat (ITT)-analyse toegepast: we vergeleken iedereen aan wie de bot werd aangeboden, ongeacht het werkelijke gebruik, wat zelfselectie op basis van technische vaardigheid vermijdde. Daarnaast werd een Synthetic Control opgebouwd uit historische gegevens van vergelijkbare categorieën aanvragen, waar de bot niet werd gebruikt (bijvoorbeeld complexe klachten), om seizoensgebonden fluctuaties eruit te filteren.

Het uiteindelijke resultaat: we konden meten dat de AI-assistent de gemiddelde tijd voor het oplossen van eenvoudige aanvragen verminderde van 8 naar 2 minuten zonder een statistisch significante daling van CSAT (een verschil van 0,1 punten binnen het betrouwbaarheidsinterval). Echter, we ontdekten een negatief effect voor het segment "retouren": bij escalatie van de bot naar de mens was de CSAT 15% lager dan bij rechtstreekse aanvragen aan een operator, wat leidde tot de creatie van een aparte fast-track route voor dergelijke aanvragen. Operationele kosten daalden met 30% dankzij het ontlasten van de eerste lijn.

Wat kandidaten vaak missen

Hoe de endogeniteit van escalatie correct te behandelen, wanneer een gebruiker, meer gefrustreerd door de bot, overgaat naar een mens?

Kandidaten stellen vaak voor om alleen succesvolle dialogen met de bot te vergelijken met dialogen met een mens, en negeren de overlevingsbias. De juiste aanpak is een analyse van Local Average Treatment Effect (LATE) via instrumentele variabelen: het gebruik van willekeurige technische storingen in de werking van de bot (wanneer deze tijdelijk niet beschikbaar is) als instrument om het effect te beoordelen voor degenen die door de bot zouden zijn bediend als deze beschikbaar was. Dit stelt ons in staat om het effect van de technologie zelf te scheiden van het selectie-effect op basis van het type aanvraag.

Waarom zijn de standaardmetrics van de nauwkeurigheid van de bot (F1-score, BLEU) onjuist voor de productieve evaluatie van causale impact?

Analisten richten zich vaak op de kwaliteit van de gegenereerde antwoorden, terwijl ze vergeten dat het productdoel is om bedrijfsmetrics te veranderen, niet technische perfectie. LLM kan grammaticale, maar niet-relevante antwoorden genereren, of omgekeerd — technische incorrecte, maar probleemoplossende instructies geven (bijvoorbeeld "probeer de app opnieuw op te starten"). De correcte aanpak is het beoordelen van de uplift op sessieniveau met behulp van Propensity Score Matching voor het vergelijken van de complexiteit van aanvragen, en niet de nauwkeurigheid van de tekstgeneratie.

Hoe non-stationarity van het effect te overwegen bij continue bijscholing van het model op nieuwe gegevens?

Kandidaten negeren dat LLM in productie wordt blootgesteld aan continual learning: het model wordt dagelijks bijgeschoold op gelabelde dialogen, waardoor het effect van week 1 niet vergelijkbaar is met dat van week 4. Het is nodig om Time-Varying Treatment Effects-modellen te gebruiken met rolling window-evaluatie of Bayesian Structural Time Series (BSTS) voor dynamische aanpassing van de baseline. Het negeren van dit leidt tot een onderschatting van het langetermijneffect, wanneer de bot "leert" op basis van de specificiteit van het product, of tot een overschatting van het nieuwheidseffect.