Sorunun yanıtı
Tarihsel olarak müşteri desteği, insan operatörlerin tekeline sahip olmaktan, sıkça kullanıcıları sert senaryolar nedeniyle hayal kırıklığına uğratan kurala dayalı sohbet botlarına otomasyona doğru evrildi. Günümüzde GPT-4 veya Claude gibi bağlamsal diyaloglar ve karmaşık görevleri katı bir mantık programlama gerektirmeden çözme yeteneğine sahip Büyük Dil Modelleri (LLM) ile bir aşama karakterize edilmektedir. Bu tür sistemlerin etkinliğini değerlendirme problemi, geleneksel metriklerin (çözüm süresi, bilet başına maliyet) hizmet kalitesi ile doğrusal olmayan bir şekilde ilişkilendirilmesi nedeniyle daha da karmaşık hale gelmektedir: maliyetin düşmesi CSAT'ın azalmasına neden olabilir ve otomasyonun artması başarısız yönlendirmelerde artan hayal kırıklığına yol açabilir.
Görev tanımı, AI asistanının tam etkisini, mevsimsel etkilerden (tatil indirimleri başvuruların profilini değiştirir), yenilik etkisinden (kullanıcılar botla ilk haftalarda daha fazla deney yapar) ve içsel öz-seçim etkisinden (basit talepler bota giderken, karmaşık talepler doğrudan insanlara yönlendirilir) izole etmeyi gerektirir. Klasik rastgeleleştirme imkânsızdır, çünkü kontrol grubuna destek sağlanmaması etik ve iş riski oluşturmakta, diyalogların bot ile insan arasında yönlendirilmesi ise temiz etkiyi kirletmektedir.
En uygun çözüm, bekleme kuyruğu uzunluğu eşiğinde Regresyon Kesilmesi Tasarımı (RDD) kullanmaktır. Bekleyen kullanıcı sayısı N eşiğini (örneğin, 5 kişi) aştığında, sistem otomatik olarak AI asistanını operatörü beklemenin bir alternatifi olarak önerir. Bu, bir doğal deney oluşturur: eşik solunda ve sağında bulunan kullanıcılar gözlemlenen ve gözlemlenmeyen özellikler açısından istatistiksel olarak benzer olacaktır. Öğrenme etkisini dikkate almak için Farklar Farkı yöntemi ile proxy grup olarak sürekli çalışan gece kullanıcıları, bu sayede uygulamanın etkisini incelemek amacıyla benzer bir zaman dilimindeki uygulama öncesi dönemle karşılaştırılmaktadır. Etkilerin heterojenliğini analiz etmek için ise, (CATE) etki koşullu ortalamalarını oluşturmayı sağlayan Nedensel Ormanlar kullanılmaktadır.
Gerçek yaşam durumu
500K başvuruya sahip büyük bir e-ticaret projesinde ekip, "siparişimi nerede" ve "teslimat adresini değiştir" gibi talepleri işlemek için LLM asistanı uygulamaya karar verdi. Sorun, pilot uygulamasının yoğun trafik artışı nedeniyle yılbaşı öncesi sezona denk gelmesiydi; tarihsel veriler, destek kalitesinden bağımsız olarak, CSAT'ta mevsimsel bir düşüş gösteriyordu.
İlk düşünülen seçenek, uygulamanın bir ay öncesi ve bir ay sonrası arasında doğrudan metrik karşılaştırması yapmaktı. Avantajları: uygulanabilirlik kolaylığı, altyapıda değişiklik gerektirmemesi. Dezavantajları: mevsimsellik kontrolünde tam bir eksiklik, AI etkisini genel trafik artışı ve ürün değişikliği etkisinden ayırmanın imkansızlığı (yılbaşı ürünlerinin farklı iade profilleri vardır). Bu yaklaşım hemen reddedildi.
İkinci seçenek, bazı bölgelerde botun aktif olduğu, diğerlerinde olmadığı bir coğrafi ayrım A/B testi uygulamak oldu. Avantajları: temiz rastgeleleştirme, basit yorumlama. Dezavantajları: ağ etkileri (bir kullanıcı bölge A'da yaşıyor olabilir, ancak bölge B'de arkadaşının siparişini veriyor), farklı lojistik altyapıları başvuruların niteliğini etkiliyor ve yoğun saatlerde bir bölgede aşırı yüklenme, müşteri kaybı riski yaratıyordu. Alternatif bulmaya karar verildi.
Seçilen çözüm, bekleme kuyruğu boyutunu 3 kişi eşiğine dayanan RDD oldu. Kuyruktaki bekleyen sayısı 3'ü geçtiğinde sistem, AI asistanını, operatöre yönelme seçeneği sunarak önerdi. Yönlendirme etkisini düzeltmek için, kullanıcıları etkileyen teknik bilgi kalitesindeki öz-seçim kaymasını önlemek amacıyla, botu önerilen tüm kullanıcıların karşılaştırıldığı Intent-to-Treat (ITT) analizi kullanıldı. Ayrıca, botun uygulanmadığı (örneğin, karmaşık şikayetler) benzer başvuru kategorilerinin tarihsel verilerinden oluşturulan bir Sözel Kontrol kuruldu; böylece mevsimsel dalgalanmaların filtrelenmesi sağlandı.
Sonuç olarak, AI asistanının ortalama basit taleplerin çözüm süresini 8 dakikadan 2 dakikaya düşürdüğü ancak CSAT'ta istatistiksel olarak anlamlı bir düşüş olmadığı ölçümlendi (güven aralığı içinde 0.1 puanlık bir fark). Ancak, "iade" segmenti için bot ile insan yönlendirmesi arasında CSAT'ın %15 daha düşük olduğunu tespit ettik; bu durum, bu tür talepler için ayrı bir hızlı geçiş yolu oluşturulmasına yol açtı. Operasyonel maliyetler, ilk hattın rahatlatılması sayesinde %30 azaldı.
Kullanıcıların genellikle gözden kaçırdığı noktalar
Kullanıcı botta hayal kırıklığına uğradığında, insanla geçiş yaparak artırılmış bir hayal kırıklığı ile nasıl içsellik etkisi düzeltilir?
Adaylar genellikle sadece bot ile başarılı diyalogları insanlarla karşılaştırmayı öneriyor; bu da hayatta kalma yanılmasını göz ardı etmektedir. Doğru yaklaşım, Yerel Ortalama Tedavi Etkisi (LATE) analizidir; botun geçici olarak kullanılamadığı durumlarda rastgele teknik arızalarının etkisini değerlendirmek için araçsal değişken kullanımı: botun elde tutulan potansiyel kullanıcılar için etkisini ölçmek yapılabilir. Bu, teknolojinin etkisini, başvuru türüne göre öz-seçim etkisinden ayırmayı sağlar.
Neden botun standart metrikleri (F1-skora, BLEU) nedensel etkinin ürün değerlendirmesi için uygun değildir?
Sıklıkla analistler, yanıtların kalitesine odaklanmakta ve ürünsel hedefin iş metriklerinde değişim olduğunu unutmaktadır; dolayısıyla teknik mükemmellik değil. LLM uygun olmayan ama sorunu çözen talimatlar verebilir (örneğin, "uygulamayı yeniden başlatmayı deneyin") veya teknik olarak hatalı ama kesin yanıtlar üretebilir. Doğru yaklaşım, kullanıcı oturumu düzeyinde uplift değerlendirmesi yaparak, metin üretim doğruluğu yerine başvuru karmaşıklığı için Propensity Score Matching kullanılmasını sağlamaktır.
Sürekli yeni verilerle modeli sürekli eğiterek etkilerin kararlılığını nasıl göz önünde bulundurmalıyız?
Adaylar, LLM'nin üretim sürecinde sürekli öğrenmeye tabi olduğunu göz ardı eder: model, her gün işaretlenmiş diyaloglar üzerinde yeniden eğitilmektedir; bu nedenle 1. haftadaki etkiler 4. haftadaki etkilerle karşılaştırılamaz. Zaman Değişken Tedavi Etkileri modellerinin ve dinamik temel düzeltmeleri için Bayesyen Yapısal Zaman Serileri (BSTS) kullanılmasını gerektirir. Bunun göz ardı edilmesi, botun belirli bir ürün özelliklerine "öğrenmesi" sonucunda uzun vadeli etkinin yanlış değerlendirilmesine veya yenilik etkisinin abartılmasına yol açabilir.