Sorunun yanıtı

Tarihsel bağlam, sesli arayüzlerin basit komut sistemlerinden tam kapsamlı NLP çözümlerine (transformer tabanlı) evrildiğini gösteriyor; ancak değerlendirme metodolojisi, teknolojinin benimsenmesindeki heterojenlik nedeniyle karmaşık kalmaktadır. Sorun, fonksiyonun yalnızca belirli teknik özelliklere sahip cihazlarda mevcut olmasıdır; bu, sistematik bir seçim kayması yaratırken, coğrafi yayılma rastgele dağılım ilkesini ihlal eder. Gerçek etkinin izole edilmesi için, belirli bölgelerde ve zaman dilimlerinde sabit etkiler ile kombinasyon halinde Difference-in-Differences kullanmak gerekmekte ve ayrıca benzersiz dilsel yapıları olan bölgeler için Synthetic Control Method eklenmelidir; ayrıca işlevin kullanımındaki içsel bağlantısallığı düzeltmek için Instrumental Variables kullanılmalıdır.

Gerçek yaşam durumu

Bir elektronik pazaryerinde, sesli arama işlevi önce Moskova ve St. Petersburg'da başlatıldı ve daha sonra kademeli olarak bölgelere yayılacağı planlandı. Sorun, fonksiyonun sadece iPhone XS ve üstü cihazlar ile iOS 15+ ve ondan sonraki sürümler üzerinde çalışması ve aynı zamanda on-device ML desteğine sahip Android amiral gemisi cihazları ile sınırlı olmasıydı. Bu durum, gelir ve teknoloji okuryazarlığı açısından bir kayma yarattı. Ek olarak, belirgin bir mevsimsel etkilenme gözlendi; uygulamanın başlangıcı yılbaşı öncesi talep artışına denk geldi, bu da "önce-sonra" karşılaştırmasını çarpıttı. Ekip, değerlendirme için üç yaklaşımı değerlendirdi.

İlk seçenek, belirli bir zaman diliminde fonksiyon olan ve olmayan bölgelerde ortalama metriklerin basit karşılaştırmasını içermekteydi. Bu yaklaşımın artıları — uygulanabilirliğin basitliği ve sonuçların hızla elde edilmesi. Eksileri — bölgeler arasındaki sistematik farklılıkların göz ardı edilmesi (Moskova'nın tarihi olarak daha yüksek bir dönüşüm göstermesi) ve fonksiyonun etkisini mevsimsel eğilimden ayıramama. Bu seçenek, yüksek yanlış pozitif sonuç riski nedeniyle reddedildi.

İkinci seçenek, sesli arama özelliği olmayan ancak cihazlarının ve davranışlarının benzer özelliklerine sahip kullanıcıların kontrol grubunu oluşturmak için Propensity Score Matching kullanmaktaydı. Plusları — gözlemlenen işaretler arasındaki kaymayı düzeltme çabası. Eksileri — gözlemlenemeyen faktörleri (örneğin, teknolojilere erken benimseme eğilimi) dikkate alacak bir yeteneği olmaması; bu faktörler aynı anda hem modern bir cihaza sahip olmayı hem de satın alma istekliliğini etkiliyor. Ayrıca, eşleme, bölgesel sabit etkilerin varlığında etkinliğini kaybeder.

Üçüncü seçenek, bölgeler düzeyinde Difference-in-Differences ile kullanıcı düzeyinde Instrumental Variables'ı birleştirmekti. Araç olarak, cihazda fonksiyonun teknik erişilebilirlik bayrağını (modelin akıllı telefon ve işletim sistemine bağlı, ancak kullanıcı tercihlerine doğrudan bağlı değil) kullanarak, iki aşamalı en küçük kareler yöntemi ile gerçek kullanımı tahmin etmek için kullanıldı. Benzersiz lehçeleri olan bölgeler (Kazan, Novosibirsk) için, dönüşüm trendlerini dengelemek için Synthetic Control uygulandı. Artıları — erişilebilirlik etkisini, kullanıcıların kendini seçme etkisinden ayırabilmek ve bölgesel trendleri kontrol edebilmek. Eksileri — Local Average Treatment Effect (LATE) yorumlama zorluğu ve paralel trendler varsayımına olan yüksek ihtiyaç. Bu seçenek, en geçerli olan olarak seçildi.

Analiz sonucunda, sesli arama özelliğinin uyumlu cihazları olan kullanıcılar arasında %18 oranında bir dönüşüm derinliği artışı sağlayarak anlamlı bir etkisi olmadığını ortaya koydu. Dahası, teknik terimlerin bulunduğu kategorilerde (bilgisayar parçaları) özel terminolojinin yanlış tanınması nedeniyle dönüşümde azalma gözlemlendi. Bu, ekibin yol haritasını düzeltmesine yardımcı oldu: teknik terimlerin tanınmasını geliştirmek ve sesli aramanın en iyi sonuçlar gösterdiği "basit" ürün kategorilerine (beyaz eşyalar) odaklanmak.

Adayların sıklıkla gözden kaçırdığı noktalar

Sesli arayüzlerin değerlendirilmesinde yenilik etkisini (novelty effect) kalıcı davranış değişikliğinden nasıl ayırırız?

Adaylar sıklıkla adaptasyonun zamansal dinamiklerini göz ardı etmektedir. Fonksiyonun ilk kullanım günü itibarıyla koro analizi yapmalı ve 3-4 haftalık bir dönem içinde kullanım sürekliliğini izlemelidir. Kullanım yoğunluğu, temel seviyeye düşerse yenilik etkisi vardır. Düzgün bir değerlendirme için yalnızca yerleşik dönemi (steady state) kullanmak veya gözlemleri yaşam döngüsüne göre ağırlıklandırmak önemlidir. Ayrıca, kullanım sıklığı açısından etkinin heterojenliğini kontrol etmek de önemlidir — yoğun kullanıcılar sürekli bir davranış sergileyebilirken, rastgele kullanıcılar yenilik etkisine tabi olabilirler.

Kullanıcının sesli aramayı etkinleştirdiği ancak tanıma hatası nedeniyle sonuç alamadığı durumlarda sıfır değerleri (zeroes) verisini nasıl doğru bir şekilde işleyebiliriz?

Bu tür durumlarda standart doğrusal regresyon veya lojistik model geçerli değildir çünkü karmaşık bir dağılım vardır: çok sayıda sıfır (başarısız girişimler) ve kesikli olumlu sonuçların sürekli dağılımı. İki parça model (hurdle model) veya Zero-Inflated Negative Binomial'ı sayısal metrikler (görüntü sayısı) için uygulamak gerekmektedir. Modelin ilk kısmı başarılı arama olasılığını değerlendirir (seçim denklemi), ikincisi ise başarılı olma koşulunda kullanım yoğunluğunu değerlendirir (sonuç denklemi). Bu yapının göz ardı edilmesi, etki tahminini düşürmeye yol açar, çünkü başarısız girişimler ilginin yokluğu olarak yanlış bir şekilde sınıflandırılır, oysa bu bir teknik engeldir.

Bu durumda neden basit Intent-to-Treat (ITT) analizini kullanamayız? Uygulama bölgesindeki tüm kullanıcıları kontrol bölgesi ile karşılaştırırken?

ITT analizi, erişim etkisi ile gerçek kullanım etkisini birleştirerek değerlendirmeyi bulanıklaştırır. Eğer yalnızca %10'luk bir kitle uyumlu cihazlara sahipse ve bunların yalnızca %20'si fonksiyonu denemekteyse, ITT gerçek kullanıcılar için bile %100 etkinlik olsa bile %2'lik bir etkileri gösterecektir. İş kararları için burada kritik olan Treatment-on-Treated (TOT) etkisi veya Local Average Treatment Effect (LATE)'dir, bu etki araçsal değişkenler üzerinden elde edilir. Adaylar, uyumun %100 olmadığını gözden kaçırmakta ve ITT değerlendirmesini, gerçekten fonksiyonu kullanan kısımlar açısından gerçek etkiyi bulmak için uyum oranına ters orantılı olarak ölçeklendirmek gerektiğini göz ardı etmektedir.