İçerik kişiselleştirmesi, modern e-ticaret platformlarının ayrılmaz bir parçası haline geldi 2010'lu yılların ortalarından itibaren, Amazon ve Netflix öneri sistemlerine yapılan yatırımların ekonomik iş durumunu kanıtladıkları zamandan bu yana. Geleneksel etkinlik değerlendirme yaklaşımları, kontrollü deneyler yapmayı gerektirirken, gerçek altyapıda genellikle performans düşüşüne neden olan teknik sınırlamalarla karşılaşıyorsunuz, bu da standart A/B testi yapmayı mümkün kılmaz.
Analistin görevi, kontrol grubu olmaksızın ML öneri sisteminin temel ürün metriklerine etkisini izole etmektir. Bu noktada, üç çarpıtıcı faktörü hesaba katmak gerekir: Soğuk kullanıcılar için modelin öğrenimindeki zaman gecikmesi (cold start problem), arayüz değişikliği nedeniyle oluşan geçici etkinlik artışı (novelty effect) ve yeni ve geri dönen kullanıcılar arasındaki sistematik farklılıklar, bu da selection bias yaratır.
Optimal yaklaşım, farklar farkı yöntemi (Difference-in-Differences, DiD) ve sentetik kontrol analizi (Synthetic Control Method) kombinasyonudur. Kontrol grubu olarak, değişiklikten sonra kaydolan yeni kullanıcılar kohortunu kullanıyoruz, temel özelliklerdeki farklılıklara göre probabilistik puanlama ile ayarlama yapıyoruz. Cold start etkisini hesaba katmak için, kullanıcıların tenure'larına göre analiz yapılıyor ve öğrenme eğrisi algoritması ayrı bir şekilde modelleniyor. Yenilik etkisi, ilk 14 gün boyunca metriklerin dinamiklerinin analizi aracılığıyla izole ediliyor ve ardından durağan bir dönemle karşılaştırma yapılıyor. Ek olarak, farklı hızlarla uygulamaya geçen coğrafi bölgeleri doğal bir deney olarak kullanan üçlü fark yaklaşımı uygulanıyor.
Büyük bir moda pazar yerinde, statik ana sayfanın manuel trend seçiminden dinamik bir akışa geçiş yapılması planlandı, bu akış, ML modeli tarafından işbirlikçi filtrasyon temelinde oluşturuldu. Teknik ekip, Edge Cache'in Cloudflare üzerindeki ayarları nedeniyle, kullanıcı bazında trafiği bölemediklerini ve sistemin performansında önemli bir düşüş yaşanacağını bildirdi. Yayın, pik sezon olan Kasım ayında tüm kullanıcılar için aynı anda gerçekleştirilmeliydi, bu da değerlendirmeyi zorlaştırıyordu çünkü Kara Cuma ve tatil öncesi telaş durumları, tarihsel davranış kalıplarını çarpıtıyordu.
İlk yaklaşım, önceki yıllar boyunca mevsimselliğe göre ayarlama ile basit bir önce-sonra analizi kullanmaktı. Bu yöntem, yüksek operasyonel basitliği ile öne çıkıyordu ve karmaşık veri altyapısını gerektirmiyordu, ancak dönemler arasındaki temel trendin sabit kalacağı varsayımından muzdaripti. Gelişen bir e-ticaret pazarında bu durum, makroekonomik faktörler ve talep enflasyonu nedeniyle etkiyi %40-60 oranında abartıyordu.
İkinci seçenek, kişiselleştirmenin daha önce uygulandığı ve istikrarlı bir şekilde çalıştığı mobil uygulama kullanıcı davranışına dayanan sentetik kontrol oluşturmaktı. Bu yöntem, ürün metriklerinin spesifik özelliklerini ve mevsimsel dalgalanmaları dikkate almak için tarihsel verilerin ağırlıklı bir kombinasyonunu kullanıyordu. Ancak, web ile mobil arasındaki paralel trendler hakkında güçlü bir varsayım gerektiriyordu ki bu, farklı kitlelerin demografisi ve kullanıcı senaryolarındaki farklılıklardan dolayı geçerli değildi (web derin arama için, uygulama hızlı alışverişler için kullanılıyordu).
Üçüncü yaklaşım, kıyaslama deneyi yöntemi (DiD) kullanarak, zengin bir geçmişi olan kullanıcılarla cold start yaşayan yeni kullanıcılar arasındaki metrik dinamiklerini karşılaştırmayı öneriyordu. Bu yöntem, öneri sisteminin etkisini modelin öğrenme etkisinden izole etme imkanı veriyor, zaman ve kullanıcı türü arasında etkileşim kullanarak varyasyon kaynağı sağlıyordu. Ana sınırlayıcı faktör, her iki grubun farklı şekilde etkilenen sistematik şokların yokluğu varsayımının gerektiği için parallel trends incelemesinin gerekliliğiydi.
Hibrit bir yaklaşım seçildi, bu da DiD ile kohortlara göre post-stratifikasyon ve algoritma öğrenme eğrisi ayarlamasını birleştiriyordu. Bu çözüm, kullanıcı segmentleri arasındaki bireysel heterojenlikleri ve piyasa düzeyindeki zaman içindeki trendleri kontrol etme imkanı sağladı. Temel bir faktör, adaptasyon hızında doğal varyasyon kullanma imkanıydı: tecrübeli kullanıcılar hemen alakalı öneriler alırken, yenilerin sinyal toplamak için 5-7 oturum geçirmeleri gerekiyordu, bu da novelty effect etkisinden bağımsız olarak temiz sistemi değerlendirmenin "doğal kontrolünü" oluşturuyordu.
Analiz, kişiselleştirmenin gerçek etkisinin satın alma dönüşümünde +%8,3 ve ortalama sepet miktarında +%12 olduğunu ortaya koydu, ancak bu etkiler yalnızca kullanıcıların ilk ziyaretinden 21. günden itibaren geçerliydi. İlk iki haftada yeni kullanıcılar arasında cold start modelinin etkisiyle %3'lük bir dönüşüm düşüşü gözlemlendi, bu durum sürekli müşterilerin (+%15) etkinlik artışı ile tazmin ediliyordu. Zaman yapısını hesaba katmadan bir işletme, metriklerin stabilizasyonunu beklemeden değişiklik geri alabilir ve bu durum, tahmin edilen yıllık gelir kaybıyla sonuçlanabilirdi ki bu kayıp 240 milyon rubleye kadar çıkabilirdi.
Üretim ortamında açık bir eğitim ve test örneği ayrımı olmadan modelin eğitim süresini nasıl dikkate almalıyım?
Adaylar genellikle, ML modellerinin üretimde sürekli çevrimiçi öğrenme (online learning) durumunda olduğunu göz ardı ederler, burada hiperparametreler gerçek zamanlı akış verilerine uyum sağlar. Doğru yaklaşım, önerilerin kalitesinin değerlendirilmesiyle (NDCG, MAP) öğrenme eğrisinin modellemesini içerir. Önce zamanın öneri kalitesine etkisini, ardından kalitenin iş metriklerine etkisini değerlendiren iki aşamalı bir model oluşturulmalıdır ve sonrasında endojeniteyi çözmek için araç değişkenleri kullanılmalıdır. Bunun yapılmaması durumunda analist, algoritmanın iyileştirme etkisini kullanıcı verilerinin birikim etkisiyle karıştırır, bu da optimum değerlendirme ufku hakkında yanlış sonuçlara yol açar.
Kişiselleştirilmiş kısmi deneylerde paralel trend varsayımını hem müdahale öncesi hem de sonrasında kontrol etmenin neden bu kadar kritik olduğunu açıklayabilir misiniz?
DiD'de paralel trend varsayımının kontrol edilmesi için standart uygulama, müdahale öncesi dönemle sınırlıdır, ancak kişiselleştirme sistemlerinde müdahalenin ardından trendlerin ayrılma riski vardır çünkü segmentler arasındaki talep esnekliği farklılık gösterebilir. Örneğin, yüksek değerli kullanıcılar kişiselleştirme etkisi ile satın alma rakamlarını artırabilirken, kaybolan kullanıcılar faaliyetlerinde lineer bir azalma yaşayabilir. Adaylar, post-dönemdeki trend sapmalarını görselleştirmek için olay çalışması yöntemini dinamik etkilerle (dynamic DiD) kullanmalı ve kullanıcı ve zaman için sabit etki modelleri aracılığıyla heterojen tedavi etkileri düzeltmelerini uygulamalıdırlar.
Farklı temel dönüşüm oranları ve kişiselleştirmeye karşı değişken duyarlılığa sahip segmentlerde sonuçları toplarken Simpson paradoksundan nasıl kaçınabilirim?
Tipik bir hata, trafik yapısındaki bileşim kaymalarını hesaba katmadan tüm kitle için ağırlıklı ortalama etkiyi hesaplamaktır. Eğer kişiselleştirme, düşük temel dönüşüm oranına ve önerilerden yüksek göreceli artışa sahip yeni kullanıcıların payının arttığı dönemde uygulanıyorsa, toplu etki olumsuz bile olabilir; oysa her segmentte olumlu bir etki olabilir. Stratification uygulamak, ardından standartlaştırılmış ortalama tedavi etkisi (standardized mean treatment effect) ile veya doubly robust estimation ile kullanmak; bu da, modelini probabilistik scoring ve sonuç modelini birleştirerek, spesifikasyon hatalarına karşı dayanıklılık sağlayacaktır.