Tarihi olarak, pazarlama kampanyaları ortalama etki değerlendirmesi (ATE) üzerinden değerlendirilmişti, ancak Causal ML gelişimi, bireysel tedavi etkisini (ITE) tahmin eden uplift modellerine yol açtı. Klasik A/B testi burada çelişkili bir durum yaratıyor: Modeli eğitmek için tüm segmentler için treated ve control verilerine ihtiyaç var, ancak modeli değerlendirmek için uygulamak gerekiyor ki bu da kontrol grubunu bozar. Bu, araştırma ve kullanma (exploration-exploitation) ikilemini yaratır.
Sorun, test grubundaki kullanıcıların davranışlarının kontrol grubunu ağ etkileri veya ortak kaynaklar (örneğin, promosyon kodu limitinin tükenmesi) yoluyla etkilemesiyle karmaşıklaşır. Modelin eğitilmesi ve artan etkisinin eşit dağılım veya kampanya eksikliği ile karşılaştırılması için izole edilmesi gereken bir yöntem gereklidir.
Çözüm, İki Aşamalı Yaklaşım üzerinde inşa edilir. İlk aşama — exploration rastgeleleme ile (trafik oranının %20-30'u) tarafsız veri toplamak, model eğitimi (X-learner veya R-learner) ve CATE (Koşullu Ortalama Tedavi Etkisi) değerlendirmesi yapmak. İkinci aşama — exploitation, modelin trafiği kademeli olarak model yoluyla Thompson Sampling veya Contextual Bandits ile geçiştirerek minimum regret (pişmanlık) sağlamak. Etkileri izole etmek için Cluster-based Randomization (coğrafi kümelere göre rastgeleleme) veya Switchback test (zamanlı rastgeleleme) kullanarak, sonrasında Synthetic Control Method (SCM) ile değerlendirmek. Kalite metriği — Qini-coefficient veya Area Under the Uplift Curve (AUUC), seçim yanlılığını ortadan kaldırmak için Inverse Propensity Weighting (IPW) ile düzeltme yapılır.
Sorun, kişiselleştirilmiş promosyon kodları kampanyası başlatırken bir pazaryerinde ortaya çıktı. Ürün yöneticisi, sadece "persuadables" (yalnızca promosyon kodu ile satın alacak olanlar) için indirim göndermek üzere uplift-model kullanmak istedi, "sure things" ve "lost causes"'tan kaçınarak. Standart A/B testi mümkün değildi, çünkü model eğitimi için her segmentte promosyon kodu almayanlara ilişkin verilere ihtiyaç vardı, ancak promosyon kodu olmadan %50'ye kadar bir kitle tutma, geliri kritik şekilde etkiliyordu.
Birinci seçenek — Hold-out Randomization, kullanıcıların %10'unu kontrol altında tutarak tüm dönem boyunca. Bu yaklaşımın artıları: ATE'nin saf değerlendirilmesi ve modelin doğru şekilde kontrast üzerinde eğitilme olanağı. Ancak, önemli fırsat maliyetleri (upuzun fırsat kayba) ve etik çatışmalar (şeffaf kriterler olmadan fiyat ayrımı) nedeniyle, kontrol grubunun küçüklüğü nedeniyle modelin yavaş yakınsama sorunları var.
İkinci seçenek — Thompson Sampling ile trafik oranının kademeli olarak artırılması. Burada "çalgıç" bandidin hedefleme stratejileri (uplift modeline karşı random) olur. Artıları: optimal exploration/exploitation dengesi, mevsimsel değişimlere adaptasyon ve ekonomik kayıpların en azı. Ancak, erken aşamalarda yorumlanması zor, yerel optimuma ulaşma riski ve istatistiksel geçerlilik için büyük trafik hacimlerine ihtiyaç duyulmasından kaynaklanan dezavantajlar var.
Üçüncü seçenek — Geo-based Synthetic Control. Rastgeleleme, bölgeler arasında yapıldı: testlerde uplift model uygulandı, kontrol gruplarında eski sistem kullanıldı. Değerlendirme için, test öncesinde test bölgelerini taklit eden kontrol bölgelerinin ağırlıklı bir kombinasyonunu oluşturan SCM kullanıldı. Artıları: bireysel rastgelelemeden kaynaklanan etkilerin izole edilmesi, toplanmış verilerle çalışma ve şehirler arası çapraz kirlenmenin olmaması. Ancak, bölgelerin zamanla kararlılığı, küçük coğrafi birimlerde aşırı değerler için hassasiyet ve yüksek sezonluk dönemlerde sıklıkla ihlal edilen paralel eğilim varsayımını içerir.
Birleşik bir çözüm seçildi: Geo-cluster Randomization ve Synthetic Control ile çevrimdışı validasyon için ve Thompson Sampling ile test kümeleri içinde çevrimiçi optimize etmek. Gerekçe: Coğrafi rastgeleleme çapraz kirlenmeyi dışladı (farklı şehirlerden kullanıcılar nadiren etkileşime giriyor) ve Synthetic Control, %50/50 bölünmeden kaçınmayı sağladı. Test bölgelerinde Thompson Sampling, modelin yerel tercihlere hızlı adaptasyonunu sağladı.
Sonuç: uplift modelinin gerçek artan etkisini, kitlesel yayılma ile karşılaştırıldığında dönüşümde +%12 olarak izole edebildik ve promosyon kodlarında %35'lik bir azalma sağladık. Synthetic Control, model olmadan test bölgelerindeki eğilimin, sentetik kontrolün %94 doğrulukla (RMSPE) tekrarlanacağını gösterdi, bu da değerlendirmelerin geçerliliğini onayladı.
Model üzerinden promokodu alanların dönüşümünü, almayanlarla (gözlemlenen veriler) karşılaştırıp sonuçlar çıkartamaz mıyız, hatta Propensity Score Matching kullansak bile?
Yanıt: Self-selection bias ve unobserved confounders. Yüksek uplift puanına sahip kullanıcılar gözlemlenmeyen özellikler bakımından sistematik olarak farklı olabilir (örneğin, son maaş alımı veya belirli bir ürün arayışı). Propensity Score Matching (PSM) yalnızca gözlemlenen kovaryatlar üzerinden düzeltme yapar, ancak eğer promosyon kodunun alınma olasılığını ve dönüşümü etkileyen gizli bir değişken varsa, değerlendirme yanlı olacaktır. Örneğin, birçok oturum alan aktif kullanıcılar "persuadables" olarak yanlış sınıflandırılabilir, ancak indirim olmadan da satın alırlar. Başlangıç düzeyindeki bir uzman için kritik olan, tahmin edilen uplift ile gerçek dönüşüm arasındaki korelasyonun neden-sonuç etkisi olmadığıdır — izole etme için rastgeleleme veya aracı değişkenlere (IV) ihtiyaç vardır.
Zamansal bağımlılık (time-varying confounders), uzun süreli bir eğitim sürecinde uplift modelinin değerlendirilmesini nasıl etkiler ve bununla nasıl başa çıkılır?
Yanıt: Uzun süreli eğitimde zamansal konfonderlik ortaya çıkar: kullanıcı davranışları değişir (mevsimsellik, ürün güncellemeleri) ve keşif aşamasına ait veriler, kullanma aşamasına geldiğinde tarihselliğini yitirir. Klasik uplift modeli, durağanlık (stationarity) varsayar, bu nadiren doğrudur. Çözüm, uyumlu deneyim ile eski veriler için decaying weights veya çevrimiçi öğrenme algoritmaları (örneğin, Bayesian Updating) kullanmaktır. Ayrıca, özellikler ve model performansı için concept drift izleme gerektiği için Population Stability Index (PSI) gereklidir. Yeni başlayan analistler genelde modeli çeyrek verilerle eğitirler ve altı ay sonra uygularlar, davranış değişikliğini kontrol etmeden (örneğin, bir rakipin piyasaya çıkması gibi) bu da üretimde negatif uplift'e yol açar.
AUUC metriği (Area Under Uplift Curve), iki farklı uplift modelini karşılaştırırken neden yanıltıcı olabilir ve hangi alternatifler kullanılmalıdır?
Yanıt: AUUC, popülasyondaki tahmin edilen uplift dağılımına bağlıdır ve ölçek-invariant değildir. Eğer bir model, herkes için küçük bir uplift'ı muhafaza ederken, diğeri yüksek dağınıklıkla agresif bir tahmin yapıyorsa, bu eğriler kesişecektir ve AUUC belirsiz bir sonuç verecektir. Daha da önemlisi, AUUC, iş kısıtlamalarını (promosyon kodları için bütçe) göz önünde bulundurmaz. Alternatif olarak, sabit bir bütçe altında cost-sensitive Qini coefficient veya Expected Response kullanılabilir. Yeni başlayan uzmanlar için önemli olan, AUUC'ye göre iyi bir modelin = iyi bir iş metriği olmadığıdır. Policy Evaluation kullanarak stratejinin simülasyonu yapılmalı: kullanıcıları tahmin edilen uplift'e göre sıralamak, en üst K% almak (bütçeye göre) ve gerçek artışı karşı örnek senaryo ile Doubly Robust Estimation veya Inverse Probability Weighting (IPW) aracılığıyla karşılaştırmak gereklidir.