Tarihsel Bağlam
Erken stratejiler, düşüşte olan tüm kullanıcılara toplu indirim maili gönderiyordu. Bu, pazarlama bütçesinin israfına ve "indirim bekleme" davranış kalıplarının oluşmasına neden oldu. Uplift Modeling ve Propensity Score yöntemlerinin 2010'larda ortaya çıkmasıyla şirketler yalnızca yüksek ayrılma olasılığına sahip kullanıcıları hedef almaya başladı. Ancak bu, değerlendirme konusunda temel sorunlar yarattı çünkü tedavi grubu model tarafından içsel olarak seçiliyor, bu da neden-sonuç çıkarımları için gerekli olan rasgeleleştirme varsayımını ihlal ediyordu.
Sorunun Tanımı
Asıl zorluk, ayrılma tahmin modeli tarafından yüksek riskli olarak işaretlenen kullanıcılar için geçerli bir karşıfaktör senaryosu kurmaktır. Bu kullanıcılar, genel popülasyondan sistematik olarak farklılık gösterirler - onların katılımı daha düşük, son zamanlarda olumsuz deneyimler yaşamış ya da belirli davranış kalıplarına sahip olabilirler. Onların tutma oranlarını düşük riskli kullanıcılarla veya kendi geçmişleriyle karşılaştırmak, tedavi etkisini mevcut farklılıklarla karıştırır. Ayrıca, maksimum ayrılma riski taşıyan kullanıcılar için tutma tekliflerinden vazgeçmek (kontrol grubu) kabul edilemez bir iş riski ve gelir kaybına yol açar, bu da klasik A/B testini siyasi olarak imkansız hale getirir.
Detaylı Çözüm
Regression Discontinuity Design (RDD) yöntemini, müdahaleyi tetikleyen risk skoru üzerine uygulayın (örneğin, 0.7). Eşik değerinin hemen üstündeki ve hemen altındaki kullanıcılar, tedavi atanmasından başka istatistiksel olarak benzer olmalıdır. Bu, marjinal kullanıcılar için lokal ortalama tedavi etkisi (LATE) sağlar. Tüm yüksek riskli popülasyona genellemek için, RDD'yi Inverse Probability Weighting (IPW) ile birleştirerek, müdahale öncesi verilerde tahmin edilen propensite skoru kullanın. Eşik değerinin çok ötesindeki kullanıcılar için Doubly Robust Estimation veya Causal Forests kullanarak heterojen etkileri modelleyin. Eğitim sırasında önceki kampanyalardan gelen veri kirlenmesi ile başa çıkmak için, modelin tetikler olmaksızın tahminler ürettiği bir "gölge modu" uygulayın (küçük bir hold-out (%5-10) ile), bu da Two-Stage Least Squares (2SLS) analizi için bir araç oluşturur. Son olarak, iletişim kanallarının doygunluğunu hesaba katmak için, risk segmentleri arasındaki zaman eğilimlerini karşılaştırmak için Difference-in-Differences (DiD) kullanın.
Bir mobil abonelik hizmeti (meditasyon uygulaması), yüksek ayrılma olasılığına sahip kullanıcılara %30 indirimli kişiselleştirilmiş push bildirimleri gönderen ChurnGuard adlı bir ML sistemi uyguladı.
Seçenek 1: İndirim alan (yüksek risk) ve almayan (düşük risk) kullanıcılar arasında basit karşılaştırma
Artılar: Mevcut BI araçlarıyla anlık hesaplama; deneysel altyapı gerektirmiyor. Eksiler: Güçlü içsel seçim yanlılığı — yüksek riskli kullanıcılar doğal olarak daha sık ayrılma eğiliminde; karşılaştırma, etkisini yeterince değerlendiremiyor veya hatta negatif bir korelasyon gösteriyor (işlem gören kullanıcılar hala işlem görmeyen düşük riskli kullanıcılara göre daha sık ayrılıyor).
Seçenek 2: %50 yüksek riskli kullanıcının rastgele tutma teklifinden mahrum bırakıldığı rasgele kontrollü bir deney
Artılar: Yanlılığa neden olmadan neden-sonuç değerlendirmesi; tedavi ortalama etkisinin (ATE) açık bir yorumu. Eksiler: İş paydaşları, değerli kullanıcıları kaybetme korkusuyla bunu reddetti; müdahale mevcutken kasıtlı olarak ayrılma riski alma etik sorunları; yüksek riskli segment için örneklem boyutu sorunları.
Seçenek 3: Eşik değeri 0.75 olan Regression Discontinuity Design ile + Zaman Serileri doğrulaması için Sentetik Kontrol Yöntemi
Artılar: Etik olarak kabul edilebilir — eşik değerinin hemen altındaki kullanıcılar standart deneyimi alır; mevcut algoritmik eşik doğal bir deney olarak kullanılır; geçmiş verilerde geriye dönük olarak uygulanabilir. Eksiler: Sadece yerel etkiyi değerlendirir (eşik değerinin etrafındaki kullanıcılar için); süreklilik varsayımlarının titiz bir doğrulamasını gerektirir (skorlarla oynanmadığını) ve geçiş bantındaki daha düşük etkin örneklem boyutundan dolayı RCT'den daha az kesin olabilir.
Seçilen Çözüm ve Gerekçe
Seçenek 3, 0.05'lik bir geçiş bandı ile, modelin devreye alınmasından bir hafta önce ve sonra kullanıcıların karşılaştırılmasında Cohort Analysis ile desteklenmiştir; davranışsal özelliklerine göre Propensity Score Matching ile sezonluk etkiler düzeltilmiştir. Tercih sebebi: İstatistiksel titizliği iş kısıtlamaları ile dengelememize ve yüksek riskli kullanıcılara açıkça tedavi red etmek zorunda kalmadan etkileri değerlendirmemize olanak tanıdı.
Sonuç
Skorda 0.75-0.80 arasında olan kullanıcılar için 7 gün içinde %18 oranında bir azalma gözlemlendi. Ancak, >0.90 riskine sahip kullanıcılarda birkaç koruma bildirimi nedeniyle "rahatsızlık yorgunluğu" nedeniyle geri dönüş kaybedildi. Haftada maksimum 2 push bildirimi olacak şekilde sıklık sınırını optimize ettik. LTV üzerindeki net etki 3 ayda +$1.2M, indirim masraflarında %340 ROI sağladı.
Nikay alanı olan kullanıcılar arasında tutma oranlarının, tutma kampanyası alan ve almayanlar arasındaki karşılaştırmanın, müdahalenin gerçek etkisini fazla veya az değerlendirebileceğini?
Yüksek riskli segment içinde bile, bir kullanıcının bu segmente girdiği zaman önemli bir faktördür. Risk eşiğine daha erken ulaşan kullanıcılar, daha sonra ulaşanlardan temelde farklıdır. Time-Varying Confounders'ı (örneğin, son zamanlardaki uygulama arızaları ya da indirimlerin etkinliğini artıran veya azaltan mevsimsel olaylar) göz önünde bulundurmadığınızda, basit karşılaştırmalar Survivorship Bias ve Simpson's Paradox'tan etkilenir. Doğru yaklaşım, zamanla değişen kovaryatların işlenmesi için tedavi olasılığına göre ağırlıklandırma ile Marginal Structural Models (MSM) kullanmaktır.
Kesintiyi önleme model eğitiminde veri sızıntısı problemi, kesintiyi önleme sisteminin etkinliğini neden çarpıtır?
Kesinti modeli, bazı kullanıcıların tutma kampanyalarını almış olduğu geçmiş verilerle eğitilmişse, hedef değişkenin etiketleri kirlenmiştir. Model, "önceki kampanyalarla kurtarılan kullanıcıları" tanımlamayı öğreniyor, "doğal olarak ayrılacak kullanıcıları" değil. Bu, modelin, doğrulama üzerinde (işlem gören kullanıcılarda düşük kesinti tahmin ederek) yapay olarak iyi sonuç vermesine neden olan bir Feedback Loop oluşturur, fakat üretim ortamında gerçek anlamda riskli kullanıcıları tanımlayamaz. Düzeltmek için müdahale öncesi verileri yalnızca eğitimde kullanmak veya önceki tedavilerin ters olasılığına göre eğitim verilerini yeniden ağırlıklandırmak için Importance Sampling uygulamak gereklidir, böylece geçmişte kampanyaların yokluğunu etkili bir şekilde simüle edebiliriz.
Neden standart A/B testi, kesintiyi önleme sistemlerinin değerlendirilmesi için uygun olmayabilir ve yerine hangi alternatif deneysel tasarımlar kullanılmalıdır?
Standart A/B testi genellikle uygun olmayabilir çünkü kontrol grubunda tedaviden vazgeçmek Individual Equipoise ilkesini ihlal eder (müdahale mevcutken kasıtlı olarak zarar verme durumu) ve Spillover Effects'ten (işlem gören kullanıcılar, kontrol grubuna promosyon kodları paylaşabilir) etkilenir. Bunun yerine, Cluster Randomization (coğrafi bölgeler veya zaman dilimlerine göre rasgeleleştirme aracılığıyla Switchback Experiments) veya modelin katılım hakkı bir araç olarak görüldüğü Encouragement Designs kullanın. Diğer bir yaklaşım Partial Population Experiments'tadır; burada model kontrol grubunda "gölge modunda" çalışır (tahminler yapılır ama işlemler gerçekleştirilmez), bu, gerçek lift ölçmek için Calibration Analysis ile tahmin edilen ve gerçek ayrılmayı karşılaştırmaya olanak tanır.