Dijital ürünlerde dolandırıcılıkla mücadele geleneksel olarak, yüksek operasyonel yük ve sistemin statikliği ile sonuçlanan katı kurallara veya manuel moderasyona dayanmaktadır. Makine öğreniminin gelişimi ile birlikte, şirketler her işlemi dolandırıcılık olasılığına göre puanlayan Gerçek Zamanlı Dolandırıcılık Tespiti SDK'sını tanıtmaya başladılar. Temel zorluk, herhangi bir sınıflandırıcının iki tür hata yapmasıdır: Yanlış Pozitif (geçerli bir kullanıcının engellenmesi) doğrudan geliri azaltır, Yanlış Negatif (dolandırıcılığın geçişi) ise chargeback'i artırır. İşletmeler için bu hatalar arasındaki değişimi ölçmek kritik öneme sahiptir, böylece puanlama eşiklerini optimize edebiliriz.
Standart A/B testi mümkün değildir, çünkü kontrol grubunda kasıtlı olarak dolandırıcılık işlemlerinin geçişine izin vermek itibari risk ve FinCEN/PCI-DSS gereklilikleri açısından kabul edilemez. Uygulamanın güncellenmesiyle daha sadık kullanıcıların gelmesi nedeniyle, öncesi ve sonrası yeterince temiz bir karşılaştırma yapılması mevsimsellikten etkilenir. Yüksek dolandırıcılık riski olan kullanıcıların başlangıçta farklı bir dönüşüm oranı olduğu için, onaylanan ve reddedilenler arasındaki naif karşılaştırma, gösterim karışıklığı nedeniyle yanlı bir tahmin verir.
En uygun yöntem, dolandırıcılık puanının kesik değerinin etrafında Kesik Regresyon Tasarımı (RDD)'dır (örneğin, 0.7), burada onaylama olasılığında 1'den 0'a ani bir değişiklik olur. 0.69 puanına sahip işlemleri (tedavi, onaylı) ve 0.71 puanına sahip işlemleri (kontrol, reddedilmiş) karşılaştırıyoruz, bir bant aralığında (±0.05) yerel rastgelelik varsayarak. Yerel Lineer Regresyon'u kullanarak LATE (Yerel Ortalama Tedavi Etkisi)'ni tahmin ediyoruz. Doğruluğu artırmak için, bir kontrol değişkenleri olarak (cihaz geçmişi, coğrafi konum) prediktörleri ekleyerek Kovaryataya Göre Ayarlanmış RDD'yi uyguluyoruz. Net geliri değerlendirmek için Artan Gelir'i hesaplıyoruz: durdurulan dolandırıcılığı (beklenen chargeback) ve RDD aracılığıyla tanımlanan yanlış pozitiflerden kaybedilen gelir arasındaki fark.
Bir pazaryeri mobil uygulamasında dış bir tedarikçiden alınan Dolandırıcılık Tespiti SDK'sının entegrasyonundan sonra, satın alma dönüşümü %4.2'den %3.5'e düştü, bu arada dolandırıcılık oranı %2.8'den %0.4'e geriledi. Ürün ekibi, sistemin çok agresif olduğunu ve geçerli ödeme yapabilen kullanıcıları engellediğini düşündü, ancak kontrol grubunun yokluğu nedeniyle sorunun boyutunu niceliksel olarak değerlendiremiyordu.
Seçenek A: Entegrasyondan önce ve sonra dönüşümün basit karşılaştırması (ön-sonrası analizi). Artıları: minimum iş gücü gerektirir, özel bir altyapı gerektirmez. Eksileri: mevsimselliği tamamen göz ardı eder (uygulamanın güncellenmesi düşük sezon başlangıcı ile çakıştı), uygulamanın güncellenmesi sırasında kendiliğinden seçim ve pazarlama karışımındaki değişiklik (düşük dönüşümlü yeni bir kanal başlatıldı).
Seçenek B: Coğrafi bölünme (Grup A'da sistem aktif, Grup B'de pasif). Artıları: temiz bir kontrol grubu oluşturuyor. Eksileri: tek bir kod tabanı ve CDN önbelleklemesi nedeniyle teknik olarak mümkün değil; kullanıcılar şehirler arasında geçiş yapıyor; dolandırıcılık profili bölgeler arasında önemli ölçüde değişiyor (yatay heterojenlik).
Seçenek C: Kesik Regresyon Tasarımı dolandırıcılık puanı etrafında kesim eşiği 0.65. Artıları: doğal deney kullanır, yerel rastgelelik sağlar, tam olarak "sınırdaki" işlemler için nedensel etkileri izole etmemize olanak tanır. Eksileri: eşik bant aralığında büyük veri hacmi gerektirir; LATE'yi değerlendirir, bu tüm popülasyon için ATE'den farklı olabilir; puanın manipülasyonuna duyarlıdır (dolandırıcılar eşiği aşmayı öğrenebilir).
Seçenek D: Sentetik Kontrol Yöntemi, kontrol grubunu simüle etmek için tarihsel kohortların ağırlıklı kombinasyonunu oluşturur. Artıları: fiziksel bir kontrol grubu olmadan çalışır, zamana dayalı trendleri dikkate alır. Eksileri: etkileyen faktörlerin zamana göre istikrarlı olduğunu varsayar; ön işleme sırasında aşırı değerlere duyarlıdır; sadece placebo testleri ile doğrulaması zordur.
Seçenek C (RDD) 0.08 bant genişliği ve birinci dereceden polinom ile seçildi. Analiz, 15,000 ₽'den yüksek işlemler için yanlış pozitif oranının, küçük alımlar için iki kat daha fazla olduğunu gösterdi. Buna dayanarak ürün kategorileri için dinamik eşikler ayarlandı.
Sonuç: 0.7 puanlık dönüşüm kaybının 0.6 puanının yanlış pozitiflerden kaynaklandığını niceliksel olarak değerlendirdik. Eşiklerin kalibre edilmesinin ardından kaybedilen gelirin %45'i (≈18 milyon ₽ ayda) geri kazanıldı ve dolandırıcılık karşıtı etkinliğin %90'ı korundu.
Yüksek dolandırıcılık puanına sahip kullanıcıların, dolandırıcılık sistemleri olmasaydı bile başlangıçta daha düşük satın alma eğiliminde oldukları durumlarda nedensel etkiyi seçim yanlılığından nasıl ayırabilirsiniz?
Cevap: Bu, tedavi için gösterim karışıklığı olan klasik bir problemdir (yüksek risk) sonuçla örtüşmektedir. RDD'de, bant aralığında kovaryat dengesini (covariate balance) kontrol etmek kritik öneme sahiptir: gruplar arasında cihaz yaşı, satın alma geçmişi ve coğrafi konum dağılımını eşiğin biraz altında ve biraz üstünde karşılaştırmak gerekir. Dengesizlik gözlemlenirse, regresyona kovaryatları dahil etmek üzere yanlılık düzeltmeli RDD kullanılmalı veya dağıtımın rastgeleliği hakkında hipotezi resmi olarak test ederek Yerel Rastgeleleştirme yaklaşımı kullanılmalıdır. Bu kontrol olmadan, etkinin tahmini yüksek ve düşük risk grubundaki önceden var olan farklılıklarla karışabilir.
Farklı model sürümlerinden (v1 ve v2) geçmiş kullanıcılar arasında onay oranının basit karşılaştırılması, algoritmadaki iyileştirmenin etkisini doğru bir şekilde değerlendirmeye neden olamaz?
Cevap: Bu karşılaştırma, gözlemlenemezler üzerinden seçim yanlılığı ve bileşim kayması ile tahammül eder. Yeni model v2, yalnızca yeni kullanıcılara veya pilot bölgelerde seçici olarak uygulanabilir, bu, karşılaştırılamaz gruplar yaratır. Ayrıca, puanlama kalitesindeki iyileşme onaylanan kullanıcıların bileşimini değiştirir: v2, v1'in reddettiği "gri alanı" onaylıyor olabilir, ancak bu kullanıcıların dönüşümü farklıdır. Doğru bir değerlendirme için, tarihi günlük verileri ile Çevrimiçi Politika Değerlendirmesi ve Ters Eğilim Ağırlığı (IPW) veya Çift Sağlam Tahmin kullanılmalıdır ve var olan işlemler üzerinde v1'in v2 ile aynı işlemlerden ne kadar gelir getirdiğini değerlendirerek karşı faktör izlenmelidir.
Dolandırıcılık 30 gün sonra (chargeback) doğrulandığında, analistlerin 7 gün içinde etkisini değerlendirmesi gerektiğinde gecikmeli geri bildirim problemini nasıl hesaba katabiliriz?
Cevap: Bu, sansürlü veriler (censored data) ve değerlendirmede asimetri problemi yaratır. Son 30 gündeki işlemler için gerçek etiketi (dolandırıcılık/dolandırıcılık değil) bilmiyoruz. Çözüm, eksik verilerle başa çıkmamıza izin veren Hayatta Kalma Analizi (Cox oranlı tehlikeler modeli) kullanmaktır. Alternatif olarak, gelecekteki dolandırıcılıkla ilişkili, proxy olarak kullanılabilecek Yerel Metrikler (örneğin, hız özellikleri, oturum sırasında cihaz parmak izinin değişimi) kullanılabilir. Önemli olan, yanlış pozitiflerin hemen (anlık bir reddetme) görünürken, yanlış negatiflerin bir gecikme ile göründüğüdür, bu da kısa bir süre içinde yüksek tahmin doğruluğunun yanıltıcı duruma düşmesine neden olur. RDD için, nedensel çıkarımı doğrulamak amacıyla 30+ gün gecikmeli "dondurulmuş" veriler kullanılması önerilir.