Soru Geçmişi
Büyük ürünler sürekli olarak içerik için yeni giriş noktaları getiriyorlar — kişiselleştirilen bloklar, AI önerileri veya alternatif navigasyon desenleri. Kanibalizasyon analizi olmadan ekip yeni özelliğin başarısını yanlış bir şekilde atfedebilir, çünkü aslında ekranlar arasında kullanıcı akışı olmuş olabilir ve toplam gelirde bir artış olmamıştır.
Sorun
İncremental etkileri (yeni blok olmadan gerçekleşmeyecek yeni işlemler) kanibalizasyondan (eski kategorilerden yeni bloğa transfer edilen işlemler) ayırmak gerekiyor. Standart bir A/B testi kullanıcı seviyesinde bu sorunu çözmüyor çünkü kullanıcı her iki kanalı aynı anda görüyor ve bunlar arasındaki seçim endojenlik yaratıyor.
Çözüm
Geo-experiment ile sentetik kontrol veya oturumlara göre kümeleme rastgeleliği kullanıyoruz. Coğrafi bölgeleri test ve kontrol olarak rastgele atıyoruz, GMV'deki değişimi yalnızca platform genelinde değil, aynı zamanda navigasyon kategorilerine göre de ölçüyoruz. Kanibalize edilmiş geliri toplam artıştan çıkarmak için Difference-in-Differences yöntemini uygularız.
Sorunun Tanımı
Bir e-ticaret mobil uygulamasında, TensorFlow sıralama modellerine dayalı yeni "Sizin İçin Seçildi" bloğu başlatıldı. Bir ay sonra, kategori tıklama metriği %25 oranında düştü, oysa toplam GMV sadece %5 arttı. Ürün ekibi tartıştı: bu bir kanibalizasyon mu yoksa gerçekten kullanıcı yolunun optimizasyonu mu? 5%'in ne kadarının gerçek bir artış olduğu ve ne kadarının mevcut talebin transferi olduğunu belirlemek gerekliydi.
Değerlendirilen Çözümler
İlk çözüm: Toplam GMV'ye "önce/sonra" basit karşılaştırması. Bu yaklaşım, yeni bloğun olmaması durumunda göstergelerin değişmeyeceğini varsayıyor. Artılar: maksimum hız, deneyin altyapısına ihtiyaç duymaz. Eksiler: mevsimsellik, pazarlama kampanyaları ve organik büyüme trendini göz ardı eder, bu da %15-20'lik yanlı bir tahmin verir.
İkinci çözüm: Splitting servisi ile %50/%50 bölünmüş klasik A/B testi. Burada kontrol grubuna bloğun gizlenmesi durumunda GMV'deki farkın gerçek etkisini göstereceği varsayımı vardır. Artılar: uygulanabilirlik kolaylığı, tanıdık istatistikler. Eksiler: testteki kullanıcılar yine de arama veya kategoriler aracılığıyla ürünleri bulabilir, bu da test grubunda doğrudan bir kanibalizasyon oluşturur, ve kontrol grubunda bloğun olmaması kategorilerin karşılaştırılması için daha az veri oluşturur.
Üçüncü çözüm: Synthetic Control Method (SCM) ile geo-experiment. Benzer GMV dinamiklerine sahip 20 şehri seçtik, 10'unu teste (blok dahil), 10'unu kontrol grubuna (blok gösterilmiyor) rastgele atadık. Kontrol için, test şehirlerinin "önce" dönemine en yakın ağırlıklı şehir toplamı oluşturduk. Artılar: piyasaların bütünleşik düzeyinde etkileri ölçmeyi sağlar, şehir içindeki kategoriler arasında kanibalizasyonu doğal olarak dikkate alır. Eksiler: büyük bir örneklem gerektirir (şehirler), bölgesel aksiyonlara karşı hassastır, ikinci derece hata hesaplamasında zorluk çıkartır.
Seçilen Çözüm ve Gerekçe
Üçüncü seçenekte karar kıldık — Synthetic Control Method ile geo-eksperimenti. Ana faktör, iç kullanıcı düzeyinde kanibalizasyonu normal A/B testi ile ölçememenizdir; çünkü kontrol grubunda bloğun olmaması durumunda test grubundaki işlemlerin "karşıt durumunu" göremeyiz. Geo düzey, kategoriler genelinde satın alma yapısının nasıl değiştiğini görmeyi sağladı.
Sonuç
Toplam GMV'deki %5'lik artışın %3.2'sinin kanibalizasyon olduğu (uzun kuyruk kategorilerinden bloktaki ilk 3 ürüne geçiş) ve yalnızca %1.8'inin gerçek inkriminal etki olduğu belirlendi. Bu verilere dayanarak, popüler ürünler için ceza ekleyerek sıralama algoritmasını düzelttik, bu da net artışı %4.1'e yükseltti.
Soru 1: Kullanıcı oturumu seviyesinde yeni bloktaki tıklamalar ile kategori tıklamaları arasındaki korelasyona neden sadece bakamayız?
Cevap, endojenlikteki kendiliğinden seçimdir. Yeni bloka tıklayan kullanıcıların, kategorilere gidenlerden (yüksek satın alma niyeti vs. tarayıcı) farklı bir niyet yapısına sahip olduğu görülmektedir. Doğrudan bir korelasyon, Simpson etkisine yol açar: birleşik verilere göre blok "trafik çaldı" gibi görünebilir, ancak yüksek niyete sahip kütüklerde, aslında daha hızlı satın alacaklarını göreceğiz. Causal Forest veya Propensity Score Matching kullanmak, kullanıcıları blok maruziyetinden "önce" benzer davranış geçmişine sahip olanlarla karşılaştırmak gerekir.
Soru 2: Kanibalizasyon deneyinde minimal anlamlı etkiyi (MDE) nasıl hesaplarsınız, eğer etki bazı kategoriler için negatif, bazıları için pozitif olabiliyorsa?
Burada adaylar standart formülü ortalama etki için uyguladıklarında yanlış yapıyorlar. Kanibalizasyon durumunda kategoriler arasındaki varyans artmaktadır, çünkü dengesizlikle karşı karşıyayız: bazı kategoriler kaybederken, diğerleri kazanmaktadır. Linear Mixed Models ile rastgele kategori etkisi kullanılarak ve risk telafi katsayısı ile kanibalize edilmiş kategorilerdeki GMV düşüşünün ağırlıklı olarak düşürülmesi ile birleşik metrik için güç hesaplanması gerekmektedir.
Soru 3: Bir üründeki kanibalizasyonu deneysel olarak ölçmek ile sosyal ağlardaki interference sorununu çözmek arasında temel fark nedir?
Ürün analizinde kanibalizasyon, bir özne (kullanıcı) içindeki "talep akışı" biçimidir; bu nadiren birimler arasındaki interference olarak modellenmektedir. Sosyal ağlarda (örneğin, Facebook) interference, kullanıcılar arasında sosyal grafikteki spillover'dır. Kanibalizasyonla mücadele etmek için zamanı veya davranış türünü kullanarak kümeleme yapıyoruz, grafik rastgeleliği değil. Bu bağlamda, müdahale ataması – yeni UI'ye maruziyet – iletişim değil, bu nedenle Ego-cluster randomization gibi yöntemler uygulanamaz; bunun yerine kullanıcı segmentleri düzeyinde Switchback experiments kullanıyoruz.