Sorunun Cevabı

Tarihsel Bağlam. Ortak tarayıcı kavramı, B2B sektöründen (müşteri desteği) sosyal ticarete (örneğin, mobil uygulamalardaki "Birlikte Alışveriş Yap" gibi) geçti. Geleneksel analitik, uzun bir süre kullanıcıların bağımsızlığını varsayan SUTVA (Stable Unit Treatment Value Assumption) ilkesine dayanıyordu. Ancak sosyal işlevler, bir kullanıcı üzerindeki etkinin onun bağlantılarının davranışını etkileyerek bu varsayımı ihlal etmektedir; bu da klasik A/B testlerini yöntemsel olarak geçersiz kılar.

Problemin Tanımı. Ortalama farkı (difference-in-means) standardı, interference (karşılıklı kirlenme) nedeniyle yanlı bir tahmin sunmaktadır: kontrol grubundaki kullanıcılar, test grubundaki arkadaşları tarafından davet edildiklerinde davranışlarını değiştirmekte ve spillover etkisi yaratmaktadır. Sosyal aktiviteye göre öz-seçim, kovaryatların dağılımını çarpıtmaktadır ve aşamalı rollout (staggered adoption) sezonluk ve yenilik etkisi gibi zamanla bağlantılı karıştırıcıları da beraberinde getirir.

Ayrıntılı Çözüm. Sosyal bağlantılar düzeyinde küme rastgeleleştirmesi (cluster randomized trial) uygulanmalıdır. Toplulukların (community) belirlenmesi için Louvain veya Leiden algoritmaları kullanılarak, aralarındaki bağlantının minimum olacağı kümeler oluşturulmalıdır. Tam bir rastgeleleştirme mümkün olmadığında, tam zamanlı fark (staggered DiD) ve heterojen etkileri düzeltmek için Callaway-Sant’Anna veya Sun-Abraham yöntemleri kullanılmalıdır; bu yöntemler, erken kotalardaki negatif ağırlıkları doğru bir şekilde işler. Doğrudan etki ile ağ etkisini izole etmek için maruz kalma modellemesi (exposure mapping) uygulanmalıdır: kontrol grubundaki "enfeksiyonun" seviyesini testtedeki arkadaşların oranı olarak belirleyin ve bunu regresyona bir kovaryat olarak dahil edin veya 2SLS (İki Aşamalı En Küçük Kareler) ile gerçek kullanım için coğrafi küme bazında işlevin kullanılabilirliğini araçsal değişken olarak kullanın. Dönüşüm süresi analizi için Cox modeli ile fragman etkileri (shared frailty model) kullanılmalıdır ki bu da sosyal gruplar içindeki risk kümelenmesini dikkate alır.

Gerçek Hayattan Bir Durum

Sorunun Tanımı. Bir pazar yeri, iki kullanıcıya aynı anda katalogu inceleme ve ortak sepeti gerçek zamanlı olarak düzenleme imkanı sunan "Birlikte Alışveriş Yap" işlevini başlattı. %10'luk bir izleyici grubundaki pilot uygulama, dönüşüm oranında %8'lik bir artış gösterdi, ancak ekip bu sonucun abartıldığından şüpheleniyordu: kontrol grubundaki kullanıcılar test grubundaki arkadaşları tarafından davet ediliyordu ve bu durum gruplar arası kirlenmeye neden oluyordu. Üstelik, bu işlevi kullananlar zaten var olan sosyal bağlantılara sahip olan kişilerdi (katılım tabanlı öz-seçim).

Seçenek 1: Adapter grubunda “önce/sonra” basit karşılaştırma. Bu yaklaşım, co-browsing işlevini kullanmaya başlayan kullanıcıların metriklerini kendi önceki verileriyle veya işlevi olmayan benzer kullanıcılarla karşılaştırmayı öngörmektedir. Avantajlar açıktır: hesaplama dakikalar alır, iş dünyası açısından kolayca yorumlanabilir, karmaşık deney altyapısı gerektirmez. Ancak sakıncalar kritiktir: bu yöntem tamamen mevsimsel etkileri ve olgunlaşma etkisini göz ardı eder ve ayrıca sosyal olarak aktif kullanıcıların başlangıçta daha yüksek bir temel dönüşüm oranına sahip olması nedeniyle öz-seçim yanlılığına maruz kalır.

Seçenek 2: Butonun erişilebilirliğini rastgele hale getiren Intent-to-Treat (ITT) analizi. Burada, birkaç kohorta arkadaşları davet etme fırsatını rastgele sağlıyoruz, bu işlevi kullanıp kullanmamalarından bağımsız olarak, ve nihai metrikleri karşılaştırıyoruz. Avantajları, istatistiksel atamanın rasgeleliğini koruması ve başlatma politikasının genel etkisini, ağ dışsallıklarını da kapsayarak değerlendirme fırsatıdır. Dezavantajları, tutarsızlık nedeniyle etkinin seyreltmesi ile ilgilidir: birçok kişi erişim elde edecek ancak işlevi kullanmayacaktır ki bu da örneklem büyüklüğünün 3-4 kat artırılmasını gerektirir; ayrıca, ITT gerçek kullanıcılar için etkinlik sorusuna (TOT) yanıt vermez.

Seçenek 3: Arkadaş sayısındaki eşik için Regresyon Sürekliliği Tasarımı (RDD). Bu yöntem, işlevin etkinleştirilmesi için belirli bir eşiği (örneğin, 5 arkadaş) kullanarak bir kısmi deney oluşturur. Avantajları, eşik etrafındaki atamanın yerel rastgeleliğidir ve tüm izleyici kitlesinin tamamen rastgeleleştirilmesi gerekmez. Ancak önemli dezavantajları vardır: etki sadece "sınırdaki" kullanıcılar için yereldir, manipülasyon mümkündür (sahte arkadaşların artırılması) ve yöntem, eşiğin iki yanında bulunan kullanıcılar arasındaki kirlenme sorununu çözmez, eğer bağlantılılarsa.

Seçilen Çözüm ve Gerekçe. Seçenek 2 ile küme rastgeleleştirecek bir yaklaşım seçilmiştir: analistler sosyal bağlantı grafiğini oluşturdular, toplulukları belirlemek için Louvain algoritmasını uyguladılar ve erişimi topluluk seviyesinde, kullanıcı yerine rastgeleleştirdiler. Bu, test ve kontrol arasındaki kirlenmeyi en aza indirdi. Değerlendirme için maruz kalma değişkenleri modeli kullanıldı: her kullanıcı için test kümelerindeki arkadaşların oranı (spillover yoğunluğu) hesaplandı ve regresyona dahil edildi. Bu, işlevin doğrudan etkisini ve sosyal kanıt aracılığıyla dolaylı etkisini ayırmayı sağladı.

Sonuç. Gerçek doğrudan etki (TOT) dönüşüm oranında %3.2'lik bir artış sağladı (ham tahminde %8 yerine). Ancak, davetlerin sosyal etkisi nedeniyle kontrol grubunda önemli bir pozitif spillover ( %1.8) ortaya çıktı. Politikanın toplam etkisi (ITT) %2.1 oldu. Ağ etkileri dikkate alınmadan, ekip işlevin değerini olduğundan daha düşük değerlendirecek, projeyi "yetersiz etkili" olarak reddedecekti; oysa spillover göz önünde bulundurulduğunda işlev 4 ayda kendini amorti etti.

Adayların Genelde Gözden Kaçırdığı Noktalar

1. Sosyal işlevlerde standart A/B testinin neden yanlı bir tahmin verdiği? Standart test, bir kullanıcı üzerindeki etkinin diğerlerini etkilemediğini varsayan SUTVAya dayanır. Ortak tarayıcıda bu ihlal olur: kontrol grubundaki bir kullanıcı, test grubundan davet aldığında davranışını değiştirir (spillover), bu durum interference bias oluşturur. ATE (Average Treatment Effect) tahmini, doğrudan ve dolaylı etkilerin ağırlıklı bir karışımı haline gelir ve genellikle sıfıra doğru eğilim gösterir. Çözüm: küme rastgeleleştirmesi (network-cluster level randomization) veya ağ yapısına göre düzeltme için inverse probability weighting yöntemlerini kullanmaktır.

2. Doğrudan etki, spillover etkisi ve toplam etkiyi istatistiksel olarak nasıl ayırabiliriz? Adaylar ITT (Intent-to-Treat) ve TOT (Treatment-on-Treated) kavramlarını karıştırmaktadır: ITT, işlevin tüm kohort üzerindeki etkisini değerlendirirken, bu işlevi kullanmayanları da dahil ederken, TOT yalnızca gerçek kullanıcılar için etkiyi izole eder. Etkileri ayırmak için Principal Stratification (prensipsel stratifizasyon) kullanılır: kullanıcılar, uyum türlerine (compliers, always-takers) göre sınıflandırılır ve CACE (Complier Average Causal Effect) değerlendirilir. Spillover, maruz kalma haritalaması (exposure mapping) ile değerlendirilir; burada dolaylı etkinin yoğunluğu, testteki bağlantıların oranı ile eşleştirilir. Toplam etki, maruz kalma dağılımındaki doğrudan ve dolaylı etkilerin ağırlıklı toplamıdır.

3. Neden standart DiD (Difference-in-Differences) aşamalı rollout'ta geçersizdir? Aşamalı uygulamada erken kotalar, geç kotalar için kontrol işlevi görür, ancak geç kotalar asla erken kotalar için kontrol işlevi görmez, bu da heterojen etkilerde negatif ağırlık sorununu (negative weighting) ortaya çıkarır. Klasik iki dönemli DiD, bu tasarımda yanlış ağırlıklar ile farklı dönemlerin etkilerini birleştirerek yanlı tahminler verir. Bunun yerine, yalnızca henüz tedavi edilmemiş veya tedavi edilmemiş gözlemleri kontrol olarak kullanan Callaway-Sant’Anna veya Sun-Abraham tahmincileri kullanılmalıdır. Bir alternatif, her grup için ayrı olarak, asla tedavi edilmemiş gruplara dayalı bir sintetik kontrol yöntemidir.