Soruya Cevap

Tarihsel bağlam: sosyal kanıt kavramı (social proof) 1980'lerde Robert Cialdini'nin çalışmalarıyla ortaya çıkmış olsa da, dijital ürünler için gerçek zamanlı bildirimlerin kitlesel olarak uygulanması 2015 yılından itibaren WebSocket bağlantılarının ve Kafka benzeri akış platformlarının gelişimi ile başlamıştır. Klasik A/B test yöntemleri burada ağ etkileri (SUTVA ihlali) nedeniyle genellikle yanlı değerlendirmeler sunar; bir kullanıcının sonucu diğerlerinin çevrimiçi olmasını gerektirir. Değerlendirme için yapılan ilk denemeler, görünür widget ile görünmez widget olan oturumları basitçe karşılaştırmaya dayanıyordu ki bu da ciddi bir örnek sonluluğu ile sonuçlanıyordu.

Sorun: etki değerlendirmesi yapılırken, müdahalenin gerçek etkisinin izleyici yoğunluğunun endojen değişkeninden ayrılması gerekir. Bildirimlerin olduğu ve olmadığı oturumları basitçe karşılaştırırsak, seçim yanlılığı (selection bias) elde ederiz; yoğuşma saatlerinde zaten konversiyon daha yüksektir ve bu sırada sistem daha fazla bildirim üretmektedir. Ayrıca, kullanıcıların mobil uygulama ve masaüstü arasında geçişi kontaminasyon oluşturur ve tedavi ile kontrol arasındaki sınırı bulanıklaştırır.

Çözüm: optimal yaklaşım, zaman dilimleri ve ürün kategorileri üzerinden iki yönlü sabit etkiler (two-way fixed effects) ile farklılıklar arası farklılıklar değerlendirmesi (Difference-in-Differences, DiD)dır; bunun yanında izleyici yoğunluğu için bir araç değişkeni (IV-approach) ile tamamlanır. Araç olarak, çevrimiçi etkinliği etkileyen ama doğrudan konversiyon ile ilgili olmayan dışsal hava durumu şokları veya bölgesel internet kesintileri kullanılır. Alternatif olarak, kontrol grubu fonksiyonun uygulanmadığı benzer ürünlerden/bölgelere dayanan Synthetic Control Method uygulanır; bu grup, konversiyon geçmişi ve mevsimsellik açısından ağırlıklandırılır.

Hayat Durumu

Bir elektronik pazarında, "Bu ürünü şu anda 15 kişi inceliyor" widget'ının ClickHouse akış verilerinden gerçek verilerle uygulanması planlanıyordu. Ancak ürün ekibi, yoğun saatlerde konversiyondaki %18'lik artışı kaydetmesine rağmen, bildirimlerin etkisini akşam saatlerindeki doğal yüksek talepden ayıramıyordu. Ayrıca, "boş oda" etkisi gözlemleniyordu: gece saatlerinde widget, sıfır veya güncel olmayan verileri gösteriyordu, bu da güveni düşürüyor olabilirdi.

İlk değerlendirilen seçenek, coğrafi segmantasyon ile klasik bir A/B testi. Artıları: uygulama kolaylığı ve saf yorum. Eksileri: ağ etkileri bulanıklaşır çünkü farklı şehirlerden gelen kullanıcılar farklı bir ürün yelpazesine ve temel konversiyona bakmaktadırlar; ayrıca, küçük şehirlerde düşük kullanıcı yoğunluğu olduğunda widget "Şu anda 0 kişi inceliyor" mesajını gösteriyor, bu da olumsuz sosyal kanıt yaratıyor ve güveni azaltıyor.

İkinci seçenek, belirli bir bölgede fonksiyonun başlatıldığı zamanı temel alan kesikli regresyon (Regression Discontinuity Design, RDD). Artıları: kesim anındaki net nedensel tanımlama ve grafik üzerinde görsel kontrol olanağı. Eksileri: yenilik etkisi (novelty effect) ile sürekli etkiyi ayıramamak; ayrıca, zaman dilimleri üzerinden kademeli yayılım, tedavi arasındaki sınırı bulanıklaştırmakta, bu da RDD'nin tedavi olasılığındaki ani değişiklik varsayımını ihlal etmektedir.

Üçüncü seçenek, gerçek zamanlı olmayan ürünleri kontrol grubu olarak kullanan kısmi deney (DiD). Artıları: sabit etkiler aracılığıyla mevsimsel eğilimlerin dikkate alınması; temel trafik seviyesine göre etkinin heterojenliğini değerlendirme olanağı. Eksileri: paralel eğilimler varsayımına (parallel trends assumption) ihtiyaç vardır; bu varsayım, Event Study spesifikasyonu üzerinden lead ve lag'ler ile test edilir.

Sonuç olarak, hava durumu verilerine dayalı bir araç değişkeni ile DiD çözümü seçildi: yağmurlu günler, bölgelerde beklenmedik şekilde çevrimiçi etkinliği artırdı (araç gerekliliği sağladı), ancak doğrudan telefon satın alma isteğini etkilemedi (hariç tutma kısıtlaması). Analiz, widget'ın gerçek etkisinin, SKU başına 30'dan fazla çevrimiçi kullanıcı yoğunluğunda %9 artırımı olduğunu gösterdi; daha düşük yoğunlukta (yoğun) etkisi %4 negatif oldu çünkü "boş" veya güncel olmayan verilerin sergilenmesi nedeniyle.

Bu sonuçlara dayalı olarak, düşük trafik durumlarında sosyal kanıtı devre dışı bırakan uyarlanabilir bir algoritma uygulandı. Sonuç olarak, sistem sürekli gösterimden koşullu gösterime geçti, bu da platform genelindeki ortalama konversiyonu %7 artırdı ve "gece saatleri" segmenti için kullanıcı kaybını %12 azalttı. Altyapı maliyetlerinde %15'lik tasarruf sağlandı, bu da pasif ürünler için akışların işlenmesinin kapatılmasından kaynaklandı.

Adayların Sıkça Göz Ardı Ettiği noktalar

Mekanın etkisini (intensive margin) genel fonksiyonun varlığı etkisinden (extensive margin) nasıl ayırabilirsiniz?

Adaylar genellikle azaltılmış form değerlendirmesini (sadece sistemin varlığı) mekanizma değerlendirmesi (nasıl tedavi içindeki yoğunluk, sonuçları etkiler) ile karıştırırlar. Doğru yaklaşım, ilk aşamada bildirimlerin gerçek gösterim sıklığını bir alet (hava durumu) ile tahmin eden iki aşamalı değerlendirmedir (Two-Stage Least Squares, 2SLS); ikinci aşamada, tahmin edilen frekansa göre konversiyon değerlendirilir. Bu, bildirimlerin saf etkisini, yüksek konversiyonun daha fazla görüntü çekmesi ve daha fazla bildirim oluşturması yoluyla ters bir nedenselliği (herding behavior) ayrıştırmaya yardımcı olur.

Yoğunluk ve günün saatine göre segmentler içerisindeki heterojenliği analiz ederken çoklu testler için düzeltme neden önemlidir?

Analistler genellikle fonksiyonun uygulanması için en uygun eşiği ararken, 10, 20, 50 kullanıcı üzerindeki etkiyi test ederler ve en yüksek uplift'e sahip eşiği seçerler. Bu durum veri madenciliği ve arttırılmış Tip I hatası sorunlarına yol açar. Aile başına hata oranı için Bonferroni veya Benjamini-Hochberg prosedürü düzeltmelerini uygulamak gereklidir; ya da analiz öncesinde hipotezlerin sabitlenmesi için pre-analysis plan kullanılır. Aksi takdirde, "optimal" eşik, verilerdeki rastgele bir anomali olabilir.

Kullanıcı bütçesi ve genel envanter aracılığıyla kontrol grubuna negatif sızmayı (negative spillover) nasıl hesaba katabilirsiniz?

Marketplace'de sosyal kanıt sırasında talep çekme etkisi vardır: eğer widget, tedavi grubundaki ürünlerde satın almayı hızlandırıyorsa, bu durum kullanıcı bütçesinin tüketilmesi veya dikkat dağıtımından dolayı kontrol grubundaki konversiyonu azaltabilir. Adaylar, General Equilibrium Effects'i göz ardı etmektedir. Düzeltme sağlamak için, kullanıcı oturumu düzeyinde toplanmış veriler ile değerlendirme yapmak gereklidir (aggregate treatment effects) veya kullanıcının dikkat sınırlamalarını dikkate alan piyasa denge modelleri (market equilibrium models) kullanmak gereklidir.