Sorunun Cevabı

Tarihsel Bağlam

Geleneksel olarak, ürün ekipleri onboarding'in etkinliğini, eğitimi tamamlayan kullanıcıların tutumunu, tamamlamayanlarla kıyaslayarak değerlendiriyordu. Bu yaklaşım, eğitimle arasında ilişkili gözlemlenen korelasyonun, yüksek motive olmuş kullanıcıların seçimini yansıttığına dair yaygın hatalara yol açtı. Causal Inference'in gelişmesiyle birlikte, sektörde intent-to-treat (ITT) ve treatment-on-the-treated (TOT) ayrımının yapılması, ayrıca klasik rastgeleleştirme imkânı olmadığında doğal deneylerin kullanılması standard hale geldi.

Sorun Tanımı

Ana zorluk, endogeneity öz-seçiminde yatmaktadır: onboarding'i geçme kararı, kullanıcının gelecekteki tutumunu etkileyen gözlemlenemeyen özelliklerle (motivasyon, sabır) korelasyon göstermektedir. Basit bir grup karşılaştırması, survivorship bias ve etkinin aşırı tahmin edilmesine yol açar. Ek olarak, bölgelerdeki aşamalı uygulama, bir yarı-deney imkânı sunmaktadır, ancak bölgeler kültürel faktörler ve temel metrikler açısından farklılık göstermektedir; bu da confounding variables'ı kontrol etmeyi gerektirmektedir.

Ayrıntılı Çözüm

Two-Stage Least Squares (2SLS) uygulanması gerekmektedir; bölgesel uygulama bayrağını Instrumental Variable (IV) olarak kullanarak. İlk aşamada, onboarding geçiş olasılığı (compliance) uygulamanın aktif olduğu bölgeye ait olma durumu üzerinden modellenir. İkinci aşamada, tahmin edilen değerler tutum üzerine etkiyi değerlendirmek için kullanılır. Bölgesel heterojenliği dikkate almak için, sabit etkileri ile Difference-in-Differences (DiD) uygulanır. Ek olarak, en yüksek kazancı sağladığı segmentleri belirlemek için Causal Forest oluşturulur. Uygulama öncesi paralelliğin pre-trend kontrolü önemlidir ve araç için exclusion restriction kontrol edilmelidir.

Gerçek Hayat Durumu

Dil öğrenme uygulaması ekibi, ücretsiz içeriğe erişimden önce zorunlu 3 dakikalık etkileşimli bir eğitim programı uygulamaya koymuştur. Pilot uygulama, onboarding'i geçen kullanıcıların, eğitim aşamasında uygulamayı kapatanlardan %35 daha yüksek 7 günlük tutuma sahip olduğunu göstermiştir. İş, bu işlevi tüm kullanıcılara ölçeklendirmek istemiş, ancak bir analist, hayatta kalma kayması konusunda şüphe duymuştur.

Seçenek 1: Basit Karşılaştırma (naif yaklaşım). Eğitim tamamlayan kullanıcılar ile atlayanlar arasındaki tutumu karşılaştırma. Artılar: anlık hesaplama, anlaşılır yükseliş metrikleri. Eksiler: Kritik seçim kayması (selection bias); başlangıçta 3 dakikayı harcamaya istekli olan kullanıcılar zaten daha fazla motive; değerlendirme 3-4 katı yüksektir; bölgesel kayıcılık farklılıkları dikkate alınmamaktadır.

Seçenek 2: Zorunlu Onboarding ile A/B testi. Kullanıcı seviyesinde rastgeleleştirme: A grubu zorunlu eğitimi görür, B grubu ise hemen içeriği. Artılar: Temiz rastgeleleşme, seçimi hariç tutar. Eksiler: A grubundaki non-compliance (bazı kullanıcılar uygulamayı kapatıyor ve geri dönmüyor) asimetrik bir kayıp oluşturmaktadır; ITT analizi, eğitim alanlar için etkinin sorusuna cevap vermez; sosyal medya üzerinde negative spillover olabilir.

Seçenek 3: Zaman Üzerine Regresyon Kesme Tasarımı (RDD). Bölgedeki işlevin tam uygulama zamanını cutoff olarak kullanma. Artılar: "Sınırda" olan kullanıcılar için yüksek iç geçerlilik; bölge içinde bir kontrol grubuna ihtiyaç yoktur. Eksiler: Yerel etki (LATE) tüm kullanıcılara genellenemez; cutoff çevresinde yüksek veri yoğunluğu gerekmektedir; mevsimsellik ve işlevin başlama günü sonuçları etkileyebilir.

Seçilen Çözüm: Bölgesel rollout ile IV-approach kombinasyonu ve Doubly Robust Estimation.

Eğitim aktif olan bölgeler, eğitim programını geçmek için bir araç olarak kullanılmıştır (relevance condition 0.82 korelasyon ile kontrol edilmiştir). Özellikle compliers (onboarding'i ancak zorunlu olduğunda geçecek olanlar) için etkiyi değerlendirmek üzere 2SLS uygulanmıştır. Her bir tedavi bölgesi için, benzer pre-trend'leri olan kontrol bölgelerinin ağırlıklı kombinasyonunu kullanarak Synthetic Control oluşturulmuştur.

Son Sonuç: Gerçek neden-sonuç etkisi, ham verilere göre %35 yerine %8 oranında 7 günlük tutuma artış göstermiştir. Onboarding'in yalnızca düşük başlangıçtaki katılım için etkili olduğu (CATE = +15%), ancak güçlü kullanıcılar için friction oluşturduğu (CATE = -3%) ortaya çıkmıştır. Adaptif bir sistem uygulanmıştır: onboarding yalnızca, ilk 10 saniyedeki oturum verilerine dayalı düşük tahmin edilen katılım skoru olan kullanıcılara gösterilmiştir. Bu, global tutumu %12 artırmış ve güçlü kullanıcılar kaybı olmadan gerçekleşmiştir.

Adayların Sıklıkla Gözden Kaçırdığı Noktalar

Neden zorunlu onboarding ile A/B testi kaymış bir değerlendirmenin verilmesine neden olur, ve sonuçlar nasıl doğru bir şekilde yorumlanır?

Cevap: Non-compliance ve differential attrition sorunu. Zorunlu onboarding ile test grubuna rastgele atanmasına rağmen, bazı kullanıcılar asla dönmemektedir (never-takers), oysa kontrol grubunda böyle bir "ceza" yoktur. Bu, asimetrik bir hayatta kalma kayması yaratır. Doğru değerlendirme için, atanma durumuna göre gruplar arasındaki Intent-to-Treat (ITT) etkisini hesaplamak ve ardından Wald estimator kullanarak Complier Average Causal Effect (CACE) elde etmek gerekmektedir: CACE = ITT / (compliers payı). Complier payının yeterince yüksek olduğundan (>20%) emin olmak önemlidir; aksi takdirde değerlendirme istikrarsız olacaktır (weak instrument problem).

Kullanıcıların kontrol bölgelerinden yeni onboarding'i öğrendiği ve gerçek başlama tarihinden önce davranışlarını değiştirdiği durumlarda negatif spillover etkilerini nasıl teşhis eder ve düzeltirsiniz?

Cevap: Bu, SUTVA (Stable Unit Treatment Value Assumption) kuralının ihlalidir. Teşhis için, rollout öncesi kontrol bölgelerindeki kurulumların anormal azalmalarını (chilling effect) incelemek için event study grafiklerine bakılır. Eğer spillover onaylanırsa, sosyal bağlantılara sahip olmayan yalnızca uzak bölgelerin kontrol olarak kullanıldığı spatial Difference-in-Differences uygulanır veya bölge içi kullanıcı alt grubunun işlenmesini içeren partial population experiment kullanılır. Alternatif olarak, kontrol edilen değişken olarak en yakın tedavi bölgesine olan mesafenin etkileşimi ile birlikte two-way fixed effects kullanılmaktadır.

Neden gözlem ufkunu seçerken kısa vadeli friction ile uzun vadeli değer birikimini ayırmak önemlidir, ve sınırlı verilerle uzun vadeli etkileri değerlendiren hangi yöntemler mevcuttur?

Cevap: Onboarding, kısa vadede day-0 retention'ı mekanik olarak azaltarak kısa vadeli friction oluşturur, ancak ürünü daha iyi anlama yoluyla uzun vadeli değer birikir. Kısa bir gözlem penceresinde (1-3 gün) yapılan değerlendirme, zaten düşük LTV'ye sahip olan düşük motive olmuş kullanıcıların ayrılması nedeniyle negatif bir etki gösterebilir. Sınırlı verilerle uzun vadeli etkileri değerlendirmek için, Surrogate Index kullanılmaktadır: kısa vadeli metriklerle (ilk oturum derinliği, görüntülenen özellik sayısı) uzun vadeli çıktılar (30 günlük tutum) arasında bir model oluşturulur. Daha sonra, uzun vadeli etkinin proxy'sini sağlayan etki değerlendirilir. Unconfoundedness'u belirtmek için sensitivity analysis yapılması önemlidir.