Rastgelelemeden bağımsız etkiyi ölçmek için önce Propensity Score Matching (PSM) ile sentetik bir kontrol grubu oluşturulmalıdır, ardından Difference-in-Differences (DiD) yöntemi uygulanmalıdır. Öncelikle, rozet alma olasılığını (lojistik regresyon) geçmiş veriler (aktivite, demografi, elde tutma) üzerinde değerlendirerek "tedavi edilen" kullanıcıları benzer "kontrol" kullanıcıları ile eşleştiriyoruz. Daha sonra bu gruplar arasında hedef ölçütün (katılım derinliği) dinamiklerini karşılaştırıyor, böylece rozetin etkisini genel büyüme eğilimlerinden ayırıyoruz.
Paralel eğilimler varsayımını event-study analizi ile kontrol etmek kritik öneme sahiptir: gecikme ve liderlik işlemleri ile regresyon oluşturarak uygulama öncesi katsayıların önemsiz olduğunu doğruluyoruz. Duyarlılığı artırmak için CUPED kullanıyoruz, böylece deney öncesi kovaryat ile varyansı azaltıyoruz. Nihai ATT (Average Treatment Effect on the Treated) tahmini, oyunlaştırmanın saf etkisinin kaymasını sağlamaktadır.
"EduTech" şirketi, kullanıcıların kurslar hakkında geri bildirim bırakmaları için dijital rozetler kazandığı bir motivasyon programı başlattı. Legacy arka uç'taki teknik kısıtlamalar, kitleyi rastgele ayırmayı mümkün kılmadı, bu nedenle analist, aktivite üzerinde güçlü bir kendi kendine seçim ile etkisini ölçmek zorunda kaldı: en etkin öğrenciler geri bildirimde bulunuyordu, bu da belirgin bir kayma yarattı.
Dört yaklaşım değerlendirildi.
Uygulama sonrası basit ortalama karşılaştırması; rozeti alanlar ile almayanlar arasında. Temel avantajı SQL'de veri hazırlığına ihtiyaç duymadan hızlı hesaplama. Kritikal dezavantajı — kendi kendine seçimi tamamen göz ardı etmesi: aktif kullanıcılar zaten daha hızlı büyüyor (matürleşme etkisi), bu da etkinin abartılı bir şekilde tahmin edilmesine ve yanlış sonuçlara yol açmaktadır.
Rozetli kullanıcı grubundaki "önce-sonra" analizi. Avantajlar, grup arası farklılıkların ortadan kaldırılmasında ve aynı kullanıcılar için eşleşmeli t-testi kullanılmasında yatmaktadır. Ancak, rozet etkisini genel mevsimsel aktivite artışından (okul yılı başlangıcı) veya öneri algoritmalarındaki eş zamanlı değişikliklerden ayırmak mümkün değildir, bu da sonuçları güvenilmez kılmaktadır.
Kovaryat kontrolü ile OLS regresyonu; önceki aktivite verilerini ekleyerek. Statsmodels ile hızlı bir uygulama sunar ve anlaşılır katsayılar sağlar. Ancak, yöntem sıkı bir doğrusal bağımlılık gerektirir, aşırı değerlerden etkilenir ve bireysel kullanıcı gelişim trendlerini zaman içinde dikkate almaz, bu da tahmini şekillendirebilir.
PSM + Difference-in-Differences (seçilen çözüm). Propensity Score Matching'i BigQuery'de, başlatmadan önceki prediktörler (giriş sıklığı, alınan kurslar) üzerine lojistik regresyon uygulayarak gerçekleştirdik. Ardından kullanıcı ve hafta bazında DiD uyguladık. Avantajlar — gözlemlenen özellikler üzerinden seçim kaymasını minimuma indirmek ve paralellik sağlandığında zamansal eğilimleri ortadan kaldırmak. Dezavantajlar — yüksek hesaplama karmaşıklığı ve paralel eğilimler varsayımına karşı kritik bir gereklilik, bunun event-study grafikleriyle doğrulanması gerekmektedir.
Çözüm, yalnızca gözlemsel veriler mevcut olduğunda en az kayma ile tahminde bulunabilme yeteneği sayesinde seçilmiştir. Analiz sonucu, rozetlerin katılımı %12 artırdığını, fakat sadece üç aydan daha kısa süreli kullanıcılar için geçerli olduğunu ortaya çıkarmıştır. "Veteranlar" için etkisi istatistiksel olarak önemsiz çıkmış, bu da ürün ekibinin puanlama kurallarını gözden geçirmesine ve onboarding'e odaklanmasına olanak tanımıştır.
DiD'de paralel eğilimler varsayımını ihlal etmediğimizi nasıl kontrol edebiliriz, eğer deney yoksa?
Adaylar genellikle grafiklerin görsel karşılaştırması ile sınırlı kalıyor, formel bir kontrolü göz ardı ediyorlar. Her dönem öncesi ve sonrası için dummy değişkenleri içeren bir event-study regresyonu oluşturulmalıdır. Eğer "önce" dönemine ait katsayılar istatistiksel olarak anlamlıysa (p-değeri < 0.05), varsayım ihlal edilmiştir. Bu durumda, ön trendleri düzeltmek için CUPED uygulamak veya Synthetic Control Method kullanarak müdahale öncesinde işleme grubuna en yakın eğilime sahip bir kontrol grubu oluşturmak mümkündür.
Neden Propensity Score Matching, gizli özelliklerden kaynaklanan endojenlik problemini çözmez (seçim gizli değişkenler üzerinde)?
PSM, yalnızca gözlemlenen kovaryatları (yaş, aktivite) dengelemektedir; ancak, niteliksel olarak ölçülmesi zor olan gizli motivasyon (örneğin, "öğrenme sevgisi") varsa, kayma devam eder. Bunun için, rozet alma olasılığıyla korele olup doğrudan katılıma etki etmeyen enstrümantasyon değişkenleri (IV), örneğin en yakın çevredeki fiziksel bir merkeze olan mesafe gerekir. Alternatif, rozetin verme eşiği katıysa (örneğin, tam olarak 3 geri bildirim), Regression Discontinuity Design (RDD) kullanılabilir, bu da egzojen variasyon yaratır.
Oyunlaştırmada SUTVA (Stable Unit Treatment Value Assumption) ihlalini, etkisinin sosyal grafik üzerinden "bulaşıcı" olduğu durumlarda nasıl ele alabiliriz?
Eğer arkadaşlar rozetleri görüp geri bildirim bırakmaya başlarlarsa, standart DiD kayma yapar, dolaylı ve doğrudan etkileri harmanlar. Çözüm, arkadaş grupları üzerinden küme standart hataları kullanmak veya kontrol grubundan "tedavi edilenlerle" ilişkili kullanıcıları çıkartarak iki aşamalı örneklem uygulamaktır. Python'da (özellikle causalml veya mediation kütüphaneleri) mediation analysis ile doğrudan (kullanıcıya) ve dolaylı (arkadaşlara) etkiyi ayırarak toplam etkiyi değerlendirmek mümkündür ve böylece gerçek etkide aşırı düşürmeden kaçınılır.