Sorunun cevabı.
Kişiselleştirilmiş push bildirimleri, kullanıcıların zaman etkinliği nedeniyle katılım seçimi nedeniyle sıkı bir yarı deneysel yaklaşım gerektiriyor. Sosyal medya veya aile hesapları aracılığıyla olası çapraz kirlilik, etkinin izole edilmesini daha da karmaşık hale getiriyor.
Ana yöntem Farklar İçinde Farklar (DiD) ile sentetik kontrol. Kontrol grubu, uygulamanın açılma zamanı ve geçmiş sipariş kalıplarına göre propensity skoru eşleştirilmesi ile oluşturuluyor.
Gün saatine bağlı etkileri düzeltmek için saat dilimleri üzerinden katmanlaştırma yapılıyor. Çapraz kirlilik, cihaz kimliği ve IP adresleri üzerinden paylaşılan hesaplar açısından analiz edilerek tespit ediliyor.
Kullanıcı tutma metriği, Cox oranlı tehlikeler modelini kullanarak tehlike oranı olarak hesaplanıyor. Bu, sansürlenmiş verileri ve ayrışmış riskleri dikkate almayı sağlıyor.
Gerçek Hayat Durumu
Delivery Club uygulamasında, kişiselleştirilmiş push bildirim gönderim zamanını özelleştirmek için Python kullanılarak bir ML modeli uygulanması planlanıyordu. Aktif kullanıcılar genellikle öğle saatlerinde uygulamayı açtıkları için bir self-selection yanlılığı oluşturuyordu.
%20'lik kısmi bir rollout, "ağızdan ağıza" etkisi yarattı. Kontrol grubundaki kullanıcılar, arkadaşlarından kampanya bilgilerini öğrenerek çapraz kirlilik oluşturuyordu.
İlk düşünülen çözüm, coğrafi segmentasyona dayalı klasik bir A/B testiydi. A şehri deneme grubu, B şehri kontrol grubu olarak belirlendi.
Bu yaklaşımın artıları, grupların temiz bir şekilde izole edilmesi ve iş için sonuçların interpretasyonunun basitliğiydi. Eksileri ise, şehirler arasındaki gastronomik tercihler ve gelir farkları nedeniyle temel tutundurma oranında %12-15'lik bir yanlılık yaratmasıydı.
İkinci alternatif, bildirimleri açılmış kullanıcıları (per-protocol analizi) incelemekti. Bu, iletişimlere yanıt veren hedef kitleye odaklanmayı sağlıyordu.
Artıları — ürün ekibi için yüksek bir alaka. Eksileri — opt-out yanlılık etkisini göz ardı etmekti: bildirimleri kapatan kullanıcılar 3 kat daha yüksek temel churn oranına sahipti, bu da müdahalenin genel etkisini çarpıtmaktaydı.
Üçüncü çözüm, Google'ın Causal Impact’ini kullanarak sentetik bir kontrol inşa etmek oldu. Kontroldan önceki durumu modellemek için Bayesian Yapısal Zaman Serileri kullanıldı.
Artıları, açık bir kontrol ihtiyacı olmadan zaman eğilimlerini ve mevsimselliği göz önünde bulundurmasıydı. Eksileri — kovaryant seçimine yüksek hassasiyet ve müdahale öncesi paralel eğilimler üzerine bir varsayımın kırılganlığıydı.
Seçilen yaklaşım, etkinlik zamanına bağlı olarak öz-seçimi düzeltmek için Ters Olasılık Ağırlığı (IPW) ile birlikte Diff-in-Diff oldu; coğrafi kümeler seviyesinde standart hataların kümelenmesi ile birlikte.
Bu çözüm, kişiselleştirme için kritik olan gönderim zamanında bireysel değişkenliği korurken, gruplar arası spillover kontrolünü de sağladı.
Sonuç olarak, 7 günlük tutundurmaya %8.3'lük bir gerçek artı etkisi tespit edildi. Naif karşılaştırma %15 gösterdi. Etkinin istatistiksel olarak anlamlı olduğu tek segment ise "3+ sipariş geçmişi olan kullanıcılar" oldu.
Bu, bütçeyi optimize etmeyi sağlayarak, soğuk kullanıcıları kişiselleştirilmiş kampanyaların hedef kitlesinden çıkarılmasını sağladı.
Adayların sıklıkla göz ardı ettiği noktalar
Yıllık ve aylık planları olan abonelik ürününün LTV tahmininde mevsimselliği doğru bir şekilde nasıl dikkate alırsınız?
Yeni başlayanlar, Black Friday döneminde gelen kullanıcıların tutunma profilinin nitelik olarak farklı olduğunu dikkate almaksızın, tarihsel retention eğrilerini basit bir şekilde ortalamayı tercih ediyorlar. Doğru yaklaşım, mevsimsel dummy değişkenlerini hesaba katarak her koort için ayrı BG/NBD veya Gamma-Gamma modellerinin oluşturulmasıdır. Alternatif, koortlar arasında güç borç alma (partial pooling) için Bayesian Hiyerarşik Modelleme ile birlikte Koort Bazlı LTV kullanımıdır.
Onboarding turunun etkisini değerlendirirken intent-to-treat (ITT) ve treatment-on-the-treated (TOT) analizi arasındaki fark nedir ve hangi durumda hangi yaklaşımı uygulamak gereklidir?
ITT, test grubundaki tüm kullanıcılara onboarding teklifinin etkisini, reddedenleri de dahil ederek, analiz eder. TOT, doğrudan tura katılmanın etkisini (complier average causal effect) ölçer.
ITT, daha muhafazakardır ve işgücü için ölçeklenebilirlik kararları için uygundur. Gerçek kullanıcı davranışını friction ile birlikte yansıtır. TOT ise, enstrümental değişkenler gerektirir ve zorunlu onboarding'ün mantıklılığını sorgular.
Yanlış yöntem seçimi, etkinin %40-60 oranında aşırı tahminine yol açar. TOT için tur gösterimindeki rastgele hatalar bir enstrüman olarak kullanılabilir.
Sıralı A/B testleri yürütürken "peeking" sorununu nasıl teşhis edersiniz ve hangi istatistiksel düzeltmeleri uygularsınız?
Peeking, anlamlılık sağlandığında testin erken durması durumudur. Teşhis, zaman içindeki p-değerinin analiziyle yapılır: peeking durumunda, eğri "düzleştirilmiş gezinme" ile 0.05 eşiğinin sık sık kesiştiğini gösterir.
Çözümler, Grup Kesitsel Testi ile alfa harcama fonksiyonları (O'Brien-Fleming) içermektedir. Alternatif — Bayesian A/B Testi ile ROPE (Uygulama Eşitliğinin Bölgesi) yaklaşımdır.
Ayrıca, Apache Airflow'da Veri Kalitesi Kapıları aracılığıyla örnek büyüklüğünün sabitlenmesi de etkili olmaktadır. Kritik hata, Bonferroni düzeltmesi olmadan naif güven aralıklarının kullanılmasıdır ki bu da %5 ara testlerde yanlış pozitif oranını %25-30'a yükseltmektedir.