Sorunun Cevabı
Örtük bozulmayı teşhis etmek, metriğin mikro dönüşümlere kadar ayrıştırılması ve çapraz platform segmentasyonu ile başlayan çok katmanlı bir analiz gerektirir.
İlk düzeyde teknik faktörlerin (API yanıt süresi, ağ istek boyutu) kontrol edildiği ve ikinci düzeyde kullanıcı deneyimi ile ilgili sürtünme noktalarının (funnel'daki adım sayısındaki değişiklik) incelendiği bir hipotez ağacı oluşturulmalıdır; üçüncü düzeyde ise dışsal faktörler (pazara giriş kanalları, mevsimsellik) ele alınmalıdır.
Ana araç, uygulama sürümleri, cihaz türleri ve coğrafi dağılıma göre kesim yaparak davranışsal desenlerdeki anormallikleri belirlemek için SQL kullanarak yapılacak kohort analizidir.
Gerçek Hayattan Bir Durum
Bir mobil pazar uygulamasında, yeni sipariş onay ekranının devreye alınmasından sonra, 3.15.0 sürümünün piyasaya sürülmesinden sonraki 48 saat içinde satın alma dönüşümü %4.2'den %3.6'ya düştü. Firebase Crashlytics izleme sistemi kritik hatalar göstermedi, sunucu istatistikleri Grafana üzerinden API yanıt sürelerinin stabil olduğunu gösterdi ve bu durum ekibin düşüşün nedenini anlamasını zorlaştırdı.
İlk düşünülen çözüm, zorunlu güncelleme yoluyla 3.14.0 sürümüne hemen geri dönmekti. Bu yaklaşımın avantajları, metriklerin anında geri kazanımı ve finansal kayıpların en aza indirilmesiydi. Ancak dezavantajları arasında hata nedenleri hakkında veri kaybı, geliştirme ekibinin motivasyon kaybı riski ve daha sonra büyük ölçeklerde ortaya çıkabilecek kritik bir hatanın tespitinin ertelenmesi yer alıyordu.
İkinci seçenek, neden-sonuç etkisini ölçmek için yüzde 50 trafikle eski sürümde acil bir A/B testi yapmaktı. Artısı istatistiksel geçerlilikken, eksisi anlamlı bir örneklem toplamak için zaman kaybı (en az 3-4 gün) ve bu aşamada kullanıcı deneyiminin kötüleşmesini yaşayan yarım kitle için etik bir risk taşımasıydı.
Üçüncü ve seçilen çözüm, ClickHouse kullanarak 15 parametreye göre davranışsal verilerin derinlemesine segmentasyon analiziydi. Analistler, dönüşüm hunisini Android ve iOS, çeşitli işletim sistemleri sürümleri, ağ türleri ve bölgeler için ayrı ayrı kontrol ettiler.
Bu yaklaşımın seçilmesinin sebebi, sorunu işlevselliği geri döndürmeden lokalize etme imkanı sağlamasıydı. Sonuç olarak, Android 9-10 sürümleri ile otomatik form kaydının kapalı olduğu cihazlarda, uygulamalar arasında geçiş yaparken, Activity yaşam döngüsünün hatalı işlenmesi nedeniyle girilen verilerin sıfırlandığı ortaya çıktı. Bu hata çökme yaratmıyordu ancak bu kullanıcı grubundaki %40'lık bir çıkışı artırıyordu, bu grup toplam trafiğin %12'sini oluşturuyordu. Düzeltme sonrası dönüşüm %4.3'e geri döndü ve elde edilen içgörüler, sonraki tüm sürümlerin yaşam döngüsü test kontrol listesine dahil edildi.
Adayların Sıklıkla Gözden Kaçırdığı Noktalar
Kontrol grubu olmaksızın ürün bozulmasını doğal metrik dalgalanmasından nasıl ayırt edersiniz?
Adaylar çoğunlukla istatistiksel olarak anlamlı değişiklikleri pratik anlamda önemli olanlarla karıştırıyor. Çözüm için, tarihi verilere ve bağlı değişkenlere (benzer ürünlerin metrikleri veya piyasa göstergeleri) dayanarak metriğin karşıfaktürel yolunu modelleyen Causal Impact veya Bayesian Structural Time Series yöntemleri uygulanmalıdır.
Gözlemlenen düşüşün güncellemeden kaynaklandığına dair olasılığı değerlendirmek için bir Bayesian credible interval hesaplamak önemlidir. Yeni başlayan analistler genellikle basit t-testleri kullanarak zaman serisi otokorelasyonunu ve mevsimsel etkileri göz ardı ediyorlar; bu da değişimlerin anlamlılığı hakkında yanlış sonuçlara yol açıyor.
Bir ürün bozulmasını analiz ederken ortalama oturum süresi neden yanıltıcı olabilir?
Medyan, özellikle bozulma yalnızca yüksek kullanıcı kütlesinde oluyorsa, segmentlenmiş anormallikleri gizler. Medyan yerine, dağılımı tümüyle analiz etmek, kesirli (P90, P95, P99) ile birlikte Quantile Regression yöntemini kullanarak dağılımın kuyruklarında kaymaları tanımlamak daha iyidir.
Ayrıca, kullanıcı kotaları açısından stickiness metriklerini (DAU/MAU) kullanmak gerekir, çünkü retention düşüşü, kalan kullanıcıların geçici artan engagement'i ile telafi edilebilir ve bu da ortalama değerlerde istikrar yanılsaması yaratabilir.
Metrik düşüşünün segment analizi sonuçlarını, trafik karışımındaki değişiklikle ilişkilendirdiğinizde nasıl doğru bir şekilde yorumlarsınız?
Zorluk, ürün etkisini izleyici etkisinden ayırmaktır. Eğer güncellemden sonra, doğal olarak düşük dönüşüme sahip bir kanaldan trafik payı arttıysa (örneğin, geniş bir hedefleme ile yapılan reklam kampanyası), agregat metrik bozulmadan düşebilir.
Çözüm için, temel dönemde segment ağırlıklarının sabitlendigi Direct Standardization veya Difference-in-Differences metodolojisi uygulanmalıdır. Toplam dönüşümü yeniden hesaplayarak, eski trafik oranlarını yeni segment göstergelerine uygulamak gerekmektedir. Ancak standartlaştırılmış metrik bir düşüş gösterirse, o zaman bir ürün sorunu olduğundan bahsedilebilir, yoksa izleyici yapısındaki bir değişimden dolayı oluşmamaktadır.