Tarihî bağlam, freemium modellerin, Makine Öğrenimi temelinde dinamik, uyarlamalı kısıtlamalara yönelik evrimine uzanıyor. Bu tür müdahalelerin etkinliğini değerlendirme konusundaki klasik yaklaşımlar, temel bir içsel nedensellik sorunu ile karşı karşıya kalıyor: sistem kasıtlı olarak yüksek konversiyon eğilimine sahip kullanıcılara sınırlamalar getiriyor, bu da güçlü bir seçme önyargısı oluşturuyor. Erken dönem korelasyon analizi yöntemleri, confounding by indication sorununu göz ardı ettikleri için, etkilerde %200-300 oranında bir aşırı değerlendirme yapıyordu.
Sorunun tanımı, limiti uygulamanın kullanıcının gizli motivasyonu ile ilişkilendirilmesinin ölçülmesini gerektiriyor. Model, konversiyon olasılığını $P(conv|X)$ tahmin eder ve $P > \tau$ olduğunda kısıtlama uygular, bu da grupların gözlemlenebilir ve gözlemlenemez özelliklere göre karşılaştırılamaz hale gelmesine neden olur. Sınırlı kullanıcılar ile sınırsız kullanıcıların doğrudan karşılaştırılması, treated grubunun başlangıçta "daha istekli" olması ve ödemeye hazır olması nedeniyle aşırı değerlendirme ile sonuçlanır.
Detaylı çözüm, $\tau$ puanlama modelinin eşiği (cutoff) etrafında Regression Discontinuity Design (RDD) temeline dayanır. Eşik etrafında (bandwidth $h$) limiti uygulama, $P = \tau - \epsilon$ ve $P = \tau + \epsilon$ olan kullanıcılar istatistiksel olarak ayırt edilemediği için, yarı rastgele bir durumu oluşturur. Sonuçların puanlama ile sürekli regresyonu oluşturulur ve $\tau$ noktasındaki sıçrama (jump) değerlendirilir. Hassasiyeti artırmak için Causal Forest kullanılarak etkinin heterojenliği tahmin edilir ve aşamalı olarak uygulama için Difference-in-Discontinuities zaman trendlerinin kontrolü için kullanılır. Alternatif olarak, Inverse Propensity Weighting (IPW) uygulanabilir ve propensity score, Random Forest aracılığıyla tahmin edilir, ancak bu, genellikle tam anlamıyla karşılanmayan unconfoundedness koşulunu gerektirir.
Sorun
Bir B2B SaaS ürününde ücretsiz hesaplar için aktif proje sayısında dinamik kısıtlama uygulandı. ML modeli, 50'den fazla davranış özelliğini analiz ederek ve konversiyon olasılığı 0.75'in üzerinde olan kullanıcıların yeni projeler yaratmasını engelleyerek konversiyon oranını %40 artırdığını gözlemledi. Ancak ürün ekibi, kısıtlamanın etkisini, motive olmuş kullanıcıların doğasını kendiliğinden seçim etkisinden ayıramadı. Tam bir kısıtlama yasağının test edilmesi mümkün değildi, çünkü bu, yaklaşık $200K MRR kaybı anlamına geliyordu.
Seçenek 1: Tarihî verilerle basit karşılaştırma
Mevcut kullanıcıların kısıtlama ile geçmişte iki ay önceki kohortlarıyla karşılaştırılması. Artıları: altyapı için minimum maliyet, teknik değişiklikler olmadan hızlı değerlendirme. Eksileri: tamamen mevsimselliği (yılbaşı dönemi düşüşü), genel konversiyon artış trendini (ürün daha olgun hale geliyordu) ve yenilik etkisini göz ardı eder; seçim önyargısı nedeniyle %35-40 oranında bir aşırı değerlendirme sağlar.
Seçenek 2: Klasik A/B testi ile ML modelinin kapatılması
15% kullanıcı için kısıtlamaların rastgele kapatılması, puanlamadan bağımsız olarak ürünü sınırsız kullanmalarına izin verir. Artıları: nedensellik için altın standart, Average Treatment Effect (ATE) doğrudan ölçümü. Eksileri: C-level tarafından "sıcak" kullanıcıların kaybı riski nedeniyle kategorik olarak reddedilir; önemli fırsat maliyeti yaratır ve etik çatışmalar yaratır (bazı kullanıcılara her şeyin izin verilmesi, diğerlerine neden verilmediği sorusu).
Seçenek 3: Hibrid yaklaşım ile Regression Discontinuity Design
Doğal puan eşiğini (0.75) bir sıçrama noktası olarak kullanarak, konversiyon olasılığı 0.74 ve 0.76 olan kullanıcıları yerel olarak randomize edilmiş gruplar olarak (yaklaşık 5000 kullanıcı ±0.05 aralığında) karşılaştırma. Uygulamanın bir ay ertelendiği bölgeler için Synthetic Control Method ile tamamlanır. Artılar: %95 kullanıcı için iş mantığını korur; "sınırda" kullanıcılar için yerel etki (LATE) için önyargısız bir tahmin sunar; gelir kaybı yaşamadan doğal değişimi kullanma imkânı tanır. Eksileri: eşiğin etrafında yaklaşık 2000 gözlem gerektiren büyük bir örneklem gerektirir; tahmin, $P(conv) \approx 0.75$ olan alt grup için geçerlidir, tüm populasyona değil; eşiğin manipülasyonuna duyarlıdır (dağılım yoğunluğu için McCrary test gerektirir).
Seçilen çözüm ve sonuç
En uygun pencere genişliği ile RDD seçildi ve Calonico-Cattaneo-Titiunik (CCT bandwidth) yöntemi ile tamamlandı, negatif etki gösteren alt popülasyonların belirlenmesi için Causal Forest kullanıldı. Analiz, katı limitin "ortalama" kullanıcılar için konversiyonu %12 artırırken (eşik etrafında), power users için retention oranını %8 düşürdüğünü ortaya koydu (yüksek etkileşim, ancak puanlama eşik altında). Buna göre bir hibrid mod uygulandı: power users için yumuşak limitler (sadece uyarı) ve ortalama kullanıcılar için sert limitler (hard cap). Sonuç: konversiyonda %8 artış sağlandı ve 30 günlük retention oranı temelin %96sında korunarak, önemli kullanıcı kaybı olmadan 450K $ ARR ek gelir getirildi.
Sadece kısıtlamanın etkisini, "hatırlatma etkisi" (reminder effect) ile nasıl ayırırız?
Adaylar sıklıkla konversiyon artışını yalnızca maddî kısıtlamaların sonucu olarak yorumluyorlar ve sınırlamanın bildirimini bir pazarlama temas noktası olarak göz ardı ediyorlar. İzolasyon için, yalnızca premium bilgisi ile "yumuşak" bildirime sahip bir ek kontrol grubu ya da limit ile konversiyon arasındaki zamanın analizi gereklidir. Eğer konversiyon hemen (bir saat içinde) gerçekleşirse, muhtemelen bu bir hatırlatma etkisidir; eğer 3-7 gün içinde birden fazla sınırlamayı aşma girişiminden sonra gerçekleşirse, bu durumda gerçek kısıtlama etkisidir. Ayrıca, hatırlatma yoğunluğundaki rastgele değişim olarak bir teknik gecikmeyi instrumental variable olarak kullanmak ve 2SLS regresyonu uygulamak mümkündür.
Bir takım ürünlerinde (Notion, Figma) ağ etkilerini nasıl dikkate alırız, burada bir kullanıcının kısıtlaması, çalışma arkadaşlarının işbirliğini etkiliyor?
B2B SaaS'ta bir ekibin bir üyesinin kısıtlaması, spillover effects yaratır: ekip arkadaşları ya kaynakları bir hesaba toplar ya da rakibe geçerler. Klasik RDD bu dışsal etkileri görmezden gelir ve SUTVA (Stable Unit Treatment Value Assumption) ilkesini ihlal eder. Çözüm, takım/dijital çalışma alanı düzeyinde cluster-RDD uygulamak, burada tedavi, ekibin kısıtlamaya uğramış kullanıcılarının oranı ile belirlenir veya two-stage least squares (2SLS) uygulamak olabilir ve ağ grafiğindeki sınırlı komşuların sayısını bir araç olarak kullanmak. Farklı kısıtlama durumlarına sahip kullanıcılar arasında ağ aktivitesinin analiz edilmesi yoluyla ihlalin ölçülmesi önemlidir (network adjacency matrix), takımlardaki homophily hipotezinin test edilmesiyle.
Bir işlevin gerçek kısıtlama etkisini, daha az değerli işlevlere yönelme (substitution bias) kaymasından nasıl ayırırız?
A işlevinde bir kısıtlamayla karşılaşan kullanıcılar, B işlevine geçiş yapabilir (örneğin, tabloları metin belgelerine), bu durum yüksek elde tutma izlenimini yaratırken, aslında ürün yapışkanlığını ve özellik benimseme derinliğini azaltır. Ölçüm için, işlevlerin kullanımıyla ilgili Shannon entropy analizi (kullanım çeşitliliğinin ölçümü) veya compositional data analysis (CODA) gereklidir. Eğer kısıtlama sonrası entropi düşerse, bu, ürün içinde kanibalizasyon gerçekleştiği anlamına gelir. En iyi politika, yalnızca konversiyonu değil, kullanım kalıplarındaki değişimi göz önünde bulundurarak beklenen LTV'yi maksimize etmelidir; bu, Markov Decision Process (MDP) veya contextual bandit üzerinden, özellik benimseme derinliği ve etkileşim hızı dikkate alan bir ödül fonksiyonu ile modellemeyi gerektirir.