Tarihsel Bağlam. Klasik çevrimiçi perakendecilikte, siparişteki ürün yokluğu (out-of-stock), genellikle pozisyonun iptali veya bir yöneticinin el ile araması ile çözülüyordu; bu, dönüşüm oranını ve memnuniyeti kritik şekilde azaltıyordu. ML-tavsiye sistemlerinin gelişimiyle, şimdi, anlam yakınlığı, fiyat paritesi ve yedekleme geçmişine dayalı olarak gerçek zamanlı yedekler önermek mümkün hale geldi. Ancak, yedeklerle ve yedeksiz siparişleri basitçe karşılaştırmak, yedeklerin varlığı ile ürünün ilk kıtlığı arasındaki ilişki nedeniyle yanlı bir değerlendirme sunar; otomatik yedeklemeleri kabul eden kullanıcılar, bunları reddedenlerden sistematik olarak farklılık gösterir.
Problemin Belirlenmesi. Ana zorluk, kendiliğinden seçimin endojenliğidir: sadık kullanıcılar daha sık otomatik yedeklemelere izin verir, ve rastgele kıtlık, kategorilere (hızlı bozulabilenler vs teknoloji) göre örneklemi düzensiz şekilde etkiler. Ayrıca, uygulama depo seviyesinde gerçekleştiğinden, genel envanter aracılığıyla kontaminasyon nedeniyle kullanıcı seviyesinde klasik A/B testleri yapılması mümkün değildir. ML-yedekleme kalitesinin saf etkisini, ürün yokluğunun temel olumsuz etkisinden izole etmek ve kategorilere göre heterojenliği dikkate almak gerekmektedir.
Detaylı Çözüm. Optimal yaklaşım, depo seviyesinde Difference-in-Differences (DiD) yönteminin ve etki heterojenliğini değerlendirmek için Causal Forest kombinasyonudur. ML-yedeklemeleri uygulayan depolar (tedavi grubu) için, benzer talep yapısına ve mevsimselliğe sahip otomatik yedekleme olmayan depolar üzerinden Synthetic Control Method kullanarak bir kontrol grubu belirlenir. Tedavi depolarındaki kullanıcılar için, yedeklemeleri kabul edenlerle reddedenleri tarihi özelliklere (sipariş sıklığı, ortalama alışveriş sepeti, kategorik tercihler) göre eşleştirmek için Propensity Score Matching uygulanır. Etki, yedekleme kategorilerine göre (yüksek/orta/düşük) ayrılarak Conditional Average Treatment Effect (CATE) olarak değerlendirilir; bu, teknolojik etkiyi seçimsel etkiden ayırmayı sağlar.
“ÜrünPlus” şirketi, çevrimiçi siparişlerde yok pozisyonlar için akıllı yedekleme sistemini uyguladı. Problemleri, siparişlerin %15'inin out-of-stock pozisyonları içermesi ve bu durumun kullanıcı kaybına yol açmasıydı. Analistler, aslında ML-yedeklemelerin kıtlığın olumsuz etkilerini azaltıp azaltmadığını veya sadece satın alma problemlerini maskeleyip maskelemeyeceğini ölçmeliydiler.
Birinci Seçenek — Kullanıcılar arasında “otomatik yedekleme açık” ve “kapalı” gruplarına ayrılarak klasik A/B testi. Artıları: basit yorumlama ve dönüşüm metriklerinin doğrudan karşılaştırılabilirliği. Eksileri: pratikte mümkün değil, çünkü bir depo her iki gruba da hizmet veriyor ve eğer ürün kalmadıysa, kontrol grubu için onu “geri getirmek” mümkün olmaz ve bu, lojistik bir çöküş ve kontaminasyona neden olur.
İkinci Seçenek — Kontrol grubuna sahip olmadan aynı depolarda “önce ve sonra” karşılaştırması. Artıları: hesaplamanın basitliği ve diğer depolarla senkronizasyona ihtiyaç duymaması. Eksileri: ürünlere olan talebin mevsimselliği ve ürün yelpazesinin değişmesi sonucu verileri çarpıtmakta ve fonksiyon etkisini genel büyüme temelinden ayırmak mümkün olmamaktadır.
Üçüncü Seçenek — Şehir mikro- депolarını rastgeleleşme birimleri olarak kullanan Difference-in-Differences ile kısmi deneysel bir tasarım. Artıları: sistematik eğilimleri ve mevsimselliği ortadan kaldırır, istatistiksel olarak anlamlı sonuçlar elde edilmesini sağlar. Eksileri: paralel eğilimler hakkında katı varsayımlar gerektirir ve sentetik kontrol oluşturmak için yeterli sayıda homojen depo gerektirir.
Seçilen çözüm: ekip, kullanıcıları yedekleme kabul etme eğilimi açısından segmentlere ayırmak için ek olarak Causal Forest uygulanmasıyla birlikte üçüncü seçeneği seçti. Bu, “korumacılar” ve “erken benimseyenler” etkisini izole etmeyi sağladı ve Propensity Score Matching yöntemiyle önceki sipariş geçmişini düzeltmeyi sağladı.
Sonuç: ML-yedeklemelerin yüksek yedeklenebilirlik kategorilerinde (süt ürünleri, bakalit) retention’u %12 artırdığı, ancak niş ürünlerde (el yapımı bira, organik ürünler) yedeklerin rahatsız edici olarak algılandığı için memnuniyeti %8 azalttığı tespit edildi. Şirket, yedeklemeleri yüksek benzerlikte tercih edilen kategorilerle sınırladı; bu, NPS’in 0.4 puan arttığı ve manuel yeniden sıralamada operasyonel maliyetleri %23 azaltığı sonucu doğurdu.
Otomatik yedekleme teknolojisinin etkisini, belirli bir ML modelinin kalitesinin etkisinden nasıl ayırırsınız ve hayatta kalma hatasından (survivorship bias) nasıl kaçınabilirsiniz?
Cevap. Adaylar genellikle teknolojik etkiyi (yedeğin kendisi olasılığı) kalite etkisiyle (analogun uygunluğu) karıştırır. Ayırmak için bir doz-cevap fonksiyonu (dose-response function) inşa etmek gereklidir; burada “doz”, modelin metriğine göre yedekliğin uygunluk olasılığıdır (NDCG@1). Fuzzy Regression Discontinuity kullanarak modelin kabul oranı etrafında bir eşik oluşturduğunuzda (örneğin, güven > 0.8 ile 0.6 arasındaki değişimlerde), kalite etkisini işlevin varlığından izole edebilirsiniz. Ayrıca, survivorship bias’ı dikkate almak önemlidir: ilk siparişlerinde kötü yedekler alan kullanıcılar, işlevi kalıcı olarak kapatabilir ve örneklemi başarılı vakalar lehine çarpıtabilir. Düzeltmek için, ilk deneyim sonrası seçimde kalma olasılığını (seçim denklem) ve memnuniyeti (sonuç denklemi) eş zamanlı olarak modellemeyi sağlayan Heckman selection model kullanılmaktadır.
Bir kategoride başarısız bir değişim diğer sipariş pozisyonlarının algısı ve iptaline nasıl etkiliyor?
Cevap. Standart yöntem, kategorinin etkisini izole olarak değerlendirir; bu da sepet üzerinde negative spillover’ı göz ardı eder. Kategoriler arası etkileri dikkate almak için, siparişi bağımlı ürünlerin bir sistemi olarak modellemek gereklidir; bu, Graph Causal Models veya Structural Equation Modeling (SEM) kullanarak mümkündür. Örneğin, yoğurdun yedeği muesli algısını etkileyebilir; etkiler Total Treatment Effect ile komşu pozisyonların kovaryatları kontrol edilerek değerlendirilir. Alternatif olarak, bir ara değişken olarak “hayal kırıklığı bayrağı” (değiştirme sonrası diğer ürünlerin sepetten çıkarılması) ile Mediation Analysis uygulanır. Bu, genel etkiyi doğrudan (kategoride) ve dolaylı olarak (sepetin değişimiyle) dekompoze etmeyi sağlar; yedeklerle elde edilen faydaların aşırı değerlendirilmesini engeller.
Eğer ML modeli dinamik öğrenme (learning effects) gösteriyorsa ve yedek kalitesi zamanla iyileşiyorsa, bu ne şekilde doğru şekilde sonuçları yorumlamalıyız?
Cevap. Yeni analistler genellikle etkideki non-stationarity’yi göz ardı eder, her gözlem ufku boyunca sabit ATE varsayarak. Dinamik model öğreniminde, “bugünün” etkisi sistematik olarak “bir ay önce” etkisinden farklıdır; bu, Stable Unit Treatment Value Assumption (SUTVA) varsayımını ihlal eder. Çözüm, zaman değişken katsayı modelleri (Time-Varying Coefficient Models) veya Bayesian Structural Time Series (BSTS) kullanarak, etkiyi bir gizli değişken olarak trend modellemesi yapmaktır. DiD çerçevesinde zaman ve tedavi arasındaki etkileşimi eklemek gerekir (olay çalışması tasarımı), her zaman dilimi için paralel trendler hipotezini kontrol ederek. Etki artıyorsa, modelin learning curve’unu (algoritmanın iyileşmesi) kullanıcıların user adaptation’ından (kesinlikle bu işlevle tanışma) ayırmak önemlidir; bu, farklı kullanıcı grupları ve varyasyonları ile farklı kullanıcı gruplarının kullanımını kullanmak gereklidir.