Sorunun cevabı

Tarihsel bağlam

Arama sonuçlarının kalitesinin değerlendirilmesi sorunu temel bir gözlem paradoksuyla ilişkilidir: Biz, kullanıcıların gördüğü pozisyonlardaki tıklamaları görüyoruz, ancak görüntüleme olasılığı sıralama ile üstel olarak azalır. Joachims et al.'ın position bias üzerine ve Richardson'ın examination hypothesis üzerine yaptığı klasik çalışmalar, tıklamanın alaka düzeyiyle eşit olmadığını anlamamız için bir temel oluşturmuştur. Ürün analitiği bağlamında bu, algoritmanın sıralanmasındaki değişikliğin tüm kullanıcı tabanını aynı anda etkilediği durumlarda, kullanıcıların gerçek tercihlerini arayüzün artefaktlarından ayırma gerekliliğini doğurur.

Sorun tanımı

Arama motorunun küresel bir güncellenmesi sırasında, gözlemlenen metrikler (CTR, görüntüleme derinliği, dönüşüm) iki karıştırıcıdan etkilenir: belgelerin sıralamasındaki değişiklik ve gözlemlenme olasılığındaki değişiklik. Kullanıcıları kontrol ve test gruplarına ayırma imkânı olmadığından, klasik A/B testleri yapılamaz ve mevsimsel dalgalanmalar, yayın anıyla ilişkilendirilmiş zaman eğilimleri oluşturur. Analistin görevi, veri sınırlamaları altında sıralama etkisini bu gürültülerden izole etmektir.

Ayrıntılı çözüm

En uygun yaklaşım, yarı deneysel yöntemler ve kaymaların düzeltilmesini birleştirir. İlk aşamada, Difference-in-Differences yöntemi ile sentetik kontrol uygulanır: metriklerin tahmin hatasını minimize eden, tarihsel dönemlerin veya ürün segmentlerinin ağırlıklı bir kombinasyonu oluşturulur. Position bias düzeltmesi için Inverse Propensity Weighting (IPW) kullanılır; burada propensity scores, geçmiş rastgele günlüğe dayalı pozisyonun görüntülenme olasılığı üzerinden veya Expectation-Maximization algoritması ile Examination-Cascade Model varsayımı ile değerlendirilir. Ek olarak, doğrusal olmayan etkiler için, ürün kategorileri ve kullanıcı segmentleri üzerindeki etki heterojenliğini modellemek için Causal Forests kullanılır.

Gerçek hayattan bir durum

Elektronik pazarında arama ekibi, marjinaliteyi optimize etmek için BM25'i sinir ağı tabanlı BERT-based ranker ile değiştirdi. Yayından iki hafta sonra, arama oturumu başına GMV metriği %18 arttı, ancak görüntüleme derinliği %25 azaldı. İş, artışın algoritmayla mı yoksa şuan geçerli olan indirimlerin başlamasıyla mı ilgili olduğunu sorguluyordu ve ayrıca uzun kuyruk sorgularındaki kullanıcı deneyiminin kötüleşmesinden endişeliydi.

İlk seçenek, t-test aracılığıyla yayın öncesi ve sonrası metriklerin basit bir karşılaştırmasıydı. Hızlı bir çözüm sunuyordu ve karmaşık bir altyapıya ihtiyaç duymuyordu. Ancak dezavantajları açıktı: indirim sezonunun etkisini algoritma etkisinden ayırmanın imkânsızlığı, position bias göz ardı edilmesi (yeni algoritma, yüksek kâr sağlayan ürünleri daha üst sıralarda gösterebilir, ancak bu ürünlerin daha alakalı olduğu anlamına gelmez) ve kampanya dönemindeki toplam talep enflasyonunu dikkate almama durumu.

İkinci seçenek, Interrupted Time Series (ITS) analizi ile sezonluk ayrıştırma yapmak için Prophet veya SARIMA kullanmaktı. Bu, eğilimleri ve mevsimsel etkinlikleri dikkate alarak, yayın olmadan metriklerin karşıfaktürel tahmin değerlerini oluşturmayı sağlayacaktı. Avantajları arasında istatistiksel kesinlik ve otokorelasyonları modelleyebilme yeteneği vardı. Ancak dezavantajları, kırılma noktasına duyarlılık (yayın kademeli olduysa), iş için katsayıların yorumlanmasının güçlüğü ve sıklıkla e-ticarette kampanya dönemlerinde ihlal edilen eğilimlerin doğrusal olmasına dair varsayım vardı.

Üçüncü seçenek, sıralamanın değişmediği (örneğin, belirli bölgelerde teknik kısıtlamalar nedeniyle) sorgular veya kategorilerden meydana gelen bir kontrol grubu oluşturmak için Synthetic Control Method geliştirmekti. Avantajları arasında görsel açıklık ve paydaşlar için sezgisel olma durumu vardı, ayrıca hata dağılımının formunu varsayma konusunda daha az hassasiyet gösteriyordu. Dezavantajları, benzer dinamiklere sahip uygun kontrol birimlerinin belirlenmesini gerektirmesi (bu, küresel bir yayında zor olabilir) ve ağırlıkların ayarlaması sırasında overfitting riski taşımasıdır.

Sonuç olarak, Diff-in-Diff yöntemi ve kategoriler düzeyinde sentetik kontrol kombinasyonu ile IPW düzeltmesi uygulandı. Bu, sıralama değişikliğinin etkisini mevsimsel dalgalalardan ayırmayı ve pahalı ürünlerin daha üst sıralarda gösterilmesinin neden olduğu çarpıklığı düzeltmesini sağladı. Seçim, veri zaman yapısını ve sergi üzerindeki yapısal kaymaları bir arada dikkate alma gerekliliğinden kaynaklandı.

Sonuç olarak, GMV'deki %18 büyümenin %14'ünün doğrudan algoritmadan kaynaklandığı, geri kalan %4'ün ise mevsimsel etkilerden kaynaklandığı belirlendi. Ayrıca, head sorgularda (sıklıkla en üst %20) dönüşümün %22 arttığı, tail sorgularda %15 düştüğü ve bunun ortalama sepet değerindeki artışla telafi edildiği tespit edildi. Bu, popüler sorgular için sinir ağı tabanlı bir sıralayıcı ve nadir sorgular için klasik bir sıralayıcı uygulama kararına yol açtı, bu da metrikleri dengelemiş oldu.

Adayların sıkça göz ardı ettiği şeyler

Rastgele bir deney olmadığında doğru bir şekilde position bias nasıl göz önünde bulundurulur?

Özel rastgele gösterim olmaksızın, propensity değerlendirmesi için Expectation-Maximization algoritması kullanılabilir, tıklamanın examination × relevance olduğunu varsayarak. Adaylar genellikle pozisyonu regresyona bir özellik olarak eklemeyi öneriyor, ancak bu, pozisyon ile alaka arasındaki doğrusal olmayan etkileşimi göz ardı eder. Doğru yaklaşım, Click Models (Cascade Model veya DBN — Dependent Click Model) kullanarak inceleme olasılığını değerlendirmek ve ardından gözlemleri bu olasılığa ters orantılı olarak ağırlamaktır (IPW). Aksi takdirde, sıralama etkisinin değerlendirilmesi üst-dolgun (top-heavy) sonuçlara yanlı olacaktır.

Algoritma değişikliğinden önce ve sonra basit kıyaslamaların neden yanlı bir değerlendirme sağladığını, mevsimsel etkileri dikkate almakla birlikte nasıl açıklarsınız?

Position bias dışında, exploration vs exploitation ve user learning etkisi de söz konusudur. Yeni algoritma, daha önceden kestirilebilir sonuçlar sunarak, daha az araştırmayı (explore) teşvik edebilir, bu da kısa vadeli engagement'i azaltır. Aksine, kullanıcılar yeni sıralama yapısına uyum sağlarken, kaydırma (scrolling behavior) kalıplarını değiştirerek zaman serisi analizi varsayımlarında istikrarsızlığa yol açabilirler. Adaylar, Diff-in-Diff'deki parallel trends assumption'ının kontrol verileri üzerindeki önemini ve toplama işlemlerindeki lagların gerekliliğini göz ardı ederler (gün gün karşılaştırma yapılamaz, çünkü day-of-week etkileri vardır; en az bir haftalık bir toplama gereklidir).

Arama ve ürün eşleştirilmesindeki iyileştirmenin etkisini, üst sıralardaki ürün çeşitliliği değişiminin etkisinden nasıl ayırırsınız?

Bu ayrım, LTV üzerindeki uzun vadeli etkiyi anlamak için kritik öneme sahiptir. Eğer yeni algoritma basitçe sonuçları pahalı ürünlere kaydırıyorsa (assortment shift) ve kullanıcı niyetini daha iyi anlayamıyorsa (relevance improvement), dönüşümdeki artış novasyon etkisi yüzünden kısa vadeli olabilir. Ayrım yapmak için, aynı ürünleri önceki pozisyonlarda karşılaştırarak Causal Forests veya Meta-learners (S-Learner, T-Learner) kullanmalısınız; bu, ürünün sabit etkileri (product fixed effects) ile yapılmalıdır. Eğer etki, yalnızca üst sıralardaki ürünlerin bileşiminin değişimiyle (örneğin, düşük fiyatlı seçeneklerin kaybolması) gözlemleniyorsa, bu, ilgili ürün yanıtı gerektirecektir; oysa belirli pozisyonlardaki CTR artırımı, diğer bir tepki geliştirme gerektirebilir.