Tarihsel Bağlam. Geleneksel edtech platformları uzun süre boyunca tüm kullanıcılar için sabit zorlukta statik öğrenme yolları kullanmıştır. Makine Öğrenimi ve gerçek zamanlı veri işleme olanaklarının gelişmesiyle bireysel bilişsel yeteneklere göre dinamik olarak içerik ayarlayan uyarlamalı sistemler ortaya çıkmıştır. Ancak, bu tür sistemlerin etkinliğini değerlendirmek, kullanıcı deneyimini ihlal etmeden aynı kullanıcıya hem uyarlamalı hem de statik kurs versiyonunu gösterebilmenin temelde mümkün olmamasından dolayı bir metodolojik sorunla karşılaşır.
Sorunun Tanımı. Klasik A/B Testi burada saf bir biçimde geçerli değildir, çünkü uyarlama algoritması gerçek zamanlı olarak etkileşimle ilgili akış verilerine dayanarak çalışmakta ve kullanıcıları statik grupta tutmak ürün mantığını ihlal etmekte ve bilerek alt seviyede eğitim deneyimi sunmaktan kaynaklanan etik riskler doğurmaktadır. Ayrıca, başlangıç bilgi seviyeleri farklı kullanıcıların uyarlamaya yanıtları asimetrik olduğundan, (bazılarına basitleştirme, diğerlerine ise karmaşıklaştırma gerekir) etkilerin heterojenitesini ölçmek için yöntemler gerekir.
Detaylı Çözüm. Optimal yaklaşım, algoritmanın devreye alınma eşiğinde Regresyon Kesme Tasarımı (RDD) ile farklı zaman dilimlerinde kullanıcı kohortları için Farklar İçinde Farklar (DiD) yöntemlerinin bir kombinasyonunu içermektedir. İlk olarak, eğer algoritma, görevlerde belirli bir hata oranına ulaşıldığında (örneğin, peş peşe %30'dan fazla yanlış cevap) etkinleşirse, uyarlama devreye alma eşiğinden hemen önce ve sonra kullanıcıları karşılaştırarak Keskin RDD kullanabiliriz. İkinci olarak, tutulma üzerindeki uzun vadeli etkileri değerlendirmek için Sentetik Kontrol Yöntemi kullanılır: uyarlamalı sisteme erişimi olmayan, geçmiş kohortlardan kullanıcıların ağırlıklı bir kombinasyonu oluşturularak, mevcut test grubunun davranışını mümkün olduğunca taklit eder. Ek olarak, başlangıç hazırlık seviyelerine göre etki heterojenliğini nicelendirerek, Nedensel Orman veya Meta-öğrenenler kullanılır. Veriler, oturumları izlemek için SQL ile pencereleme fonksiyonları aracılığıyla toplanır ve istatistiksel analiz, belirsizliklerin Bayesci tahmini için pyMC, geçenleri hesaplamak için causalml ve ara değişkenler oluşturma için sklearn kütüphaneleri ile Python kullanılarak gerçekleştirilir.
Online programlama okulu "CodeStart"ta, önceki görevlerin çözüm hızına ve hata kalıplarına bağlı olarak otomatik olarak görevleri basitleştiren veya zorlaştıran uyarlamalı izleme algoritması devreye alındı. Ürün yöneticisi, mevcut %45 olan kurs tamamlanma oranını hedef %60’a çıkarıp çıkarmadığını değerlendirmesini istedi, ancak analitik ekip, kontrol grubunun devre dışı bırakılmasının eğitim sürecinin ikinci gününde toplu bir ayrılmaya neden olduğunu gözlemledi; bu da karşılaştırmayı geçersiz hale getiriyordu.
Değerlendirme sorununu aşmak için üç çözüm seçeneği düşünüldü.
Seçenek 1: Kullanıcıların %50'si için algoritmanın tamamen devre dışı bırakıldığı klasik A/B testi. Bu yaklaşımın avantajları arasında sonuçların yorumu ve gruplar arasındaki metriklerin doğrudan karşılaştırılması bulunmaktadır. Dezavantajları, kontrol grubundaki kullanıcı kaybının aşırı zorluktan kaynaklı rahatsızlık veya aşırı basit görevlerden kaynaklı sıkılma riskinin yüksek olmasıdır; bu da hayatta kalma önyargısı yaratır ve kaliteli eğitime erişimde eşitlik ilkesinin ihlaline yol açar.
Seçenek 2: Kontrol grubu olmadan, devreye alınmadan önceki verilerin analizi (pre-post analysis). Avantajları: dinamik gelişimden bir kısmı mahrum etmemek ve hızlı sonuç elde etme imkanıdır. Dezavantajları: algoritmanın etkisini mevsimsellik (eğitim yılı başlangıcı), reklam kanallarından gelen trafik kalitesindeki değişiklikler ve makroekonomik olaylar gibi dış faktörlerden ayırmanın imkansız olmasıdır; bu da etki değerlendirmesini güvenilmez ve nesnel olmaktan çıkarır.
Seçenek 3: Araçsal değişkenlere sahip uyarlama eşiğinde Regresyon Kesme Tasarımı (RDD) kullanımı. Bu seçenek tercih edilmiştir çünkü algoritma, hataların %25'in üzerinde olduğu durumlarda otomatik olarak devreye alınmakta, bu da doğal bir deney yaratmaktadır. %24 ve %26 hata oranına sahip kullanıcıları karşılaştırdık — gözlemlenen özellikler açısından neredeyse eşit gruplar, ancak uyarlama durumları farklı. Uzun vadeli değerlendirmenin yapılabilmesi için, geçmiş yılın kohortlarından benzer başlangıç yetenek dağılımlarına sahip sentetik bir kontrol oluşturduk, Propensity Score Matching kullanarak.
Sonuç gösterdi ki uyarlamalı algoritma, ortalama başlangıç hazırlık seviyesine sahip kullanıcılar için kursu tamamlanma oranını %18 puan artırmakta (yani %45'ten %53'e), ancak sistemin yanıltıcı bir şekilde basitleştirdiği nedeniyle deneyimli öğrenciler için olumsuz bir etki (-%5) sağlamakta. Bu verilere dayanarak, deneyimli kullanıcılar için zorluk eşiği düzenleme faktörü getirildi ve toplam dönüşüm %58'e çıkarıldı.
Algoritmanın sürekli öğrenimi (online learning) ve zamanla değişen tahminleri olduğunda nasıl işlem yapılmalı, bu da statik etki değerlendirmesini geçersiz kılar?
Cevap. Uygulama aşamasında thompson sampling veya contextual bandits kullanmak gerekir. Sabit bir etki yerine, her yeni gözlemle güncellenen etkilerin olasılık dağılımı modellenir. Değerlendirmede, algoritmanın tarihsel veri toplama sürecinde değiştiğinden kaynaklanan kaydırmayı düzeltmek için off-policy evaluation yöntemleri, örneğin, inverse propensity weighting (IPW) veya doubly robust estimators kullanılır. ClickHouse veya benzeri bir depolama aracında her bir karar için model versiyonunu ve parametrelerini kaydetmek, sonrasında algoritma sürümlerine göre analizi stratifiye etmek kritik öneme sahiptir.
Algoritma etkinleştirildiğinde ve devre dışı bırakıldığında gruplar arasında standart ortalama karşılaştırması (t-test) neden eğilimli bir değerlendirme sağlamaktadır ve nasıl düzeltilir?
Cevap. Sorun ağ etkileri (spillover effects) ve SUTVA (Stable Unit Treatment Value Assumption) varsayımının ihlaliyle ilgilidir. Kullanıcılar forumlar, grup projeleri veya sohbetler aracılığıyla birbirleriyle etkileşimde bulunursa, kontrol grubu sosyal öğrenme ve deneyim paylaşımından "informe edilmiştir". Düzeltici olarak, küme rastgeleleştirme (sınıflar/akışlar düzeyinde rastgeleleştirme, bireysel kullanıcılar değil) veya exposure mapping — uyarlamalı kurs versiyonu ile temas etme olasılığını modelleme yöntemi kullanımı uygulanır. Alternatif olarak, etkiyi izole etmek için uyarlamada devreye alma eşiği gibi bir araçsal değişken (örneğin, hata eşiği) ile iki aşamalı en küçük kareler (2SLS) kullanılır.