Tarihsel olarak, ürün analitiğinde AR işlevlerinin değerlendirilmesi, teknolojiye sahip kullanıcılar ile olmayanlar arasındaki ortalamaların basit karşılaştırmasına veya korelasyon analizine dayanıyordu. Bu metodolojik çerçeve, 2018 yılına kadar hâkimiyetini sürdürdü; o tarihte perakende araştırmacıları, cihaz fiyat kategorileri arasında kitle segmentasyonunda sistematik farklılıkları dikkate almadılar. ARKit veya ARCore teknolojisine sahip amiral gemisi akıllı telefon sahipleri, gelir düzeyi, teknolojiye adapte olma yeteneği ve yüksek marjlı ürünlere yönelik impulsif satın alma eğilimi açısından istatistiksel olarak anlamlı farklılıklar gösteriyor.
Bu nedenle, doğrudan karşılaştırma, %40’a kadar bir öz-yeterlilik kayması yaratmakta ve gruplar arasındaki mevcut farklılıklar nedeniyle işlevin etkisini izole etmeyi imkânsız hale getirmektedir. Klasik A/B testi de mümkün değildir; çünkü uyumsuz cihazlarda AR'yi zorla etkinleştirmek, teknik arızalar, uygulama çökmesi ve bozulmuş kullanıcı deneyimine neden olmakta, bu da temel SUTVA (Stable Unit Treatment Value Assumption) ilkesini ihlal etmekte ve olumsuz tepkilere yol açmaktadır.
Optimal çözüm, cihazın teknik özellikleri etrafında Regression Discontinuity Design (RDD) uygulamasını gerektirir. Örneğin, piyasa değeri ve demografik özellikleri benzer olan ancak TrueDepth kamerası varlığı açısından kritik farklılıklar gösteren iPhone X ve iPhone 8+ kullanıcılarını karşılaştırabiliriz. Ürün kategorileri arasında kademeli bir uygulama gerçekleştirdiğimizde, sezon ve çeşitlilik farklılıklarını kontrol etmek için Difference-in-Differences (DiD) ile sabit etkiler kullanarak (Two-Way Fixed Effects) varsayımlarını entegre etmeliyiz. Son olarak, cihazın fiyat segmenti ve satın alma geçmişine bağlı olarak kalan heterojenliği düzeltmek için Propensity Score Matching (PSM) uygulayabiliriz, bu sayede yerel RDD bölgesindeki yerel ortalama etkiyi (LATE) genel popülasyona ekstrapole etmek için Inverse Probability Weighting yönteminden faydalanabiliriz.
Büyük bir moda pazarında, 2023 sonbaharında güneş gözlükleri için yüz izleme teknolojisi kullanarak AR denemeleri başlatıldı. Özellik yalnızca iPhone X+ ve Google ARCore destekleyen amiral gemisi Android cihazlarında çalıştı, bu da bütçeli cihazları olan %60'lık bir kullanıcı kitlesini otomatik olarak dışladı. Ön analiz raporu, AR erişimine sahip kullanıcıların satın almaya dönüş oranının 3.5 kat daha yüksek ve ürün iadesinin %30 daha az olduğunu gösteriyordu, ancak ekip güçlü bir hayatta kalma kayması olduğundan şüpheleniyordu: pahalı telefon sahipleri geçmişte her zaman daha yüksek ortalama harcama ve sadakat göstermekteydi.
İlk önerilen yöntem, AR erişimi açısından gruplar arasında herhangi bir düzeltme olmaksızın ortalamaların t-testi veya Mann-Whitney U testi ile doğrudan karşılaştırılmasıydı. Bu yaklaşımın avantajları arasında anlık hesaplama, veri gereksinimlerinin düşük olması ve iş paydaşları için sonuçların sezgisel olarak anlaşılabilirliği yer alıyordu. Ancak dezavantajları kritik düzeydeydi: gelir ve teknolojik bilgi açısından felakete yol açan endojenlik, gruplar arasındaki işlevin etkisini izole etmeyi imkânsız hale getirmekteydi.
İkinci seçenek, gözlem süresi içinde AR uyumlu cihazlarına güncelleme yapan kullanıcılar için before-after kohort analizi gerçekleştirmekti. Bu yaklaşım, bireysel heterojenliği kontrol ederek içsel karşılaştırmalar yapma avantajına sahipti; bu, ölçülemeyen kullanıcı özellikleri açısından bir kayma yaratmamaktaydı. Ancak dezavantajları arasında yenilik etkisi (novelty effect), mevsimsellik (telefon güncellemelerinin aralıklarla gerçekleşmesi, Aralık ve Eylül aylarında farklı satın alma patterlarıyla örtüşmektedir) ve zamanlamadan kaynaklanan öz seçilim (istekli kullanıcıların telefonlarını daha sık değiştirmesi) yer alıyordu.
Üçüncü seçenek, Regression Discontinuity Design'i, iPhone X modeli (A11 Bionic çip) etrafında uygulamaktır; bu, yalnızca TrueDepth kamerası mevcutken istatistiksel olarak sosyo-demografik özellikleri ve ikinci el piyasa fiyat kategorileri açısından farklılık göstermeyen iPhone 8+ ve iPhone X kullanıcılarını karşılaştırmayı kapsamaktadır. Bu yöntemin avantajları, eşit dağılım yaratması ve geçerli nedensel etkilerin hesaplanmasını (LATE) sağlamasıdır ve rasgeleleştirme gerektirmemektedir. Ancak dezavantajları sınırlı dış geçerlilikte yatmaktadır; sonuçlar yalnızca eski bir model ile yeni bir amiral gemisi arasında kalmış “marjinal” kullanıcılar için geçerlidir. Ayrıca, sürekli değişken varsayımlarını (continuity assumption) ve noktasal manipülasyon eksikliğini (heap) inceleme gerekliliği vardır.
Sonuç olarak, kombinasyonlu bir çözüm tercih edilmiştir: RDD, cihazın eşik noktasındaki marjinal kullanıcılar üzerinde işlevin saf etkisini değerlendirmek için kullanılmış, ürün kategorileri arasında kademeli bir dağıtım ile entegrasyon sağlanmıştır (önce premium markalar, ardından kitlesel piyasa). Eşik noktası sonuçlarının tüm nüfusa genelleştirilmesi için Inverse Probability Weighting (IPW) kullanılmıştır ve sonuçların %8'lik bir dönüşüm artışı ve %12'lik bir iadelerde azalma sağladığı gözlenmiştir; naif analiz ise düzeltilmemiş bir şekilde %35 ve -%28 gibi saptırılmış oranlar göstermiştir; bu durum, işlevin ölçeklenmesine dair kritik bir yeniden değerlendirme sağlamış ve aşırı yatırım beklentilerinin önüne geçilmesini mümkün kılmıştır.
AR kullanıcılarının sanal deneyim fotoğraflarını sosyal medya veya mesajlaşma uygulamaları aracılığıyla paylaşmaları, uyumlu cihazlara sahip olmayan ve kontrol grubuna ait olan temaslarının satın alma kararlarını nasıl etkiler?
Adaylar genellikle sosyal grafikten dolayı SUTVA ilkesinin ihlalini göz ardı eder ve grupların izole olduğunu varsayarlar. Pratikte, bir arkadaşın Instagram Stories aracılığıyla gözlük deneyimini görmesi ve satın alma yapması, kontrol grubunu kirletmektedir. Doğru yaklaşım, yalnızca “gönderen” tarafın AR sahipliği üzerinde etkisi olan ancak “alıcı” üzerinde doğrudan hiçbir etkisi olmayan eski model telefonların belirli bir modelinin piyasaya sürülme tarihini içeren bir enstrüman değişkeni ile Two-Stage Least Squares (2SLS) uygulamasıdır. Alternatif olarak, kullanıcılar arasındaki sosyal bağlantı yoğunluğunu modelleyerek exposure mapping kullanılabilir ve bu model etkileşimleri treatment × exposure etkileşimini hesaba katarak, doğrudan AR etkisi ile dolaylı viral etkiyi belirlemek için niceliksel bir değerlendirme sağlar.
Neden Intent-to-Treat (ITT) metodolojisi, “zorlayıcı” A/B testi yapılmaya çalışmaktan daha tercih edilir, burada AR işlevini kullanıcıların rastgele bir yarısına zorla etkinleştirmek bile teknik olarak bulut tabanlı rendering ile mümkün olsa bile?
Bu soru, deneysel etik ve uyum kısıtlamalarının anlaşılmasını test eder. Uyumsuz cihazlardaki AR'yi bulut render’ı yoluyla zorla etkinleştirmek, yüksek gecikme süreleri ile düşük çözünürlüklü yapay bir kullanıcı deneyimi yaratmakta ve bu felaket bir deneyime ve kullanıcı kaybına (churn) neden olmaktadır; bu da “no harm” ilkesini ihlal eder. Bu durum, uyumsuzluk seçimine yol açar: kullanıcılar hızlı bir şekilde işlevi kapatacak veya uygulamayı silerek etki değerlendirmesini imkânsız hale getirecek ve uyumda bir kaymayı tetikleyecektir. Doğru yaklaşım, encouragement design yöntemindeki gibi, zorla etkinleştirmek yerine, uyumlu cihazlara sadece AR denemesi öneren rastgele bir banner göstermektir; burada treatment, önerinin sunulmasıdır, gerçek kullanım değil. Ardından, IV regresyonu (örneğin, enstrümantal değişken — önerinin rastgeleleştirilmesi) aracılığıyla, işlevden gerçekten yararlanan kullanıcılar (uyumlu olanlar) için LATE'yi belirleriz; bu, teknik sabotaj riski olmaksızın, daha muhafazakâr fakat nedensel olarak saf bir değerlendirme sağlar.
AR modellerinin yalnızca ürün yelpazesinin %30'u için oluşturulması durumunda, bunun ortalama sepet değeri ve LTV'deki etkisini nasıl hesaba katmalıyız, eğer yalnızca mevcut SKU'ları analiz edersek?
Adaylar çoğunlukla genelleme sorununu ve truncation bias'ı göz ardı etmektedir; AR'nın mevcut olduğu premium segmente ile mevcut olmadığı kitle piyasası arasında karşılaştırma yapmaktadırlar. Eğer örneklem düzeltisi yapılmazsa, yüksek sepet değerinin AR'nın etkisine atfedileceği bu durum, aslında fiyat segmentleri arasındaki farkı ölçümlüyoruz demektir. Çözüm, Inverse Probability Weighting (IPW) veya Doubly Robust Estimation uygulanmasını gerektirir; önce AR modelinin belirli bir ürün için gözlemlenen özelliklerine dayalı olarak varlığını tahmin eden ‘propensity score’ modellememiz gerekir (fiyat, marka, kategori, mevsimsellik). Ardından, gözlemleri bu tahmine ters orantılı olarak tartarak, AR'lı örneğin tüm katalog için temsili olmasını sağlayabiliriz. Ayrıca, AR'nın olmadığı kategoriler için synthetic control methods kullanarak, AR olan kategorilerin ağırlıklı doğrusal bir kombinasyonunu oluşturarak, eksik kategorilerin karşı-faktörel davranışını taklit ederiz ve böylece yalnızca premium ürünlerin alt örnekleminde değil, tüm iş düzeyinde etkiyi değerlendirmesine olanak sağlamış oluruz.