Historycznie podejścia do oceny funkcji AR w analityce produktowej opierały się na analizie korelacji lub prostym porównaniu średnich między użytkownikami z obsługą technologii a tymi bez niej. Ten ramowy metodologiczny dominował do 2018 roku, kiedy badacze detaliczni nie brali pod uwagę systematycznych różnic w segmentacji odbiorców według kategorii cenowych urządzeń. Właściciele flagowych smartfonów z ARKit lub ARCore znacząco różnią się statystycznie pod względem poziomu dochodu, adaptacyjności technologicznej i skłonności do impulsywnych zakupów produktów o wysokiej marży.
Tak więc bezpośrednie porównanie tworzy odchylenie samo-selekcji do 40%, co uniemożliwia oddzielenie efektu funkcji od istniejących różnic między grupami. Klasyczne A/B-testowanie również jest niemożliwe, ponieważ przymusowe włączenie AR na niekompatybilnych urządzeniach prowadzi do awarii technicznych, błędów aplikacji i zniekształconego doświadczenia użytkownika, co narusza fundamentalną zasadę SUTVA (Założenie Stabilnej Wartości Leczenia Jednostki) i tworzy efekt negatywnej reakcji na interakcje.
Optymalne rozwiązanie wymaga zastosowania Regression Discontinuity Design (RDD) wokół progu specyfikacji technicznych urządzenia, na przykład porównując użytkowników iPhone'a X i iPhone'a 8+, którzy mają podobną dostępność cenową na rynku wtórnym i cechy demograficzne, ale różnią się krytycznie obecnością kamery TrueDepth, niezbędnej do AR. Aby uwzględnić etapowe wprowadzanie w kategoriach towarów, uzupełniamy Difference-in-Differences (DiD) z ustalonymi efektami kategoria-czas (Two-Way Fixed Effects), kontrolując sezonowość i różnice asortymentowe. W końcu stosujemy Propensity Score Matching (PSM) według segmentu cenowego urządzenia i historii zakupów w celu skorygowania resztkowej heterogenności wewnątrz lokalnej strefy RDD, co pozwala na ekstrapolację lokalnego średniego efektu (LATE) na całą populację za pomocą Inverse Probability Weighting.
Na dużym rynku mody jesienią 2023 roku uruchomiono AR-przymierzanie okularów przeciwsłonecznych z użyciem technologii śledzenia twarzy. Funkcja działała wyłącznie na iPhone'ach X+ i flagowych Androidach z Google ARCore, automatycznie odrzucając 60% publiczności z budżetowymi urządzeniami. Wstępny raport analityczny pokazywał, że użytkownicy z dostępem do AR konwertują do zakupu 3.5 razy częściej i zwracają towar o 30% rzadziej, ale zespół podejrzewał silne przesunięcie przetrwania: właściciele drogich telefonów historycznie wykazywali wyższą średnią wartość koszyka i lojalność niezależnie od nowych funkcji.
Pierwsza rozważana opcja — bezpośrednie porównanie średnich za pomocą t-testu lub testu U Manna-Whitneya między grupami dostępności AR bez jakichkolwiek korekt. Plusy tego podejścia obejmowały natychmiastowe obliczenia, minimalne wymagania dotyczące danych i intuicyjność wyników dla interesariuszy biznesowych. Minusy były krytyczne: katastrofalna endogenność w dochodach i świadomości technologicznej uniemożliwiała oddzielenie efektu funkcji od istniejących różnic między segmentami użytkowników.
Druga opcja — analiza kohortowa before-after dla użytkowników, którzy zaktualizowali swoje urządzenia z niekompatybilnych na kompatybilne z AR w trakcie okresu obserwacji. Plusy obejmowały kontrolę indywidualnej heterogeniczności poprzez porównanie wewnozsubiektywne, co eliminowało przesunięcia związane z niewymiernymi cechami użytkownika. Minusy obejmowały silny wpływ efektu nowości (novelty effect), sezonowości (aktualizacje telefonów skorelowane z szczytami w grudniu i wrześniu oraz różnymi wzorcami zakupowymi), a także samo-selekcję w czasie aktualizacji (zmotywowani użytkownicy częściej zmieniają telefony).
Trzecia opcja — zastosowanie Regression Discontinuity Design wokół progu modelu iPhone'a X (chip A11 Bionic), porównując użytkowników iPhone'a 8+ i iPhone'a X, którzy są statystycznie nieodróżnialni pod względem cech społeczno-demograficznych i kategorii cenowej na rynku wtórnym, ale różnią się tylko obecnością kamery TrueDepth. Plusy tej metody obejmowały utworzenie quasi-losowego rozkładu w lokalnej strefie wokół progu, co zapewniało ważną ocenę przyczynowo-skutkową (LATE) bez potrzeby randomizacji. Minusy polegały na ograniczonej walorowości zewnętrznej — wyniki są stosowane tylko do „marginalnych” użytkowników, wahających się między zakupem starego i nowego flagowca, a także na konieczności sprawdzenia założenia o ciągłości kowariancji (continuity assumption) i braku manipuacji punktowej (heap).
Wybrano rozwiązanie złożone: RDD do oceny czystego efektu funkcji na użytkownikach marginalnych u progu urządzenia, zintegrowane z Difference-in-Differences z etapowym wprowadzeniem dla uwzględnienia stopniowego wdrożenia w kategoriach towarów (najpierw marki premium, następnie rynek masowy). Do ekstrapolacji wyników z progu na całą populację stosowano Inverse Probability Weighting (IPW) na podstawie rozkładu cen urządzeń i cech demograficznych. Ostateczny wynik pokazał, że prawdziwy efekt wyniósł +8% do konwersji i -12% do zwrotów, podczas gdy naiwna analiza bez korekt wykazywała zniekształcone +35% i -28% odpowiednio, co krytycznie zmieniło decyzję biznesową o skalowaniu funkcji i pozwoliło uniknąć zawyżonych oczekiwań inwestycyjnych.
Jak poprawnie obsługiwać efekty sieciowe (spillover effects), gdy użytkownicy z AR dzielą się zdjęciami wirtualnego przymierzania w mediach społecznościowych lub komunikatorach, wpływając na decyzje zakupowe swoich kontaktów, które nie mają kompatybilnych urządzeń i formalnie należą do grupy kontrolnej?
Kandydaci często ignorują naruszenie SUTVA przez sieć społeczną, zakładając izolację grup. W praktyce, jeśli przyjaciel widzi przymierzanie okularów przez Instagram Stories i dokonuje zakupu, zanieczyszcza to grupę kontrolną. Poprawne podejście — zastosowanie Two-Stage Least Squares (2SLS) z zmienną instrumentalną (data wydania konkretnego modelu telefonu w danym regionie), która wpływa tylko na obecność AR u „nadawcy”, ale nie bezpośrednio na „odbiorcę”. Alternatywnie stosuje się exposure mapping, gdzie modelujemy intensywność więzi społecznych między użytkownikami i wprowadzamy do modelu interakcję treatment × exposure, co pozwala na ilościowe oszacowanie bezpośredniego efektu AR w porównaniu do pośredniego efektu wirusowości.
Dlaczego metodologia Intent-to-Treat (ITT) z dalszym obliczeniem Local Average Treatment Effect (LATE) jest preferowana w porównaniu do prób przeprowadzenia „przymusowego” testu A/B, zmuszając losową połowę publiczności do włączenia funkcji AR, nawet jeśli technicznie jest to możliwe dzięki renderowaniu w chmurze?
To pytanie sprawdza zrozumienie etyki eksperymentalnej i ograniczeń dotyczących zgodności. Przymusowe włączenie AR za pomocą renderowania w chmurze na niekompatybilnych urządzeniach tworzy sztuczny UX z wysokim opóźnieniem (latency) i niską rozdzielczością, co prowadzi do katastrofalnego doświadczenia i masowego odpływu użytkowników (churn), naruszając zasadę „braku szkody”. To tworzy selection into non-compliance: użytkownicy szybko wyłączą funkcję lub usuną aplikację, co czyni ocenę efektu niemożliwą i generuje przesunięcie w zgodności. Poprawne podejście — encouragement design: zamiast przymusowego włączenia, losowo pokazujemy banner z propozycją wypróbowania AR (tylko właścicielom kompatybilnych urządzeń), tworząc analizę ITT, gdzie treatment — to oferta, a nie faktyczne użytkowanie. Następnie przez IV-regresję (zmienna instrumentalna — randomizacja oferty) uzyskujemy LATE — efekt tylko dla tych, którzy naprawdę skorzystali z funkcji (compliers), co daje konserwatywną, ale czystą przyczynowo-skutkową ocenę bez ryzyka technicznego sabotażu produktu.
Jak brać pod uwagę przesunięcie w pokryciu katalogu (catalog coverage bias), gdy modele AR są stworzone tylko dla 30% towarów, głównie z segmentu premium, i to tworzy przesunięcie w ocenie średniej wartości koszyka i LTV, jeśli analizujemy tylko dostępne SKU?
Kandydaci zapominają o problemie generalizowalności i truncation bias, porównując segment premium (gdzie AR jest dostępny) z rynkiem masowym (gdzie go nie ma). Jeśli nie skorygujemy próby, błędnie przypiszemy wysoką wartość średniego koszyka efektowi AR, podczas gdy w rzeczywistości mierzymy różnicę między segmentami cenowymi. Rozwiązanie wymaga zastosowania Inverse Probability Weighting (IPW) lub Doubly Robust Estimation: najpierw modelujemy propensity score — prawdopodobieństwo istnienia modelu AR dla danego towaru na podstawie jego obserwowalnych cech (cena, marka, kategoria, sezonowość). Następnie ważymy obserwacje odwrotnie proporcjonalnie do tego prawdopodobieństwa, aby uczynić próbę z AR reprezentatywną dla całego katalogu. Dodatkowo korzystamy z synthetic control methods dla kategorii bez AR, tworząc ważoną liniową kombinację kategorii z AR, która imituje kontrfaktyczne zachowanie brakujących kategorii, pozwalając na ocenę efektu na poziomie całego biznesu, a nie tylko na podpróbie towarów premium.