Odpowiedź na pytanie

Historycznie podejścia do oceny funkcji AR w analityce produktowej opierały się na analizie korelacji lub prostym porównaniu średnich między użytkownikami z obsługą technologii a tymi bez niej. Ten ramowy metodologiczny dominował do 2018 roku, kiedy badacze detaliczni nie brali pod uwagę systematycznych różnic w segmentacji odbiorców według kategorii cenowych urządzeń. Właściciele flagowych smartfonów z ARKit lub ARCore znacząco różnią się statystycznie pod względem poziomu dochodu, adaptacyjności technologicznej i skłonności do impulsywnych zakupów produktów o wysokiej marży.

Tak więc bezpośrednie porównanie tworzy odchylenie samo-selekcji do 40%, co uniemożliwia oddzielenie efektu funkcji od istniejących różnic między grupami. Klasyczne A/B-testowanie również jest niemożliwe, ponieważ przymusowe włączenie AR na niekompatybilnych urządzeniach prowadzi do awarii technicznych, błędów aplikacji i zniekształconego doświadczenia użytkownika, co narusza fundamentalną zasadę SUTVA (Założenie Stabilnej Wartości Leczenia Jednostki) i tworzy efekt negatywnej reakcji na interakcje.

Optymalne rozwiązanie wymaga zastosowania Regression Discontinuity Design (RDD) wokół progu specyfikacji technicznych urządzenia, na przykład porównując użytkowników iPhone'a X i iPhone'a 8+, którzy mają podobną dostępność cenową na rynku wtórnym i cechy demograficzne, ale różnią się krytycznie obecnością kamery TrueDepth, niezbędnej do AR. Aby uwzględnić etapowe wprowadzanie w kategoriach towarów, uzupełniamy Difference-in-Differences (DiD) z ustalonymi efektami kategoria-czas (Two-Way Fixed Effects), kontrolując sezonowość i różnice asortymentowe. W końcu stosujemy Propensity Score Matching (PSM) według segmentu cenowego urządzenia i historii zakupów w celu skorygowania resztkowej heterogenności wewnątrz lokalnej strefy RDD, co pozwala na ekstrapolację lokalnego średniego efektu (LATE) na całą populację za pomocą Inverse Probability Weighting.

Sytuacja z życia

Na dużym rynku mody jesienią 2023 roku uruchomiono AR-przymierzanie okularów przeciwsłonecznych z użyciem technologii śledzenia twarzy. Funkcja działała wyłącznie na iPhone'ach X+ i flagowych Androidach z Google ARCore, automatycznie odrzucając 60% publiczności z budżetowymi urządzeniami. Wstępny raport analityczny pokazywał, że użytkownicy z dostępem do AR konwertują do zakupu 3.5 razy częściej i zwracają towar o 30% rzadziej, ale zespół podejrzewał silne przesunięcie przetrwania: właściciele drogich telefonów historycznie wykazywali wyższą średnią wartość koszyka i lojalność niezależnie od nowych funkcji.

Pierwsza rozważana opcja — bezpośrednie porównanie średnich za pomocą t-testu lub testu U Manna-Whitneya między grupami dostępności AR bez jakichkolwiek korekt. Plusy tego podejścia obejmowały natychmiastowe obliczenia, minimalne wymagania dotyczące danych i intuicyjność wyników dla interesariuszy biznesowych. Minusy były krytyczne: katastrofalna endogenność w dochodach i świadomości technologicznej uniemożliwiała oddzielenie efektu funkcji od istniejących różnic między segmentami użytkowników.

Druga opcja — analiza kohortowa before-after dla użytkowników, którzy zaktualizowali swoje urządzenia z niekompatybilnych na kompatybilne z AR w trakcie okresu obserwacji. Plusy obejmowały kontrolę indywidualnej heterogeniczności poprzez porównanie wewnozsubiektywne, co eliminowało przesunięcia związane z niewymiernymi cechami użytkownika. Minusy obejmowały silny wpływ efektu nowości (novelty effect), sezonowości (aktualizacje telefonów skorelowane z szczytami w grudniu i wrześniu oraz różnymi wzorcami zakupowymi), a także samo-selekcję w czasie aktualizacji (zmotywowani użytkownicy częściej zmieniają telefony).

Trzecia opcja — zastosowanie Regression Discontinuity Design wokół progu modelu iPhone'a X (chip A11 Bionic), porównując użytkowników iPhone'a 8+ i iPhone'a X, którzy są statystycznie nieodróżnialni pod względem cech społeczno-demograficznych i kategorii cenowej na rynku wtórnym, ale różnią się tylko obecnością kamery TrueDepth. Plusy tej metody obejmowały utworzenie quasi-losowego rozkładu w lokalnej strefie wokół progu, co zapewniało ważną ocenę przyczynowo-skutkową (LATE) bez potrzeby randomizacji. Minusy polegały na ograniczonej walorowości zewnętrznej — wyniki są stosowane tylko do „marginalnych” użytkowników, wahających się między zakupem starego i nowego flagowca, a także na konieczności sprawdzenia założenia o ciągłości kowariancji (continuity assumption) i braku manipuacji punktowej (heap).

Wybrano rozwiązanie złożone: RDD do oceny czystego efektu funkcji na użytkownikach marginalnych u progu urządzenia, zintegrowane z Difference-in-Differences z etapowym wprowadzeniem dla uwzględnienia stopniowego wdrożenia w kategoriach towarów (najpierw marki premium, następnie rynek masowy). Do ekstrapolacji wyników z progu na całą populację stosowano Inverse Probability Weighting (IPW) na podstawie rozkładu cen urządzeń i cech demograficznych. Ostateczny wynik pokazał, że prawdziwy efekt wyniósł +8% do konwersji i -12% do zwrotów, podczas gdy naiwna analiza bez korekt wykazywała zniekształcone +35% i -28% odpowiednio, co krytycznie zmieniło decyzję biznesową o skalowaniu funkcji i pozwoliło uniknąć zawyżonych oczekiwań inwestycyjnych.

Co kandydaci często pomijają

Jak poprawnie obsługiwać efekty sieciowe (spillover effects), gdy użytkownicy z AR dzielą się zdjęciami wirtualnego przymierzania w mediach społecznościowych lub komunikatorach, wpływając na decyzje zakupowe swoich kontaktów, które nie mają kompatybilnych urządzeń i formalnie należą do grupy kontrolnej?

Kandydaci często ignorują naruszenie SUTVA przez sieć społeczną, zakładając izolację grup. W praktyce, jeśli przyjaciel widzi przymierzanie okularów przez Instagram Stories i dokonuje zakupu, zanieczyszcza to grupę kontrolną. Poprawne podejście — zastosowanie Two-Stage Least Squares (2SLS) z zmienną instrumentalną (data wydania konkretnego modelu telefonu w danym regionie), która wpływa tylko na obecność AR u „nadawcy”, ale nie bezpośrednio na „odbiorcę”. Alternatywnie stosuje się exposure mapping, gdzie modelujemy intensywność więzi społecznych między użytkownikami i wprowadzamy do modelu interakcję treatment × exposure, co pozwala na ilościowe oszacowanie bezpośredniego efektu AR w porównaniu do pośredniego efektu wirusowości.

Dlaczego metodologia Intent-to-Treat (ITT) z dalszym obliczeniem Local Average Treatment Effect (LATE) jest preferowana w porównaniu do prób przeprowadzenia „przymusowego” testu A/B, zmuszając losową połowę publiczności do włączenia funkcji AR, nawet jeśli technicznie jest to możliwe dzięki renderowaniu w chmurze?

To pytanie sprawdza zrozumienie etyki eksperymentalnej i ograniczeń dotyczących zgodności. Przymusowe włączenie AR za pomocą renderowania w chmurze na niekompatybilnych urządzeniach tworzy sztuczny UX z wysokim opóźnieniem (latency) i niską rozdzielczością, co prowadzi do katastrofalnego doświadczenia i masowego odpływu użytkowników (churn), naruszając zasadę „braku szkody”. To tworzy selection into non-compliance: użytkownicy szybko wyłączą funkcję lub usuną aplikację, co czyni ocenę efektu niemożliwą i generuje przesunięcie w zgodności. Poprawne podejście — encouragement design: zamiast przymusowego włączenia, losowo pokazujemy banner z propozycją wypróbowania AR (tylko właścicielom kompatybilnych urządzeń), tworząc analizę ITT, gdzie treatment — to oferta, a nie faktyczne użytkowanie. Następnie przez IV-regresję (zmienna instrumentalna — randomizacja oferty) uzyskujemy LATE — efekt tylko dla tych, którzy naprawdę skorzystali z funkcji (compliers), co daje konserwatywną, ale czystą przyczynowo-skutkową ocenę bez ryzyka technicznego sabotażu produktu.

Jak brać pod uwagę przesunięcie w pokryciu katalogu (catalog coverage bias), gdy modele AR są stworzone tylko dla 30% towarów, głównie z segmentu premium, i to tworzy przesunięcie w ocenie średniej wartości koszyka i LTV, jeśli analizujemy tylko dostępne SKU?

Kandydaci zapominają o problemie generalizowalności i truncation bias, porównując segment premium (gdzie AR jest dostępny) z rynkiem masowym (gdzie go nie ma). Jeśli nie skorygujemy próby, błędnie przypiszemy wysoką wartość średniego koszyka efektowi AR, podczas gdy w rzeczywistości mierzymy różnicę między segmentami cenowymi. Rozwiązanie wymaga zastosowania Inverse Probability Weighting (IPW) lub Doubly Robust Estimation: najpierw modelujemy propensity score — prawdopodobieństwo istnienia modelu AR dla danego towaru na podstawie jego obserwowalnych cech (cena, marka, kategoria, sezonowość). Następnie ważymy obserwacje odwrotnie proporcjonalnie do tego prawdopodobieństwa, aby uczynić próbę z AR reprezentatywną dla całego katalogu. Dodatkowo korzystamy z synthetic control methods dla kategorii bez AR, tworząc ważoną liniową kombinację kategorii z AR, która imituje kontrfaktyczne zachowanie brakujących kategorii, pozwalając na ocenę efektu na poziomie całego biznesu, a nie tylko na podpróbie towarów premium.