Ewolucja e-commerce od wyszukiwania tekstowego do multimodalnego interfejsu rozpoczęła się wraz z pojawieniem się Konwolucyjnych Sieci Neuronowych (CNN) w aplikacjach mobilnych w połowie 2010 roku. Klasyczne podejścia do testów A/B napotykają tutaj na fragmentację sprzętową: ten sam algorytm wyszukiwania wizualnego wykazuje różną dokładność na urządzeniach flagowych i budżetowych smartfonach.
Wczesne badania wykazały, że użytkownicy z urządzeniami low-end mają systematycznie odmienne wzorce przeglądania, co stwarza zagrożenie naruszenia założenia o niezależności błędu od kowariantu w standardowych modelach ekonometrycznych. To sprawia, że proste porównanie grup za pomocą t-testu lub podstawowej regresji jest metodologicznie nieważne.
Fundamentalna endogenność powstaje z powodu samoselekcji na poziomie przyjęcia: technicznie zorientowani użytkownicy (wczesni przyjmujący) są jednocześnie skłonni przetestować nową funkcję i mają wysoką podstawową konwersję. Dodatkowo obserwuje się strukturalną kanibalizację: wyszukiwanie wizualne "odbiera" zapytania z wyszukiwania tekstowego, ale jednocześnie przekształca nisko informacyjne zapytania tekstowe w wysoko informacyjne wizualne embeddingi.
Techniczna heterogeniczność jakości aparatu wprowadza dodatkową warstwę błędu pomiaru, korelującą z profilem SES użytkownika. Standardowe metody kontroli są Bias wyboru, takie jak Dopasowanie Wyników Propensity, są tutaj niewystarczające z powodu obecności nieobserwowanej heterogeniczności w umiejętnościach wizualnych użytkowników.
Optymalna strategia — Metoda Najmniejszych Kwadratów w Dwu Etapach (2SLS) z wykorzystaniem możliwości sprzętowych aparatu (obecność Telephoto Lens, wsparcie dla Trybu Nocnego) jako zmiennej instrumentalnej (IV). Ograniczenie wykluczające spełnia się pod warunkiem, że specyfikacje aparatu wpływają na konwersję tylko poprzez możliwość używania wyszukiwania wizualnego, a nie poprzez cechy skorelowane z dochodem.
Ważność narzędzia weryfikuje się za pomocą Testu Przezwyciężenia przy wykorzystaniu egzogenicznej zmienności w partiach aparatów. Dla kanibalizacji stosuje się Główne Stratyfikacje: podział użytkowników na straty według modelu klas ukrytych, gdzie klasy są określone przez prawdopodobieństwo przełączenia się z wyszukiwania tekstowego.
Heterogeniczne efekty leczenia ocenia się za pomocą Causal Forests z klasteryzacją na poziomie typu urządzenia w celu uwzględnienia korelacji błędów wewnątrz klas sprzętowych. Dodatkowo kontrolowane są metadane zdjęcia (dane EXIF o czasie ekspozycji) w celu izolacji efektu od rozpoznawania, a nie od warunków zewnętrznych.
Zespół marketplce "FashionHub" uruchomił wyszukiwanie wizualne na 20% ruchu, obserwując wzrost konwersji o 18% wśród adopters. Jednak audyt wykazał, że 70% użytkowników z iPhone 12+ (wysokiej jakości aparat) trafiło do grupy testowej, podczas gdy segment budżetowy Androida pozostał w kontroli, tworząc sprzętowe zakłócenia. Kluczowa metryka — średnia liczba przeglądanych kart produktu przed zakupem — rosła nieproporcjonalnie w segmencie premium urządzeń.
Proste porównanie adopters vs non-adopters dałoby ocenę +18% do konwersji, ale niesie ze sobą uprzedzenie przetrwania. Użytkownicy, którzy zrobili zdjęcie produktu, już wykazywali wysoką intencję zakupu i tolerancję na przeszkody w UX. Plusem podejścia jest prostota interpretacji i szybkość uzyskania wyników. Minusem — niemożność oddzielenia efektu przyczynowego funkcji od samoselekcji technicznie uzdolnionych odbiorców o wysokiej podstawowej konwersji.
Geograficzna ekspansja z różnicą w różnicach zakładała najpierw uruchomienie w Moskwie (wysoka penetracja smartfonów klasy premium), a następnie w regionach po miesiącu. Plusem — możliwość uwzględnienia trendów czasowych i sezonowości mody. Minusem — regiony różniły się pod względem dochodu do dyspozycji oraz wartości modowych, co naruszało założenie o równoległych trendach; moskiewska publiczność miała systematycznie różną elastyczność na nowości w cyfrowych funkcjach.
Zmienne Instrumentalne z Dopasowaniem Wyników Propensity wykorzystały techniczną niemożliwość uruchomienia wyszukiwania wizualnego na urządzeniach bez Auto-Focus i OIS (Optical Image Stabilization) jako naturalny eksperyment. Użytkownicy z kompatybilnymi urządzeniami byli porównywani z podobnymi pod względem demograficznym i historii wyszukiwania tekstowego, ale z urządzeniami, które nie były wspierane. Plusem — egzogeniczność narzędzia (sprzęt poprzedza decyzję o zakupie). Minusem — wymóg dotyczący istotności weryfikowano za pomocą pierwszej statystyki F (wyniosła 45, >10 próg), a ograniczenie wykluczające wymagało przekonania, że aparat wpływa na zakup tylko przez wyszukiwanie.
Wybrano rozwiązanie IV z dodatkową kontrolą warunków oświetleniowych przez API określające porę dnia oraz analizę metadanych EXIF zdjęcia (ISO, czas ekspozycji). Ostateczny wynik: prawdziwy Efekt Leczenia Średniego Lokalnego (LATE) wyniósł +4,2% do konwersji (wszystko inne — bias selekcji), przy czym efekt był skoncentrowany w kategorii "obuwie" (gdzie dopasowanie kolorystyczne ma kluczowe znaczenie) i nie występował w "akcesoriach" (gdzie dominują marka nad cechami wizualnymi).
Dlaczego nie można po prostu przeprowadzić testu A/B na poziomie użytkownika, jeśli infrastruktura na to pozwala?
Kandydaci ignorują efekty sieciowe w uczeniu Modelu Wizualnych Embeddingów: gdy użytkownicy robią zdjęcia, te dane trafiają do zbioru uczącego Siamese Network, poprawiając jakość wyszukiwania dla wszystkich użytkowników, w tym grupy kontrolnej (efekty spillover). Ponadto, SUTVA (Założenie o Stabilnej Wartości Leczenia dla Jednostek) jest naruszane przez zanieczyszczenie rankingowe: gdy wyszukiwanie wizualne podnosi odpowiednie produkty w ogólnej ofercie rekomendacji, wpływa to na zachowanie grupy kontrolnej.
Rozwiązanie — Losowa Klasteryzacja na poziomie typu urządzenia lub wykorzystanie Mapowania Ekspozycji z korekcją na intensywność użycia funkcji w klastrze za pomocą Wag Oodwróconych Prawdopodobieństw.
Jak oddzielić kanibalizację wyszukiwania tekstowego od tworzenia nowego popytu, gdy intencja nie jest latentna?
Standardowe podejście porównania całkowitych zapytań ignoruje objętość dostosowaną do jakości. Należy zastosować Ramkę Stratyfikacji Głównej: zdefiniować cztery straty (Compliers, Never-takers, Always-takers, Defiers) na podstawie potencjalnych skutków korzystania z wyszukiwania tekstowego w przypadku dostępności/niedostępności wizualnego.
Następnie ocenić Średni Efekt Przyczynowy Komplierów (CACE) dla tych, którzy przeszli by z tekstowego na wizualny tylko wtedy, gdy byłby dostępny. Dodatkowo zastosować Odległość Wektora Embeddingu między zapytaniami tekstowymi użytkownika a kategoriami produktów: jeśli wyszukiwanie wizualne skraca odległość semantyczną między zapytaniem a zakupem, to jest to efekt inkrementalny, a nie substytucyjny.
Gdzie tkwi niebezpieczeństwo kondycjonowania na liczbie udanych rozpoznań przy analizie retencji?
To klasyczna Zniekształcenie Collidera (M-struktura): warunek na „skuteczność rozpoznawania” (które zależy zarówno od jakości aparatu, jak i od złożoności zapytania) otwiera spuriowe ścieżki między sprzętem a retencją. Kandydaci często filtrują „nieudane przesyłki”, tworząc selekcję na zmiennej zależnej.
Poprawne podejście — Korekcja Dwustopniowa Heckmana lub Model Tobita dla wyników o korekcie zero, w którym modeluje się wspólnie decyzję o korzystaniu z funkcji i wynik warunkowy na użytkowaniu, uwzględniając Współczynnik Millsa z pierwszego równania modelu probitowego z predyktorami (oświetlenie, pora dnia, kategoria produktu).