Odpowiedź na pytanie.

Historycznie rozwój e-commerce przeszedł drogę od izolowanych kart produktów do złożonych narzędzi wspierających podejmowanie decyzji. W latach 2010-tych pojawienie się funkcji porównania charakterystyk było odpowiedzią na rosnącą ofertę i przeciążenie poznawcze użytkowników, jednak klasyczne metryki korelacji między używaniem porównań a wysoką kwotą koszyka nieuchronnie napotykały na problem endogeniczności: z funkcji korzystają już zmotywowani klienci z wysokim zamiarem zakupu.

Problem pomiaru polega na potrójnej złożoności: samowybór według zaangażowania (selection bias), etapowy rollout według kategorii, który narusza synchronizację (staggered adoption), oraz efekty sieciowe wewnątrz kategorii, gdy porównanie przyciąga popyt z jednego SKU na drugi. Bez kontroli tych czynników analityk uzyska zniekształconą ocenę, która zawyża efekt dla aktywnych użytkowników i ignoruje efekty zewnętrzne na tych, którzy nie korzystają z funkcji.

Szczegółowe rozwiązanie wymaga połączenia Instrumental Variables (IV) i Difference-in-Differences (DiD). Jako instrument używa się quasi-losowej widoczności przycisku porównania, na przykład przez A/B-test na umiejscowieniu elementu UI lub czynniki egzogenne, takie jak rozdzielczość ekranu, które wpływają na wyświetlanie. Pozwala to na odizolowanie wariacji, która nie zależy od intencji użytkownika. Do kontroli trendów czasowych stosuje się DiD z różnymi punktami startowymi (staggered DiD), porównując kategorie, gdzie funkcja już działa, z tymi jeszcze nieobjętymi, z korektą na cohort fixed effects. Kluczową metryką staje się Local Average Treatment Effect (LATE) — efekt dla „zgadzających się” (compliers), czyli tych, którzy skorzystali z porównania jedynie dzięki widoczności przycisku, co daje konserwatywną, ale przyczynowo-skutkowo czystą ocenę.

Sytuacja z życia

Kontekst: duży rynek elektroniczny uruchomił funkcję „Porównanie według charakterystyk” dla smartfonów i laptopów. Po miesiącu analityka pokazała, że użytkownicy, którzy otworzyli porównanie, mają średnią wartość koszyka o 40% wyższą, ale przeglądają 4 razy więcej stron przed zakupem.

Opcja rozwiązania 1: Bezpośrednie porównanie grup (t-test). Analityk po prostu porównuje średnie metryki użytkowników z flagą „korzystał z porównania” przeciwko „nie korzystał” w SQL. Plusy: wymaga jednego zapytania, wynik w kilka minut. Minusy: całkowite ignorowanie samowyboru; wysokie zaangażowanie poprzedza korzystanie z funkcji, a nie wynika z niej; ocena zawyżona.

Opcja rozwiązania 2: Analiza przed/po w czasie. Porównanie metryk całej platformy przed i po uruchomieniu funkcji. Plusy: prostota interpretacji, widoczny ogólny trend. Minusy: sezonowość (uruchomienie zbiegło się z premierą nowych iPhone’ów), kampanie marketingowe i ogólny wzrost biznesu całkowicie maskują prawdziwy efekt; niemożliwe jest oddzielenie wpływu funkcji od zewnętrznych szoków.

Opcja rozwiązania 3: Regression Discontinuity (RD). Użycie zasady progowej: przycisk porównania pojawia się dopiero po obejrzeniu 3 produktów danej kategorii. Plusy: ostry skok (cutoff) tworzy quasi-eksperymentalną wariację wokół progu. Minusy: użytkownicy manipulują zachowaniem, otwierając puste karty, aby osiągnąć próg; „rozmycie” granicy (fuzziness) narusza założenia RD.

Opcja rozwiązania 4: Instrumental Variables z testem UI. Przeprowadzany jest niezależny A/B-test na widoczności przycisku (jaskrawość, rozmiar), który nie zmienia funkcjonalności, ale wpływa na prawdopodobieństwo kliknięcia. Ten test służy jako instrument dla regresji Two-Stage Least Squares (2SLS). Plusy: randomizacja zapewnia egzogeneść instrumentu; mierzony jest efekt dla tych, którzy „muszą” porównać dzięki widoczności przycisku. Minusy: wymaga dużej próbki dla siły instrumentu (first-stage F-statistic > 10); trudność w interpretacji LATE dla biznesu.

Wybrane rozwiązanie i uzasadnienie: kombinacja Opcji 4 (główna) i Opcji 2 (robustness check). Ocena IV daje przyczynowo-skutkowy efekt dla marginalnych użytkowników, a DiD potwierdza brak globalnych zniekształceń w kategoriach. Takie podejście pozwala oddzielić efekt funkcji od wrodzonej aktywności użytkowników.

Końcowy wynik: Prawdziwy efektywność inkrementalna na AOV wyniósł +8% (zamiast obserwowanych +40%), a czas podejmowania decyzji statystycznie istotnie się nie zmienił. Funkcja została zachowana, ale algorytm rekomendacji został dostosowany, aby nie pokazywać przycisku porównania użytkownikom z niskim historycznym zaangażowaniem, gdzie efekt jest bliski zeru, co zmniejszyło obciążenie serwerów bez utraty przychodów.

Co kandydaci często pomijają

Jak poprawnie obsługiwać korelację błędów wewnątrz sesji podczas analizy wyboru z kilku alternatyw?

Gdy użytkownik porównuje produkty, jego decyzje dotyczące każdego SKU są skorelowane wewnątrz jednej sesji, naruszając założenie o niezależności obserwacji (i.i.d.). Standardowe błędy ocen będą zaniżone, co doprowadzi do fałszywie pozytywnych wniosków o istotności efektu. Aby to skorygować, należy użyć clustered standard errors na poziomie użytkownika lub sesji, lub zastosować hierarchical linear modeling (HLM). To szczególnie ważne przy pracy z danymi panelowymi, gdzie jeden użytkownik generuje wiele porównań, a ignorowanie klasteryzacji może zawyżać t-statystykę 2-3 razy.

Jak zmierzyć negatywny efekt zewnętrzny (negative spillover) na produkty, które nie znalazły się w próbie porównawczej?

Funkcja porównania może kanibalizować sprzedaż produktów, które nie zostały dodane do listy porównawczej, ale są bliskimi zamiennikami. Kandydaci często patrzą tylko na poziom SKU wewnątrz koszyka, pomijając ogólną równowagę kategorii. Aby ocenić takie efekty, należy analizować zgrupowane metryki na poziomie kategorii (category-level DiD) i kontrolować poziomy zapasów (inventory levels). Jeśli porównanie przyciąga popyt na konkretne modele, powodując ich deficyt, obserwowany wzrost sprzedaży konkurentów w zestawie porównawczym może być artefaktem stock-out, a nie preferencją użytkownika.

Jak oddzielić efekt wprowadzenia funkcji od efektu uczenia się użytkowników (learning-by-doing) i nowości (novelty effect)?

Użytkownicy, którzy odkrywają nową funkcję, jednocześnie gromadzą doświadczenie w korzystaniu z platformy, co oddzielnie wpływa na konwersję. Początkowi analitycy często interpretują wzrost metryków u wczesnych adopters jako czysty efekt produktu. Aby oddzielić te efekty, należy wprowadzać user tenure fixed effects lub ograniczać próbkę użytkowników z taką samą liczbą historycznych sesji. Alternatywnie, stosuje się cohort analysis, porównując nowych użytkowników, dla których funkcja jest dostępna od pierwszego dnia, z kohortami „przed uruchomieniem” z korektą na czas kalendarzowy, co pozwala na izolację wpływu doświadczenia od wpływu narzędzia porównania.