Odpowiedź na pytanie

Ewolucja od paginacji do nieskończonego przewijania w latach 2010-tych, spopularyzowana przez Facebook i Twitter, radykalnie zmieniła wzorce konsumpcji treści. Wczesni analitycy produktowi polegali na naiwnych porównaniach "przed i po", nie uwzględniając sezonowych trendów i samo-selekcji użytkowników. Problem ten stał się bardziej skomplikowany w miarę rozwoju ekosystemu międzyplatformowego, w którym użytkownicy płynnie migrują między urządzeniami o różnych wersjach interfejsu.

Należy izolować efekt przyczynowo-skutkowy związany z wdrożeniem nieskończonego przewijania na metryki głębokości przewijania i monetyzacji reklam. Krytycznymi zmiennymi zakłócającymi są stopniowy geograficzny rollout, tworzący zróżnicowaną synchronizację zastosowania, oraz migracja między urządzeniami, prowadząca do kontaminacji grup. Proste porównania regionów są nieważne z powodu strukturalnych różnic w zachowaniach publiczności. Analiza na poziomie pojedynczych sesji ignoruje efekty przenoszenia między urządzeniami i zniekształca ocenę zatrzymania.

Zastosowujemy staggered difference-in-differences z korekcją na zróżnicowane efekty przy pomocy oszacowań Callaway-Sant'Anna lub Sun-Abraham, poprawnie obsługujących etapowe wdrożenie. W celu walki z kontaminacją między urządzeniami, klasteryzujemy standardowe błędy na poziomie użytkownika i włączamy efekty stałe użytkowników, traktując faktyczne użycie funkcji jako tzw. treatment, a regionalny harmonogram rollout jako zmienną instrumentalną (IV). Podczas analizy przychodów przeprowadzamy analizę mediacyjną, aby oddzielić bezpośredni efekt zmiany układu na widoczność reklam i pośredni efekt przez zwiększenie zaangażowania. Walidację trendów równoległych przeprowadzamy na danych przed rolloutem z użyciem CausalImpact do budowy syntetycznej kontroli.

Sytuacja z życia wzięta

W aplikacji medialnej z 5 milionami użytkowników miesięcznie planowano zastąpienie klasycznej paginacji nieskończonym przewijaniem w celu zwiększenia czasu spędzanego w aplikacji. Problematyka pomiaru polegała na stopniowym prowadzeniu rollout: najpierw Moskwa i Petersburg, a potem regiony po miesiącu. Dodatkowo, użytkownicy aktywnie przełączali się między aplikacją mobilną (gdzie była nowa funkcja) a tabletem (stara wersja), tworząc silną kontaminację między grupami.

Pierwszą opcją było proste porównanie wskaźników przed i po wydaniu w jednym regionie. Plusy: wysoka szybkość obliczeń i minimalne wymagania względem danych. Minusy: niemożność oddzielenia efektu funkcji od sezonowości cyklu informacyjnego i naturalnego wzrostu bazy; uzyskane liczby były zawyżone o 40% z powodu świątecznego ruchu.

Drugą opcją było czyste geograficzne A/B testowanie Moskwy w porównaniu z pozostałymi regionami. Plusy: wyraźne rozdzielenie grup w momencie cięcia. Minusy: strukturalne różnice w zachowaniu (mieszkańcy Moskwy czytają więcej wiadomości biznesowych), a także migracja użytkowników między regionami i urządzeniami prowadziła do przecieku do 15% w grupie kontrolnej, co czyniło oceny nieważnymi.

Wybrane rozwiązanie to staggered DiD z efektami stałymi użytkownika oraz klasteryzacją błędów na poziomie regionu. Użyliśmy momentu pierwszego wejścia użytkownika do aplikacji z nową wersją jako startu leczenia, a regionalny harmonogram rollout jako narzędzie do oceny IV. Pozwoliło to uwzględnić krzyżowe zanieczyszczenie przez urządzenia jako częściowe dopasowanie do leczenia i kontroli, zapewniając nieskręconą ocenę.

Ostateczny wynik: czysty wzrost głębokości przewijania wyniósł +22% (zamiast +35% w naiwnym oszacowaniu), ale RPM spadł o 8% z powodu zmniejszonej widoczności bloków reklamowych. Podjęto decyzję o wdrożeniu hybrydowego trybu "załaduj więcej" z wymuszonym blokiem reklamowym co 10 kart. To dało +18% do głębokości przeglądania przy zachowaniu monetyzacji na poziomie bazowym.

Co kandydaci często pomijają

Jak poprawnie obsługiwać przestrzenną korelację błędów przy geograficznym rollout?

Kandydaci często klasteryzują standardowe błędy tylko na poziomie użytkownika, ignorując, że szoki regionalne (pogoda, lokalne wiadomości) korelują błędy wewnątrz geograficznych. Należy zastosować podwójną klasteryzację (użytkownik + region) lub Conley spatial standard errors, jeśli są dokładne współrzędne. Bez tego przedziały ufności będą zbyt wąskie, co doprowadzi do fałszywie pozytywnych rezultatów w trakcie testowania istotności efektu.

Jak walczyć z endogenicznością szybkości aktualizacji aplikacji, jeśli aktywni użytkownicy otrzymują nieskończone przewijanie wcześniej niż pasywni?

To problem samo-selekcji w stopniowym przyjęciu. Zwykłe intent-to-treat (ITT) według regionu daje konserwatywną ocenę, ale Treatment-on-the-Treated (TOT) wymaga zmiennej instrumentalnej. Użyj przydziału regionu/czasu jako IV (zmienna instrumentalna) dla faktycznego użycia funkcji, lub zastosuj inverse probability weighting (IPW) z wynikiem propensity scoring na podstawie historycznej aktywności. W przeciwnym razie ocena będzie zniekształcona w stronę aktywnych użytkowników z wysokim poziomem zaangażowania.

Jak oddzielić efekt poprawy UX od technicznych zmian widoczności bloków reklamowych przy analizie przychodów?

Wymagana jest analiza mediacyjna lub dwustopniowe najmniejsze kwadraty (2SLS). Na pierwszym etapie oceniamy efekt nieskończonego przewijania na głębokość przewijania (czysty UX), na drugim — efekt głębokości na wyświetlenia reklam. Bezpośredni efekt układu (mniej reklam na ekranie) oceniamy osobno przez do-calculus lub sztuczną kontrolę z fikcyjnymi slotami reklamowymi. Bez tego podziału można błędnie odrzucić udaną funkcję z powodu pozornego spadku monetyzacji, który w rzeczywistości jest spowodowany zmianą układu.