Odpowiedź na pytanie

Kontekst historyczny

Tradycyjnie zespoły produktowe oceniały efektywność onboardingu poprzez porównanie retencji użytkowników, którzy zakończyli szkolenie, z tymi, którzy je pominęli. To podejście prowadziło do licznych błędnych interpretacji: obserwowana korelacja między przejściem przez tutorial a retencją odzwierciedlała nie wpływ edukacji, ale selekcję wysoko zmotywowanych użytkowników. Z rozwojem Causal Inference w branży stało się standardem rozróżnianie intention-to-treat (ITT) i treatment-on-the-treated (TOT) oraz stosowanie naturalnych eksperymentów w przypadku braku możliwości klasycznej randomizacji.

Ustalenie problemu

Kluczowa trudność polega na endogenności samozatrudnienia: decyzja o przejściu onboardingu koreluje z niewidocznymi cechami użytkownika (motywacją, cierpliwością), które równocześnie wpływają na przyszłą retencję. Proste porównanie grup prowadzi do survivorship bias i zawyżonej oceny efektu. Dodatkowo, stopniowe wprowadzanie w różnych regionach stwarza możliwość dla quasi-eksperymentu, ale regiony różnią się czynnikami kulturowymi i podstawowymi metrykami, co wymaga kontroli zmiennych zakłócających (confounding variables).

Szczegółowe rozwiązanie

Konieczne jest zastosowanie Two-Stage Least Squares (2SLS) z wykorzystaniem flagi regionalnej wprowadzenia jako Instrumental Variable (IV). Na pierwszym etapie modeluje się prawdopodobieństwo przejścia onboardingu (compliance) zależne od przynależności do regionu, w którym funkcja została uruchomiona. Na drugim etapie używane są przewidywane wartości do oceny wpływu na retencję. Aby uwzględnić regionalną heterogeniczność, stosuje się Difference-in-Differences (DiD) z efektami stałymi według regionów i czasu. Dodatkowo buduje się Causal Forest do oceny Conditional Average Treatment Effect (CATE) i identyfikacji segmentów, w których onboarding przynosi maksymalne korzyści. Ważne jest, aby kontrolować pre-trend równoległości przed wprowadzeniem i sprawdzać exclusion restriction dla instrumentu.

Sytuacja z życia

Zespół aplikacji mobilnej do nauki języków wprowadził obowiązkowy 3-minutowy interaktywny tutorial przed dostępem do darmowej treści. Pilotaż pokazuje, że użytkownicy, którzy przeszli onboarding, mają 7-dniową retencję o 35% wyższą niż ci, którzy opuścili aplikację na etapie tutorialu. Biznes chciał rozszerzyć tę funkcję na wszystkich użytkowników, ale analityk zauważył możliwe zniekształcenie przetrwania.

Opcja 1: Proste porównanie (naive approach). Porównanie retencji między użytkownikami z ukończonym onboardingiem a tymi, którzy go pominęli. Plusy: natychmiastowe obliczenia, zrozumiała metryka wzrostu. Minusy: Krytyczne zniekształcenie wyboru (selection bias); użytkownicy, którzy są gotowi poświęcić 3 minuty na początku, są już bardziej zaangażowani; ocena zawyżona 3-4 razy; nie uwzględnia różnic regionalnych w tolerancji na friction.

Opcja 2: Test A/B z przymusowym onboardingu. Randomizacja na poziomie użytkownika: grupa A widzi obowiązkowy tutorial, grupa B – od razu treść. Plusy: Czysta randomizacja eliminuje selekcję. Minusy: Non-compliance w grupie A (część użytkowników zamyka aplikację i nie wraca) tworzy asymetryczny attrition; analiza ITT daje konserwatywną ocenę, ale nie odpowiada na pytanie o efekt dla tych, którzy faktycznie przeszli szkolenie; możliwy negative spillover w sieciach społecznościowych.

Opcja 3: Regression Discontinuity Design (RDD) w czasie. Wykorzystanie dokładnego momentu uruchomienia funkcji w regionie jako cutoff. Plusy: Wysoka wewnętrzna ważność dla użytkowników "na granicy"; nie wymaga grupy kontrolnej wewnątrz regionu. Minusy: Lokalny efekt (LATE) nie może być uogólniony na wszystkich użytkowników; wymagana wysoka gęstość danych w okolicy cutoff; sezonowość i dzień tygodnia uruchomienia mogą zniekształcać wyniki.

Wybrane rozwiązanie: Połączenie IV-approach z regionalnym rollout i Doubly Robust Estimation.

Regiony z uruchomionym onboardingiem były używane jako instrument dla faktycznego przejścia przez tutorial (warunek ważności sprawdzono przez korelację 0.82). Zastosowano 2SLS do oceny efektu szczególnie dla compliers (tych, którzy przeszli by onboarding tylko przy jego obowiązkowości). Dodatkowo zbudowano Synthetic Control dla każdego regionu-obsługi, używając ważonej kombinacji regionów kontrolnych z podobnymi pre-trendami.

Końcowy wynik: Prawdziwy przyczynowy efekt wyniósł +8% do 7-dniowej retencji zamiast +35% w surowych danych. Okazało się, że onboarding jest skuteczny tylko dla użytkowników z niskim początkowym zaangażowaniem (CATE = +15%), ale stwarza friction dla power users (CATE = -3%). Zrealizowano adaptacyjną system: onboarding pokazywano tylko użytkownikom z niskim przewidywanym wskaźnikiem zaangażowania na podstawie pierwszych 10 sekund sesji. To dało +12% do globalnej retencji bez utraty power users.

Co często pomijają kandydaci

Dlaczego test A/B z przymusowym onboardingu daje zniekształconą ocenę nawet przy randomizacji, i jak poprawnie interpretować wyniki?

Odpowiedź: Problem non-compliance i differential attrition. Nawet przy losowym przydziale do grupy testowej z obowiązkowym onboardingiem część użytkowników odchodzi na zawsze (never-takers), podczas gdy w grupie kontrolnej nie ma takiej "kary" za odmowę. Tworzy to asymetryczne zniekształcenie przetrwania. Aby poprawnie ocenić, należy obliczyć efekt Intent-to-Treat (ITT) jako różnicę między grupami na podstawie przydziału, a następnie użyć Wald estimator do uzyskania Complier Average Causal Effect (CACE): CACE = ITT / (udział compliers). Ważne jest, aby sprawdzić, czy udział komplierów jest wystarczający (>20%), w przeciwnym razie ocena będzie niestabilna (problem z słabym instrumentem).

Jak diagnozować i korygować efekty negatywnego spillover, gdy użytkownicy z regionów kontrolnych dowiadują się o nowym onboardingu i zmieniają zachowanie przed faktycznym uruchomieniem?

Odpowiedź: To naruszenie SUTVA (Stable Unit Treatment Value Assumption). Aby przeprowadzić diagnozę analizuje się wykresy event study instalacji w regionach kontrolnych pod kątem anormalnego spadku (chilling effect) przed rollout. Jeśli spillover zostanie potwierdzony, stosuje się spatial Difference-in-Differences, gdzie kontrolą są tylko odległe regiony bez więzi społecznych, lub używa się partial population experiment z przetwarzaniem losowej podgrupy użytkowników w obrębie regionu. Alternatywnie stosuje się two-way fixed effects z interakcją odległości do najbliższego regionu-obsługi jako kontrolowanej zmiennej.

Dlaczego ważne jest rozróżnianie krótkoterminowego tarcia i długoterminowego kumulowania wartości przy wyborze horyzontu obserwacji, i jakie metody pozwalają ocenić długoterminowy efekt przy ograniczonych danych?

Odpowiedź: Onboarding wytwarza krótkoterminowe tarcie, mechanicznie obniżając retention day-0, ale kumuluje długoterminową wartość poprzez lepsze zrozumienie produktu. Ocena w krótkim czasie (1-3 dni) może pokazać negatywny efekt z powodu odpływu niskomotywowanych użytkowników, którzy i tak mieliby niski LTV. Aby ocenić długoterminowe efekty przy ograniczonych danych stosuje się Surrogate Index: buduje się model łączący krótkoterminowe metryki (głębokość pierwszej sesji, liczba obejrzanych funkcji) z długoterminowym wynikiem (30-dniowa retencja) na historycznych danych przed wprowadzeniem. Następnie ocenia się efekt na surrogate, który proxuje długoterminowy efekt. Ważne jest, aby sprawdzić unconfoundedness surrogate poprzez analizę wrażliwości.