Odpowiedź na pytanie

Aby zmierzyć efekt bez randomizacji, należy zbudować syntetyczną kontrolę za pomocą Propensity Score Matching (PSM), a następnie zastosować metodę Difference-in-Differences (DiD). Na początku oceniamy prawdopodobieństwo zdobycia odznaki (regresja logistyczna) na danych historycznych (aktywność, demografia, utrzymanie), aby dopasować „leczonych” do podobnych „grup kontrolnych”. Następnie porównujemy dynamikę docelowej metryki (głębokość zaangażowania) między tymi grupami, co pozwala oddzielić efekt odznaki od ogólnych trendów wzrostu.

Krytycznie ważne jest, aby sprawdzić założenie o równoległych trendach za pomocą analizy event-study: budujemy regresję z opóźnieniami i wiodącymi wskaźnikami i upewniamy się, że współczynniki przed wprowadzeniem są nieistotne. W celu zwiększenia wrażliwości stosujemy CUPED w Pythonie lub R, zmniejszając wariancję na podstawie kowariancji przed eksperymentem. Ostateczna ocena ATT (średni efekt traktowania na leczonych) daje nieobciążoną wielkość czystego efektu gier.

Sytuacja z życia

Firma „EduTech” uruchomiła program motywacyjny: użytkownicy otrzymywali cyfrowe odznaki za pozostawione opinie o kursach. Ograniczenia techniczne legacy-backendu uniemożliwiły losowe podzielenie publiczności, dlatego analityk stanął przed wyzwaniem pomiaru wpływu na metrykę „głębokość zaangażowania” (średnia liczba obejrzanych lekcji w tygodniu) przy silnym samowyborze: opinie pozostawiali najbardziej aktywni studenci, co tworzyło oczywiste wypaczenie.

Rozważano cztery podejścia do rozwiązania problemu.

Proste porównanie średnich po wprowadzeniu pomiędzy otrzymującymi odznaki a nie otrzymującymi. Główną zaletą jest szybkość obliczeń w SQL bez skomplikowanego przygotowania danych. Krytyczną wadą jest całkowite zignorowanie samowyboru: aktywni użytkownicy i tak rosną szybciej (efekt dojrzewania), co prowadzi do przeszacowania efektu i fałszywych wniosków o skuteczności.

Analiza „przed-po” wyłącznie na grupie z odznakami. Zalety polegają na wykluczeniu różnic międzygrupowych i użyciu testu t dla par dla tych samych użytkowników. Jednak nie można oddzielić efektu odznaki od ogólnego sezonowego wzrostu aktywności (początek roku szkolnego) lub jednoczesnych zmian w algorytmach rekomendacji, co czyni wnioski niewiarygodnymi.

Regresja OLS z kontrolą kowariancji przez dodanie zmiennych dotyczących poprzedniej aktywności. To szybko realizuje się w statsmodels i daje zrozumiałe współczynniki. Jednak metoda wymaga rygorystycznej liniowości zależności, jest wrażliwa na odstające wartości i nie uwzględnia indywidualnych trendów rozwoju użytkownika w czasie, co może zniekształcać ocenę.

PSM + Difference-in-Differences (wybrane rozwiązanie). Przeprowadziliśmy Propensity Score Matching w BigQuery, używając regresji logistycznej na predyktorach przed uruchomieniem (częstotliwość logowania, ukończone kursy). Następnie zastosowaliśmy DiD z efektami stałymi dla użytkowników i tygodni. Zalety to minimalizacja wypaczenia selekcji na podstawie obserwowanych cech i eliminacja trendów czasowych przy zachowaniu równoległości. Wady to wysoka złożoność obliczeniowa i krytyczność założenia o równoległych trendach, które wymaga weryfikacji poprzez wykresy event-study.

Rozwiązanie zostało wybrane ze względu na zdolność do dawania najbardziej nieobciążonej oceny przy dostępie tylko do danych obserwacyjnych. W wyniku analizy stwierdzono, że odznaki zwiększają zaangażowanie o 12%, ale tylko u użytkowników z doświadczeniem krótszym niż trzy miesiące. Dla „weteranów” efekt okazał się statystycznie nieistotny, co pozwoliło zespołowi produktowemu na ponowne przemyślenie zasad przyznawania i skoncentrowanie się na onboardingu.

Co często umykają kandydatom

Jak sprawdzić, czy założenie o równoległych trendach w DiD nie zostało naruszone, gdy nie mamy eksperymentu?

Kandydaci często ograniczają się do wizualnego porównania wykresów, pomijając formalną weryfikację. Należy przeprowadzić regresję event-study, włączając zmienne typu dummy dla każdego okresu przed i po obróbce. Jeśli współczynniki dla okresów „przed” są statystycznie istotne (p-wartość < 0,05), założenie jest naruszone. W takim przypadku można zastosować CUPED do korekty pretrendów lub użyć Synthetic Control Method, aby skonstruować grupę kontrolną z trendem jak najbardziej zbliżonym do trendu grupy poddanej interwencji przed interwencją.

Dlaczego Propensity Score Matching nie rozwiązuje problemu endogeności z ukrytymi cechami (selekcja na niewidocznych)?

PSM równoważy tylko obserwowalne kowariaty (wiek, aktywność), ale jeśli istnieje ukryta motywacja (np. „miłość do nauki”), którą trudno zmierzyć, wypaczenie pozostaje. Wymagane są zmienne instrumentalne (IV), na przykład odległość geograficzna do najbliższego centrum offline, która jest skorelowana z prawdopodobieństwem zdobycia odznaki, ale nie wpływa na zaangażowanie bezpośrednio. Alternatywą jest Regression Discontinuity Design (RDD), jeśli próg zdobycia odznaki jest sztywny (na przykład dokładnie 3 opinie), co tworzy egzogenną wariację.

Jak poradzić sobie z naruszeniem SUTVA (założenie wartości stabilnej jednostek traktowania) w gamifikacji, gdy efekt jest „zaraźliwy” przez graf społeczny?

Jeśli znajomi widzą odznaki i również zaczynają pisać opinie, standardowy DiD daje wypaczoną ocenę, mieszając efekty bezpośrednie i pośrednie. Rozwiązaniem jest użycie klasteryzowanych standardowych błędów dla grup przyjaciół lub dwufazowa próba, w której z grupy kontrolnej wyklucza się użytkowników związanych z „leczonymi”. Można ocenić efekty spillover jawnie poprzez analizę mediacyjną w Pythonie (biblioteki causalml lub mediation), dzieląc całkowity efekt na bezpośredni (na użytkownika) i pośredni (na przyjaciół), aby uniknąć zaniżenia rzeczywistego efektu.

Jak oceniłbyś efekt przyczynowo-skutkowy wprowadzenia systemu gier (odznaki za opinie o kursach) na głębokość zaangażowania użytkowników w aplikacji edtech, stosując podejście quasi-eksperymentalne w sytuacji braku możliwości przeprowadzenia klasycznego testu A/B?

Odpowiedź na pytanie

Sytuacja z życia

Co często umykają kandydatom