Historyczny kontekst takich zmian sięga 2017 roku, kiedy Netflix zrezygnował z pięciogwiazdkowej skali na rzecz binarnych „kciuków w górę/w dół”, a YouTube poszedł w jego ślady, ukrywając dyslajki. Zmiany te były motywowane tym, że pięciogwiazdkowe oceny wykazywały „azjatycką” inflację (skupienie wokół 4-5 gwiazdek) i słabo korelowały z faktycznym zużyciem treści. Problem polega na izolacji czystego efektu zmiany mechanizmu zbierania opinii od czynników zakłócających: sezonowości kategorii, samozatrudnienia aktywnych użytkowników i czasowej degradacji modeli Collaborative Filtering z powodu rzadkości nowych sygnałów.
W celu rozwiązania stosuje się Staggered Difference-in-Differences (DiD) z kategoriami treści, gdzie przetworzone kategorie (treatment) porównuje się z jeszcze nieprzetworzonymi (control), biorąc pod uwagę różny czas wdrożenia. Dla kategorii bez bezpośrednich odpowiedników stosuje się Synthetic Control Method, tworząc ważoną kombinację kategorii kontrolnych, imitującą kontrfakt. Endogeniczność samozatrudnienia użytkowników oceniających koryguje się poprzez Heckman Correction lub Propensity Score Matching na podstawie historii oglądania i stażu. Do oceny jakości rekomendacji stosuje się Counterfactual Evaluation z metrykami NDCG i MAP na zestawach hold-out, wykluczając okres wypalenia (burn-in) trwający 2-4 tygodnie w celu stabilizacji macierzy czynników.
Serwis streamingowy „CinemaFlow” planował zastąpienie przestarzałego systemu pięciogwiazdkowego binarnym w celu zwiększenia zaangażowania. Kluczowym problemem było to, że zespół podejrzewał utratę predykcyjnej mocy rekomendacji z powodu zmniejszenia granularności sygnału oraz obawiał się nagłego spadku aktywności użytkowników, przyzwyczajonych do szczegółowej skali. Należało znaleźć metodę oceny, która uwzględniałaby stopniowe rollouty według gatunków (najpierw dokumentalne, potem komedie) i efekty sieciowe, kiedy widoczność istniejących ocen wpływała na chęć nowych użytkowników do głosowania.
Rozważano opcję klasycznego testu A/B z podziałem użytkowników na poziomie user_id. Plusy podejścia obejmowały czystość eksperymentu i prostotę interpretacji efektu przyczynowego. Minusy były krytyczne: Collaborative Filtering algorytm tracił spójność z powodu mieszania dwóch typów sygnałów w jednej macierzy, co tworzyło artefakty w rekomendacjach dla obu grup; istniał ryzyko krzyżowego zanieczyszczenia przez funkcje społeczne (użytkownicy widzieli oceny przyjaciół z innej grupy); biznes obawiał się negatywnej reakcji na fragmentowany UX w ramach jednego produktu.
Alternatywą była analiza przed/po porównania metryk przed i po przejściu dla każdej kategorii osobno. Plusy obejmowały techniczną prostotę i brak potrzeby utrzymywania starego systemu dla części użytkowników. Minusy obejmowały niemożność oddzielenia efektu interwencji od sezonowych wahań oglądalności (na przykład filmy świąteczne są ocenia inne w grudniu), ignorując efekt naśladownictwa i samozatrudnienia wczesnych zwolenników nowego systemu, co dawało zafałszowaną ocenę.
Wybrano hybrydowe podejście Staggered DiD z Synthetic Controls i Instrumental Variables. Metoda ta pozwoliła wykorzystać kategorie, które jeszcze nie przeszły na system binarny, jako kontrolne dla już przeszłych, korygując trendy czasowe. Synthetic Control rekompensował heterogeniczność między gatunkami, a podejście IV z wykorzystaniem pory dnia publikacji treści (kiedy jest mniej użytkowników online i słabsze naśladownictwo) jako narzędzia pomogło izolować czysty wpływ interfejsu oceniania. Wybór był uzasadniony potrzebą zachowania funkcjonalności systemu rekomendacji podczas przejścia i uzyskania nieskrzywionych ocen przy częściowej dostępności danych.
Ostateczny wynik pokazał, że wielkość ocen wzrosła o 220% dzięki zmniejszeniu obciążenia poznawczego, ale dokładność rekomendacji (mierzona NDCG@10) spadła o 12% w ciągu pierwszych trzech tygodni. Okres ten odpowiadał przeuczeniu modelu Matrix Factorization, po czym metryki powróciły do wartości bazowej dzięki zwiększeniu gęstości macierzy. Na podstawie tych danych zespół produktowy podjął decyzję o pełnym rollout z dodatkowym budżetem na zimny start dla nowych użytkowników.
Jak poprawnie uwzględnić okres degradacji jakości rekomendacji podczas przeuczenia modelu i oddzielić go od prawdziwego efektu nowego systemu?
Odpowiedź: Należy sformalizować pojęcie „okres wypalenia” (burn-in period), zwykle 2-4 tygodnie, w ciągu którego metryki jakości rekomendacji są wykluczane z głównej analizy przyczynowej. Użyj Counterfactual Evaluation na historycznych zestawach hold-out, porównując offline-metryki (NDCG, MAP, Precision@K) przed i po przejściu, ale stratifikując je według poziomu aktywności użytkowników. Ważne jest, aby śledzić metryki coverage i diversity oddzielnie od dokładności, ponieważ sygnały binarne mogą zwiększyć preferencyjne zniekształcenie (popularity bias) przy niewystarczającej regularizacji.
Jak radzić sobie z endogenicznością samozatrudnienia użytkowników, którzy są gotowi pozostawiać oceny pod nowym systemem, i odróżnić ich zachowanie od efektu samego interfejsu?
Odpowiedź: Użytkownicy, którzy oceniają treści w ramach systemu binarnego, systematycznie różnią się od „gwiazdkowych” oceniających (skłonnych do ekstremalnych preferencji). Stosuj Heckman Correction (dwustopniowy model z równaniem selekcji) lub Inverse Probability Weighting na podstawie wyników propensji, obliczonych na podstawie obserwowanych cech (historia oglądania, staż, czas sesji). Jako Instrumental Variable użyj losowych wariacji interfejsu (kolejność rozmieszczenia przycisków lub/lub polub/nie lubię) lub testowania A/B widoczności zbiorczych ocen w celu izolacji czystego efektu mechanizmu zbierania danych.
Jak ilościowo ocenić efekt naśladownictwa (herding) i oddzielić go od prawdziwego preferencji użytkownika podczas analizy wielkości ocen?
Odpowiedź: Podziel użytkowników na „pierwszych przechodniów” (first-movers), którzy widzą pusty licznik ocen, oraz „następców”, którzy widzą niezerową liczbę głosów. Zastosuj Regression Discontinuity Design (RDD) wokół progów widoczności rankingu (na przykład, gdy treść dostaje się do top-10 kategorii). Porównaj prawdopodobieństwo oceniania przez użytkowników, którzy widzą zbiorczy wynik, z tymi, którzy widzą „bądź pierwszym”. Do dynamicznej korekcji użyj Thompson Sampling lub metod bayesowskich do oceny prawdziwej jakości treści, filtrując efekty sieciowe poprzez opóźnienia czasowe między publikacją a oceną.