Odpowiedź na pytanie

Kontekst historyczny podpowiada, że interfejsy głosowe przeszły drogę od prostych systemów komend do pełnoprawnych rozwiązań NLP opartych na transformatorach, jednak metodologia ich oceny pozostaje skomplikowana z powodu heterogeniczności przyjęcia technologii. Problem polega na tym, że funkcja jest dostępna tylko na urządzeniach o określonych parametrach technicznych, co tworzy systematyczny przesunięcie selekcyjne, a geograficzne wdrożenie narusza zasadę losowego rozkładu. Aby izołować prawdziwy efekt, należy zastosować kombinację Difference-in-Differences z efektami stałymi dla regionów i czasu, uzupełnioną o Synthetic Control Method dla regionów z unikalnymi wzorcami językowymi, a także Instrumental Variables do skorygowania endogeniczności korzystania z funkcji.

Sytuacja z życia

W marketplace'ie elektroniki uruchomiono wyszukiwanie głosowe pierwsze w Moskwie i Petersburgu, planując stopniowe rozszerzenie na regiony. Problem polegał na tym, że funkcja działała tylko na iPhone XS i nowszych z iOS 15+, a także na flagowcach Androida wspierających on-device ML, co powodowało przesunięcie dochodowe oraz techniczną świadomość publiczności. Ponadto zaobserwowano wyraźną sezonowość — wdrożenie zbiegło się z przednoworocznym wzrostem popytu, co zniekształcało bezpośrednie porównanie „przed-po”. Zespół rozważył trzy podejścia do oceny.

Pierwsza opcja polegała na prostym porównaniu średnich metryk w regionach z funkcją i bez niej w tym samym okresie czasu. Plusy podejścia — prostota realizacji i szybkość uzyskania wyniku. Minusy — krytyczne niedoszacowanie systematycznych różnic między regionami (Moskwa historycznie pokazuje wyższą konwersję) oraz niemożność oddzielenia efektu funkcji od sezonowego trendu. Opcja ta została odrzucona z powodu wysokiego ryzyka fałszywie pozytywnych wniosków.

Druga opcja używała Propensity Score Matching do stworzenia grupy kontrolnej z użytkowników bez wyszukiwania głosowego, ale z podobnymi cechami urządzeń i zachowaniem. Plusy — próba wyeliminowania przesunięcia według obserwowanych cech. Minusy — niesposobność uwzględnienia nieobserwowalnych czynników (np. skłonność do wczesnego przyjęcia technologii), które jednocześnie wpływają zarówno na posiadanie nowoczesnego urządzenia, jak i gotowość do dokonania zakupów. Ponadto, matching traci efektywność przy obecności efektów stałych regionów.

Trzecia opcja łączyła Difference-in-Differences na poziomie regionów z Instrumental Variables na poziomie użytkowników. Jako narzędzie użyto flagi dostępności funkcji na urządzeniu (zależy od modelu smartfona i wersji systemu operacyjnego, ale nie bezpośrednio od preferencji użytkownika), aby przewidzieć faktyczne użycie za pomocą Two-Stage Least Squares. Dla regionów z unikalnymi dialektami (Kazań, Nowosybirsk) zastosowano Synthetic Control, ważając regiony kontrolne według wcześniejszych trendów konwersji. Plusy — oddzielenie efektu dostępności od efektu samoselekcji użytkowników oraz kontrola regionalnych trendów. Minusy — trudność w interpretacji Local Average Treatment Effect (LATE) oraz wymagania wobec założenia o równoległych trendach. Ta opcja została wybrana jako najbardziej odporna.

W wyniku analizy okazało się, że wyszukiwanie głosowe przynosi przyrost głębokości przeglądania o 18% wśród użytkowników z kompatybilnymi urządzeniami, ale nie odnotowano statystycznie istotnego efektu na konwersję do zakupu. Co więcej, w kategoriach z terminami technicznymi (komponenty komputerowe) zaobserwowano spadek konwersji z powodu błędów w rozpoznawaniu specyficznej leksyki. To pozwoliło zespołowi skorygować roadmap: poprawić rozpoznawanie terminów technicznych przed skalowaniem i skupić marketing na kategoriach „prostszych” produktów (sprzęt AGD), w których wyszukiwanie głosowe wykazało najlepsze wyniki.

Co kandydaci często pomijają

Jak oddzielić krótkoterminowy efekt nowości (novelty effect) od trwałej zmiany zachowania przy ocenie interfejsów głosowych?

Kandydaci często ignorują czasową dynamikę adaptacji. Należy budować analizę kohortową według dnia pierwszego użycia funkcji i śledzić retention usage w perspektywie 3-4 tygodni. Jeśli intensywność użycia spada krzywą wykładniczego wygasania do poziomu bazowego, efekt jest nowością. Aby poprawnie ocenić, należy używać tylko ustalonego okresu (steady state) lub ważyć obserwacje według czasu życia kohorty. Ważne jest również sprawdzenie heterogeniczności efektu według częstotliwości użycia — power users mogą wykazywać trwałe zachowania, podczas gdy przypadkowi użytkownicy są podatni na efekt nowości.

Jak poprawnie przetwarzać wartości zerowe (zeroes) w danych, gdy użytkownik aktywował wyszukiwanie głosowe, ale nie uzyskał wyników z powodu błędu rozpoznawania?

Standardowa regresja liniowa lub model logistyczny są tutaj niepoprawne z powodu mieszanej struktury rozkładu: masa zer (nieudane próby) i ciągłe rozkład pozytywnych wyników. Należy zastosować Two-part model (hurdle model) lub Zero-Inflated Negative Binomial dla metryk liczbowych (liczba przeglądów). Pierwsza część modelu ocenia prawdopodobieństwo udanego wyszukiwania (selection equation), druga — intensywność użycia w przypadku sukcesu (outcome equation). Ignorowanie tej struktury prowadzi do zaniżenia oceny efektu, ponieważ nieudane próby błędnie klasyfikowane są jako brak zainteresowania, a nie jako bariera techniczna.

Dlaczego w tym przypadku nie można użyć prostego porównania Intent-to-Treat (ITT) wszystkich użytkowników w regionie wdrożenia z regionem kontrolnym?

Analiza ITT miesza efekt dostępności funkcji z efektem jej rzeczywistego użycia, rozmywając ocenę. Jeśli tylko 10% publiczności ma kompatybilne urządzenia i tylko 20% z nich wypróbuje funkcję, ITT pokaże 2% efektu nawet przy 100% efektywności dla rzeczywistych użytkowników. Dla decyzji biznesowych kluczowy jest właśnie efekt Treatment-on-Treated (TOT) lub Local Average Treatment Effect (LATE) uzyskany za pomocą zmiennych instrumentalnych. Kandydaci pomijają, że compliance (zgodność z przeznaczeniem) tutaj nie wynosi 100% i należy skalować ocenę ITT odwrotnie proporcjonalnie do udziału compliantów, aby uzyskać prawdziwy efekt na tych, którzy faktycznie korzystają z funkcji.