Ответ на вопрос

Исторический контекст подобных изменений восходит к 2017 году, когда Netflix отказался от пятизвёздочной шкалы в пользу бинарных «пальцев вверх/вниз», а YouTube последовал примеру со скрытием дизлайков. Эти изменения были мотивированы тем, что пятизвёздочные оценки демонстрировали «азиатскую» инфляцию (скученность вокруг 4-5 звёзд) и плохо коррелировали с фактическим потреблением контента. Проблема заключается в изоляции чистого эффекта смены механизма сбора обратной связи от конфounding-факторов: сезонности категорий, самоотбора активных пользователей и временной деградации Collaborative Filtering моделей из-за разреженности новых сигналов.

Для решения применяется Staggered Difference-in-Differences (DiD) с категориями контента, где обработанные категории (treatment) сравниваются с ещё не переведёнными (control), учитывая разное время внедрения. Для категорий без прямых аналогов используется Synthetic Control Method, создающий взвешенную комбинацию из контрольных категорий, имитирующую контрфакт. Эндогенность самоотбора оценивающих пользователей корректируется через Heckman Correction или Propensity Score Matching на основе истории просмотров и tenure. Для оценки качества рекомендаций применяется Counterfactual Evaluation с метриками NDCG и MAP на hold-out выборках, с исключением периода выгорания (burn-in) длительностью 2-4 недели для стабилизации матрицы факторов.

Ситуация из жизни

Стриминговый сервис «CinemaFlow» планировал замену устаревшей пятизвёздочной системы на бинарную для повышения вовлечённости. Ключевая проблема состояла в том, что команда подозревала потерю предиктивной силы рекомендаций из-за уменьшения гранулярности сигнала, а также опасалась резкого падения активности пользователей, привыкших к детальной шкале. Требовалось найти метод оценки, который учитывал постепенный rollout по жанрам (сначала документалистика, затем комедии) и сетевые эффекты, когда видимость существующих оценок влияла на желание новых пользователей голосовать.

Рассматривался вариант классического A/B тестирования с разделением пользователей на уровне user_id. Плюсы подхода включали чистоту эксперимента и простоту интерпретации causal эффекта. Минусы были критичными: Collaborative Filtering алгоритм терял целостность из-за смешения двух типов сигналов в одной матрице, что создавало артефакты в рекомендациях для обеих групп; существовал риск перекрёстного загрязнения через социальные функции (пользователи видели оценки друзей из другой группы); бизнес опасался негативной реакции на фрагментированный UX внутри одного продукта.

Альтернативой был до/после анализ сравнения метрик до и после перехода для каждой категории отдельно. Плюсы заключались в технической простоте и отсутствии необходимости держать старую систему для части пользователей. Минусы включали неспособность отделить эффект интервенции от сезонных колебаний просмотров (например, рождественские фильмы оцениваются иначе в декабре), игнорирование эффекта стадного поведения и самоотбора ранних последователей новой системы, что давало смещённую оценку.

Был выбран гибридный подход Staggered DiD с Synthetic Controls и Instrumental Variables. Этот метод позволил использовать категории, ещё не перешедшие на бинарную систему, как контрольные для уже перешедших, корректируя временные тренды. Synthetic Control компенсировал гетерогенность между жанрами, а IV-подход с использованием времени суток размещения контента (когда меньше онлайн-пользователей и слабее herding) как инструмента помог изолировать чистое влияние интерфейса оценивания. Выбор обусловлен необходимостью сохранить работоспособность рекомендательной системы во время перехода и получить несмещённые оценки при частичной доступности данных.

Итоговый результат показал, что объём оценок вырос на 220% за счёт снижения когнитивной нагрузки, но точность рекомендаций (измеренная NDCG@10) упала на 12% в первые три недели. Этот период соответствовал переобучению модели Matrix Factorization, после чего метрики восстановились до baseline благодаря увеличению density матрицы. На основании этих данных продуктовая команда приняла решение о полном rollout с дополнительным бюджетом на холодный старт для новых пользователей.

Что кандидаты часто упускают

Как корректно учесть период деградации качества рекомендаций во время переобучения модели и отделить его от истинного эффекта новой системы?

Ответ: Необходимо формализовать понятие «период выгорания» (burn-in period), обычно 2-4 недели, в течение которого метрики качества рекомендаций исключаются из основного causal анализа. Используйте Counterfactual Evaluation на исторических hold-out наборах, сравнивая офлайн-метрики (NDCG, MAP, Precision@K) до и после перехода, но стратифицированно по уровню активности пользователей. Важно отслеживать метрики coverage и diversity отдельно от accuracy, так как бинарные сигналы могут увеличить популярностное смещение (popularity bias) при недостаточной регуляризации.

Как обрабатывать эндогенность самоотбора пользователей, готовых оставлять оценки под новой системой, и отличить их поведение от эффекта самого интерфейса?

Ответ: Пользователи, оценивающие контент под бинарной системой, систематически отличаются от «звёздочных» оценщиков (склонны к экстремальным предпочтениям). Применяйте Heckman Correction (двухступенчатая модель с selection equation) или Inverse Probability Weighting на основе пропенсити-скоров, рассчитанных по наблюдаемым характеристикам (история просмотров, tenure, время сессии). В качестве Instrumental Variable используйте случайные вариации интерфейса (порядок расположения кнопок лайк/дизлайк) или A/B тестирование видимости агрегированных рейтингов для изоляции чистого эффекта механизма сбора данных.

Как количественно оценить эффект стадного поведения (herding) и отделить его от истинного предпочтения пользователя при анализе объёма оценок?

Ответ: Разделите пользователей на «первопроходцев» (first-movers), видящих пустой счётчик оценок, и «последователей», видящих ненулевое количество голосов. Примените Regression Discontinuity Design (RDD) вокруг порогов видимости рейтинга (например, когда контент попадает в топ-10 категории). Сравните вероятность оценивания пользователями, видящими агрегированный результат, с теми, кто видит «будьте первым». Для динамической корректировки используйте Thompson Sampling или байесовские методы для оценки истинного качества контента, фильтруя сетевые эффекты через временные лаги между публикацией и оценкой.