Ответ на вопрос

Эволюция от пагинации к бесконечной прокрутке в 2010-х годах, популяризированная Facebook и Twitter, кардинально изменила паттерны потребления контента. Ранние продуктовые аналитики полагались на наивные сравнения "до и после", не учитывая сезонные тренды и самоотбор пользователей. Проблема усложнилась с развитием кросс-платформенной экосистемы, где пользователь бесшовно мигрирует между устройствами с разными версиями интерфейса.

Необходимо изолировать причинно-следственный эффект внедрения infinite scroll на метрики глубины прокрутки и рекламной монетизации. Критические конфаундеры включают постепенный географический rollout, создающий staggered timing treatment'а, и междевайсовую миграцию пользователей, приводящую к контаминации групп. Простое сравнение регионов невалидно из-за структурных различий в поведении аудитории. Анализ на уровне отдельных сессий игнорирует carryover-эффекты между устройствами и искажает оценку удержания.

Применяем staggered difference-in-differences с коррекцией на гетерогенные эффекты через оценщики Callaway-Sant'Anna или Sun-Abraham, корректно обрабатывающие поэтапное внедрение. Для борьбы с кросс-девайс контаминацией кластеризуем стандартные ошибки на уровне пользователя и включаем user fixed effects, трактуя фактическое использование фичи как treatment, а региональный график rollout'а — как инструментальную переменную (IV). При анализе выручки проводим mediation analysis для разделения прямого эффекта изменения layout'а на видимость рекламы и косвенного эффекта через увеличение вовлеченности. Валидацию parallel trends осуществляем на пре-роллаут данных с использованием CausalImpact для построения синтетического контроля.

Ситуация из жизни

В медиа-приложении с 5 млн MAU планировалась замена классической пагинации на бесконечную прокрутку для увеличения времени в приложении. Проблема измерения заключалась в постепенном rollout'е: сначала Москва и Питер, затем регионы через месяц. Дополнительно, пользователи активно переключались между мобильным приложением (где была новая фича) и планшетом (старая версия), создавая сильную контаминацию между группами.

Первый вариант — простое сравнение метрик до и после релиза в одном регионе. Плюсы: высокая скорость расчета и минимальные требования к данным. Минусы: невозможно отделить эффект фичи от сезонности новостного цикла и естественного роста базы; полученные цифры оказались смещены на +40% за счет новогоднего трафика.

Второй вариант — чистое географическое A/B-тестирование Москвы против остальных регионов. Плюсы: четкое разделение групп на момент среза. Минусы: структурные различия в поведении (москвичи читают больше бизнес-новостей), плюс миграция пользователей между регионами и устройствами создавала leakage до 15% в контрольную группу, что делало оценки невалидными.

Выбранное решение — staggered DiD с фиксированными эффектами пользователя и кластеризацией ошибок на уровне региона. Мы использовали момент первого входа пользователя в приложение с новой версией как treatment start, а региональный rollout schedule как инструмент для IV-оценки. Это позволило учесть перекрестное загрязнение через устройства как частичное соответствие treatment и control, обеспечивая несмещенную оценку.

Итоговый результат: чистый прирост глубины прокрутки составил +22% (вместо +35% в naive оценке), но RPM упал на 8% из-за снижения видимости рекламных слотов. Принято решение внедрить гибридный режим "подгрузить еще" с принудительным рекламным блоком каждые 10 карточек. Это дало +18% к глубине просмотра при сохранении монетизации на уровне baseline.

Что кандидаты часто упускают

Как корректно обрабатывать пространственную корреляцию ошибок при географическом rollout'е?

Кандидаты часто кластеризуют стандартные ошибки только на уровне пользователя, игнорируя, что региональные шоки (погода, локальные новости) коррелируют ошибки внутри географии. Необходимо использовать двойную кластеризацию (user + region) или Conley spatial standard errors, если есть точные координаты. Без этого доверительные интервалы окажутся слишком узкими, что приведет к ложноположительным срабатываниям при проверке значимости эффекта.

Как бороться с эндогенностью скорости обновления приложения, если активные пользователи получают infinite scroll раньше пассивных?

Это проблема self-selection в staggered adoption. Обычный intent-to-treat (ITT) по региону дает консервативную оценку, но Treatment-on-the-Treated (TOT) требует инструмента. Используйте назначение региода/времени как IV (instrumental variable) для фактического использования фичи, или применяйте inverse probability weighting (IPW) с пропенсити-скором на основе исторической активности. Иначе оценка будет смещена в сторону power users с высокой базовой вовлеченностью.

Как отделить эффект UX-улучшения от технического изменения видимости рекламных блоков при анализе выручки?

Требуется mediation analysis или two-stage least squares (2SLS). На первом этапе оцениваем эффект infinite scroll на глубину прокрутки (чистый UX), на втором — эффект глубины на показы рекламы. Прямой эффект layout (меньше рекламы на экране) оценивается отдельно через do-calculus или искусственный контроль с фиктивными ad slots. Без этого разделения можно ошибочно отклонить успешную фичу из-за кажущегося падения монетизации, которое на самом деле вызвано layout-изменением.