Ответ на вопрос

Исторический контекст

Традиционно продуктовые команды оценивали эффективность онбординга через сравнение retention пользователей, завершивших обучение, с теми, кто пропустил его. Этот подход породил массовые ошибки в интерпретации: наблюдаемая корреляция между прохождением туториала и удержанием отражала не causal эффект обучения, а селекцию высокомотивированных пользователей. С развитием Causal Inference в индустрии стало стандартом различать intention-to-treat (ITT) и treatment-on-the-treated (TOT), а также использовать естественные эксперименты при невозможности классической рандомизации.

Постановка проблемы

Ключевая сложность заключается в endogeneity самоотбора: решение пройти онбординг коррелирует с ненаблюдаемыми характеристиками пользователя (мотивацией, терпением), которые одновременно влияют на будущее удержание. Простое сравнение групп приводит к survivorship bias и завышенной оценке эффекта. Дополнительно, поэтапный rollout по регионам создает возможность для квазиэксперимента, но регионы различаются по культурным факторам и базовым метрикам, что требует контроля за confounding variables.

Подробное решение

Необходимо применить Two-Stage Least Squares (2SLS) с использованием регионального флага внедрения как Instrumental Variable (IV). На первом этапе моделируется вероятность прохождения онбординга (compliance) через принадлежность к региону с запущенной функцией. На втором этапе предсказанные значения используются для оценки эффекта на retention. Для учета региональной гетерогенности применяется Difference-in-Differences (DiD) с фиксированными эффектами по регионам и времени. Дополнительно строится Causal Forest для оценки Conditional Average Treatment Effect (CATE) и выявления сегментов, где онбординг дает максимальный прирост. Важно контролировать pre-trend параллельности до внедрения и проверять exclusion restriction для инструмента.

Ситуация из жизни

Команда мобильного приложения для изучения языков внедрила обязательный 3-минутный интерактивный туториал перед доступом к бесплатному контенту. Пилотный запуск показал, что пользователи, прошедшие онбординг, имеют 7-дневное удержание на 35% выше, чем те, кто закрыл приложение на этапе туториала. Бизнес хотел масштабировать функцию на всех пользователей, но аналитик заподозрил смещение выживания.

Вариант 1: Simple comparison (naive approach). Сравнение retention между пользователями с completed onboarding vs skipped. Плюсы: мгновенный расчет, понятная метрика uplift. Минусы: Критическое смещение выбора (selection bias); пользователи, готовые потратить 3 минуты на старте, и так более вовлечены; оценка завышена в 3-4 раза; не учитывает региональные различия в терпимости к friction.

Вариант 2: A/B-тест с принудительным онбордингом. Рандомизация на уровне пользователя: группа A видит обязательный туториал, группа B — сразу контент. Плюсы: Чистая рандомизация исключает селекцию. Минусы: Non-compliance в группе A (часть пользователей закрывает приложение и не возвращается) создает асимметричную attrition; ITT-анализ дает консервативную оценку, но не отвечает на вопрос об эффекте для тех, кто фактически прошел обучение; возможен negative spillover в социальных сетях.

Вариант 3: Regression Discontinuity Design (RDD) по времени. Использование точного момента запуска функции в регионе как cutoff. Плюсы: Высокая внутренняя валидность для пользователей "на границе"; не требует контрольной группы внутри региона. Минусы: Локальный эффект (LATE) нельзя обобщить на всех пользователей; требуется высокая плотность данных в окрестности cutoff; сезонность и день недели запуска могут исказить результаты.

Выбранное решение: Комбинация IV-approach с региональным rollout и Doubly Robust Estimation.

Регионы с запущенным онбордингом использовались как инструмент для фактического прохождения туториала (relevance condition проверена через корреляцию 0.82). Применили 2SLS для оценки эффекта именно для compliers (тех, кто прошел бы онбординг только при его обязательности). Дополнительно построили Synthetic Control для каждого региона-обработки, используя взвешенную комбинацию регионов-контролей с похожими pre-trend.

Итоговый результат: Истинный causal эффект составил +8% к 7-дневному удержанию вместо +35% в сырых данных. Оказалось, что онбординг эффективен только для пользователей с low initial engagement (CATE = +15%), но создает friction для power users (CATE = -3%). Была реализована адаптивная система: онбординг показывался только пользователям с низким предсказанным скором вовлеченности на основе первых 10 секунд сессии. Это дало +12% к глобальному retention без потери power users.

Что кандидаты часто упускают

Почему A/B-тест с принудительным онбордингом дает смещенную оценку даже при рандомизации, и как корректно интерпретировать результаты?

Ответ: Проблема non-compliance и differential attrition. Даже при случайном назначении в тестовую группу с обязательным онбордингом часть пользователей уходит навсегда (never-takers), тогда как в контрольной группе такого "штрафа" за отказ нет. Это создает асимметричное смещение выживания. Для корректной оценки необходимо рассчитывать Intent-to-Treat (ITT) эффект как разницу между группами по факту назначения, а затем использовать Wald estimator для получения Complier Average Causal Effect (CACE): CACE = ITT / (share of compliers). Важно проверить, что доля комплаеров достаточна (>20%), иначе оценка будет нестабильной (weak instrument problem).

Как диагностировать и корректировать negative spillover effects, когда пользователи из контрольных регионов узнают о новом онбординге и изменяют поведение до фактического запуска?

Ответ: Это нарушение SUTVA (Stable Unit Treatment Value Assumption). Для диагностики анализируют event study графики установок в контрольных регионах на предмет аномального снижения (chilling effect) перед rollout. Если spillover подтвержден, применяют spatial Difference-in-Differences, где контролем служат только удаленные регионы без социальных связей, или используют partial population experiment с обработкой случайной подвыборки пользователей внутри региона. Альтернативно применяют two-way fixed effects с интеракцией расстояния до ближайшего региона-обработки как контролируемой переменной.

Почему важно различать short-term friction и long-term value accumulation при выборе горизонта наблюдения, и какие методы позволяют оценить долгосрочный эффект при ограниченных данных?

Ответ: Онбординг создает краткосрочное трение, механически снижая day-0 retention, но накапливает долгосрочную ценность через лучшее понимание продукта. Оценка в коротком окне (1-3 дня) может показать отрицательный эффект из-за оттока низкомотивированных пользователей, которые и так имели бы низкий LTV. Для оценки долгосрочных эффектов при ограниченных данных используют Surrogate Index: строится модель, связывающая short-term метрики (глубина первой сессии, количество просмотренных фич) с long-term outcome (30-day retention) на исторических данных до внедрения. Затем оценивается эффект на surrogate, который проксирует долгосрочный эффект. Важно проверить unconfoundedness surrogate через sensitivity analysis.