Ответ на вопрос

Исторический контекст

Ранние стратегии удержания использовали массовые рассылки скидок всем пользователям с понижающейся активностью. Это приводило к нецелевым тратам маркетингового бюджета и формированию поведенческого паттерна «ожидания скидки». С появлением Uplift Modeling и методов Propensity Score в 2010-х годах компании начали таргетировать только пользователей с высокой вероятностью оттока. Однако это породило фундаментальные проблемы оценки, поскольку группа лечения самоотбирается моделью, нарушая предпосылку рандомизации, необходимую для причинно-следственного вывода.

Постановка проблемы

Ключевая сложность заключается в установлении валидного контрфактического сценария для пользователей, отмеченных моделью предсказания оттока как высокорисковые. Эти пользователи систематически отличаются от общей популяции — у них ниже вовлечённость, недавние негативные опыты или специфические паттерны поведения. Простое сравнение их удержания с низкорисковыми пользователями или с их собственной историей до вмешательства смешивает эффект лечения с присущими различиями. Кроме того, отказ от удерживающих предложений для пользователей с максимальным риском оттока (контрольная группа) создаёт неприемлемый бизнес-риск и потерю выручки, делая классическое A/B-тестирование политически невозможным.

Подробное решение

Примените Regression Discontinuity Design (RDD) вокруг порогового значения риск-скора (например, 0.7), запускающего вмешательство. Пользователи чуть выше и чуть ниже порога статистически схожи, за исключением назначения лечения. Это даёт локальный средний эффект лечения (LATE) для маргинальных пользователей. Для обобщения на всю высокорисковую популяцию комбинируйте RDD с Inverse Probability Weighting (IPW), используя пропенсити-скоры, оценённые на данных до вмешательства. Для пользователей далеко за порогом используйте Doubly Robust Estimation или Causal Forests для моделирования гетерогенных эффектов. Чтобы справиться с загрязнением данных предыдущими кампаниями при обучении, внедрите «shadow mode», где модель генерирует предсказания без триггеров для небольшого холдаута (5-10%), создавая инструмент для анализа Two-Stage Least Squares (2SLS). Наконец, учитывайте насыщение каналов коммуникации, используя Difference-in-Differences (DiD) для сравнения временных трендов между риск-сегментами.

Ситуация из жизни

Мобильный сервис подписок (приложение для медитации) внедрил ChurnGuard — ML-систему, запускающую персонализированные push-уведомления со скидкой 30% для пользователей с предсказанной вероятностью оттока за 7 дней > 0.75.

Вариант 1: Простое сравнение retention между получившими скидку (высокий риск) и не получившими (низкий риск)

Плюсы: Мгновенный расчёт существующими BI-инструментами; не требует экспериментальной инфраструктуры. Минусы: Сильное смещение самоотбора — высокорисковые пользователи естественно чаще уходят; сравнение недооценивает эффект или даже показывает отрицательную корреляцию (обработанные пользователи всё ещё уходят чаще, чем необработанные низкорисковые).

Вариант 2: Рандомизированный контролируемый эксперимент, где 50% высокорисковых пользователей случайно лишаются удерживающего предложения

Плюсы: Несмещённая причинно-следственная оценка; ясная интерпретация среднего эффекта лечения (ATE). Минусы: Бизнес-стейкхолдеры отклонили из-за страха потерять ценных пользователей; этические проблемы преднамеренного допущения оттока при наличии интервенции; проблемы с размером выборки для сегмента высокого риска.

Вариант 3: Regression Discontinuity Design с использованием порога 0.75 модели плюс Synthetic Control Method для валидации временных рядов

Плюсы: Этически приемлемо — пользователи чуть ниже порога получают стандартный опыт; эксплуатирует существующий алгоритмический порог как естественный эксперимент; может быть реализовано ретроспективно на исторических данных. Минусы: Оценивает только локальный эффект (для пользователей у порога); требует тщательной верификации предпосылок непрерывности (отсутствия манипуляций со скорами); менее точно, чем RCT из-за меньшего эффективного размера выборки в полосе пропускания.

Выбранное решение и обоснование

Вариант 3 с полосой пропускания 0.05 вокруг порога, дополненный Cohort Analysis сравнения пользователей за неделю до и после деплоя модели, скорректированным на сезонность с помощью Propensity Score Matching по поведенческим фичам. Причина выбора: Сбалансировало статистическую строгость с бизнес-ограничениями; позволило измерить эффект без отказа в лечении явно высокорисковым пользователям.

Итоговый результат

Обнаружили 18% относительное снижение оттока за 7 дней для пользователей на границе (риск-скор 0.75-0.80). Однако выявили, что для пользователей с риском >0.90 возврат убывает из-за «тревожной усталости» от множественных удерживающих пушей. Оптимизировали частотный лимит до максимум 2 пушей в неделю. Чистый эффект на LTV составил +$1.2M за 3 месяца при ROI 340% на затраты на скидки.

Что кандидаты часто упускают

Почему сравнение retention rate между пользователями, получившими удерживающую кампанию, и теми, кто её не получил (даже внутри сегмента высокого риска), может завышать или занижать истинный эффект вмешательства?

Даже внутри высокорискового сегмента важен момент времени, когда пользователь попадает в этот сегмент. Пользователи, достигающие порога риска раньше в жизненном цикле, принципиально отличаются от тех, кто достигает его позже. Без учёта Time-Varying Confounders (например, недавних сбоев приложения или сезонных событий, которые одновременно повышают риск и делают скидки более/менее эффективными), простые сравнения страдают от Survivorship Bias и Simpson's Paradox. Правильный подход требует использования Marginal Structural Models (MSM) с взвешиванием по обратной вероятности лечения для обработки зависящих от времени ковариат.

Как проблема «data leakage» в обучающей выборке модели оттока искажает оценку эффективности самой системы предотвращения оттока?

Если модель оттока обучалась на исторических данных, где часть пользователей уже получала удерживающие кампании, метки целевой переменной загрязнены. Модель учится идентифицировать «пользователей, спасённых предыдущими кампаниями», а не «пользователей, которые бы естественно ушли». Это создаёт Feedback Loop, где модель искусственно хорошо работает на валидации (предсказывая низкий отток для обработанных пользователей), но не способна идентифицировать истинно рискованных пользователей в продакшене. Для исправления необходимо использовать только данные до вмешательства для обучения или применять Importance Sampling для перевзвешивания обучающих данных по обратной вероятности получения прошлых лечений, эффективно симулируя отсутствие кампаний в прошлом.

Почему стандартное A/B-тестирование с рандомизацией на уровне пользователя может быть неприменимо для оценки систем предотвращения оттока, и какие альтернативные экспериментальные дизайны следует использовать?

Стандартное A/B-тестирование часто неприменимо, поскольку отказ от лечения в контрольной группе нарушает принцип Individual Equipoise (преднамеренное допущение вреда при наличии интервенции) и страдает от Spillover Effects (обработанные пользователи могут делиться промокодами с контролем). Вместо этого используйте Cluster Randomization (рандомизация по географическим регионам или временным периодам через Switchback Experiments) или Encouragement Designs, где инструментом является право на участие в модели, а не само лечение. Другой подход — Partial Population Experiments, где модель работает в «shadow mode» для контрольной группы (предсказания делаются, но действия не предпринимаются), позволяя сравнить предсказанный и фактический отток с помощью Calibration Analysis для измерения истинного lift.