Ответ на вопрос

Исторически маркетинговые кампании оценивались через средний эффект воздействия (ATE), но развитие Causal ML привело к uplift-моделям, предсказывающим индивидуальный терапевтический эффект (ITE). Классический A/B-тест здесь парадоксален: для обучения модели нужны данные о treated и control для всех сегментов, но чтобы оценить модель, её нужно применить, что разрушает контрольную группу. Это создаёт дилемму исследования и эксплуатации (exploration-exploitation).

Проблема усложняется перекрёстным загрязнением (contamination), когда поведение пользователей из тестовой группы влияет на контроль через сетевые эффекты или общие ресурсы (например, исчерпание лимита промокодов). Требуется метод, позволяющий одновременно обучать модель и изолировать её инкрементальный эффект по сравнению с равномерным распределением или отсутствием кампании.

Решение строится на Two-Stage Approach. Первый этап — exploration с рандомизацией (20-30% трафика) для сбора несмещённых данных, обучение модели (X-learner или R-learner) для оценки CATE (Conditional Average Treatment Effect). Второй этап — exploitation с постепенным переводом трафика на модель через Thompson Sampling или Contextual Bandits, что минимизирует регретт (regret). Для изоляции эффекта используется Cluster-based Randomization (рандомизация по географическим кластерам) или Switchback-тестирование (временная рандомизация) с последующей оценкой через Synthetic Control Method (SCM). Метрика качества — Qini-coefficient или Area Under the Uplift Curve (AUUC), корректируемая через Inverse Propensity Weighting (IPW) для устранения смещения выбора.

Ситуация из жизни

Проблема возникла в маркетплейсе при запуске кампании с персонализированными промокодами. Продуктовый менеджер хотел использовать uplift-модель, чтобы отправлять скидки только "persuadables" (те, кто купит только с промокодом), избегая "sure things" и "lost causes". Стандартный A/B-тест был невозможен, так как для обучения требовались данные о неполучивших промокод во всех сегментах, но удержание 50% аудитории без промокодов критически снижало выручку.

Вариант первый — Hold-out Randomization с сохранением 10% пользователей в полном контроле на весь период. Плюсы подхода: чистая оценка ATE и возможность корректного обучения модели на контрасте. Минусы: значительные упущенные доходы (opportunity cost), этические конфликты (дискриминация по цене без прозрачных критериев) и медленная сходимость модели из-за малого размера контрольной группы.

Вариант второй — Thompson Sampling с постепенным увеличением доли трафика. Здесь "руками" бандита являются стратегии таргетирования (uplift-модель против рандома). Плюсы: оптимальное соотношение exploration/exploitation, адаптация к сезонности и минимизация экономических потерь. Минусы: сложность интерпретации на ранних этапах, риск попадания в локальный оптимум при неудачном выборе контекстов и необходимость больших объёмов трафика для статистической значимости.

Вариант третий — Geo-based Synthetic Control. Рандомизация проводилась по регионам: в тестовых применялась uplift-модель, в контрольных — старая система. Для оценки использовался SCM, создающий взвешенную комбинацию контрольных регионов, имитирующую тестовые до внедрения. Плюсы: изоляция эффекта от индивидуальной рандомизации, работа с агрегированными данными и отсутствие перекрёстного загрязнения между городами. Минусы: требование стабильности регионов во времени, чувствительность к выбросам в малых географических единицах и предположение о параллельных трендах, которое часто нарушается в периоды высокой сезонности.

Было выбрано комбинированное решение: Geo-cluster Randomization с Synthetic Control для офлайн-валидации и Thompson Sampling для онлайн-оптимизации внутри тестовых кластеров. Обоснование: географическая рандомизация исключила перекрёстное загрязнение (пользователи из разных городов редко взаимодействуют), а Synthetic Control позволил избежать 50/50 сплита. Thompson Sampling внутри тестовых регионов обеспечил быструю адаптацию модели к локальным предпочтениям.

Результат: удалось изолировать истинный инкрементальный эффект uplift-модели в +12% к конверсии по сравнению с массовой рассылкой при снижении расходов на промокоды на 35%. Synthetic Control показал, что без модели тренд в тестовых регионах повторял бы динамику синтетического контроля с точностью 94% (RMSPE), что подтвердило валидность оценки.

Что кандидаты часто упускают

Почему нельзя просто сравнить конверсию тех, кто получил промокод по модели, с теми, кто не получил (observational data), даже если использовать Propensity Score Matching?

Ответ: Self-selection bias и unobserved confounders. Пользователи с высоким uplift-score могут систематически отличаться по ненаблюдаемым характеристикам (например, недавнее получение зарплаты или поиск конкретного товара). Propensity Score Matching (PSM) корректирует только по наблюдаемым ковариатам, но если существует скрытая переменная, влияющая и на вероятность получения промокода, и на конверсию, оценка будет смещена. Например, активные пользователи с множеством сессий могут ошибочно классифицироваться как "persuadables", но они купят и без скидки. Для начинающего специалиста критично понимать, что корреляция между предсказанным uplift и фактической конверсией не равна причинно-следственному эффекту — необходима рандомизация или инструментальные переменные (IV) для изоляции.

Как временная зависимость (time-varying confounders) влияет на оценку uplift-модели при длительном периоде обучения, и как с этим бороться?

Ответ: При долгосрочном обучении возникает temporal confounding: поведение пользователей меняется (сезонность, обновления продукта), и данные exploration-фазы устаревают к моменту exploitation. Классическая uplift-модель предполагает стационарность (stationarity), что редко верно. Решение — использование adaptive experimentation с decaying weights для старых данных или online learning алгоритмов (например, Bayesian Updating). Также необходим мониторинг concept drift через Population Stability Index (PSI) для фичей и производительности модели. Начинающие аналитики часто обучают модель на квартальных данных, а применяют через полгода, не проверив смещение поведения аудитории (например, из-за выхода конкурента), что приводит к negative uplift в продакшене.

Почему метрика AUUC (Area Under Uplift Curve) может ввести в заблуждение при сравнении двух разных uplift-моделей, и какие альтернативы использовать?

Ответ: AUUC зависит от распределения прогнозируемого uplift в популяции и не является масштаб-инвариантной. Если одна модель консервативно предсказывает малый uplift для всех, а другая — агрессивно с высокой дисперсией, их кривые пересекутся, и AUUC даст неоднозначный результат. Более того, AUUC игнорирует бизнес-ограничения (бюджет на промокоды). Альтернатива — cost-sensitive Qini coefficient или Expected Response при фиксированном бюджете. Для начинающего специалиста важно понимать, что хорошая модель по AUUC ≠ хорошая бизнес-метрика. Необходимо использовать Policy Evaluation с имитацией стратегии: отранжировать пользователей по предсказанному uplift, взять топ-K% (согласно бюджету), и сравнить фактический прирост с контрфактическим сценарием через Doubly Robust Estimation или Inverse Probability Weighting (IPW).