Ответ на вопрос

Исторически оценка программ лояльности основывалась на простом сравнении средних чеков участников и неучастников, что приводило к переоценке эффекта из-за selection bias. Современная продуктовая аналитика требует изоляции истинного causal effect в условиях, когда пользователи самоотбираются в программу на основе ненаблюдаемых характеристик (например, планируемый объем покупок). Ключевая проблема заключается в разделении эффекта программы от предсуществующих различий между группами, а также в корректной обработке временных лагов между начислением и активацией бонусов.

Для решения необходимо применить комбинацию Propensity Score Matching (PSM) и Difference-in-Differences (DiD) с расширенной спецификацией временных эффектов. На первом этапе строится модель вероятности присоединения к программе на основе ковариат до момента запуска (история покупок, демография, engagement). Пользователи матчатся по ближайшему соседу или весам (IPW), чтобы сбалансировать распределение наблюдаемых характеристик. На втором этапе применяется DiD с фиксированными эффектами по пользователям и времени, где периоды разбиты на бакеты относительно момента активации кешбэка (event study design). Это позволяет отследить динамику эффекта, учитывая что часть пользователей активирует бонусы через неделю, а часть через месяц. Для контроля каннибализации (перенос покупок во времени) включаются лаги зависимой переменной и анализируются когорты с разным горизонтом наблюдения через Survival Analysis.

Ситуация из жизни

Мы запускали накопительный кешбэк 5% в маркетплейсе электроники, где пользователи должны были активировать опцию в профиле. Через месяц метрики показывали рост частоты покупок на 40% среди участников, но бизнес сомневался в причинности, так как предполагалось, что в программу вступают изначально лояльные пользователи. Проблема усложнялась тем, что бонусы можно было потратить только через 14 дней после начисления, создавая искусственный всплеск активности на третьей неделе.

Первый рассмотренный вариант — классический A/B тест с принудительной рандомизацией доступа к кешбэку. Плюсы: чистая оценка causal effect. Минусы: юридические ограничения (нельзя навязывать финансовую программу без согласия) и искажение поведения (пользователи, узнавшие о недоступности кешбэка, уходили к конкурентам). Этот вариант был отвергнут из-за этических и бизнес-рисков.

Второй вариант — простое сравнение «участники vs не участники» через t-test с поправкой на размер выборки. Плюсы: скорость реализации и простота отчетности. Минусы: катастрофическое смещение выживания (survivorship bias) и игнорирование эндогенности; анализ показал, что участники до активации имели в 2.3 раза выше базовую частоту покупок, что делало сравнение некорректным.

Третий вариант — Regression Discontinuity Design (RDD) по порогу суммы первой покупки, автоматически дающей право на кешбэк. Плюсы: локальная случайность около порога обеспечивает несмещенную оценку для маргинальных пользователей. Минусы: оценка валидна только для узкой группы у порога (local average treatment effect), а не для всей аудитории; к тому же в нашем случае не было жесткого порога — программа была доступна всем сразу после opt-in.

Выбранное решение — комбинация Propensity Score Matching для создания синтетического контроля и Cohort-based Difference-in-Differences с учетом временных лагов. Мы сматчили участников с неучастниками по 15 переменным (RFM-сегменты, сезонность, устройство), затем применили DiD с фиксированными эффектами недели и пользователя. Для учета задержки в 14 дней мы построили Event Study с бинами относительно момента активации, что позволило отделить истинный рост от переноса покупок. Результат: чистый инкрементальный эффект составил +12% к частоте покупок и +8% к среднему чеку после вычета каннибализации, в то время как сырые данные показывали +40%. Программа была признана успешной, но с существенно более скромными ожиданиями ROI.

Что кандидаты часто упускают

Как корректно различать эффект программы от временного переноса покупок (intertemporal substitution) при наличии лагов между начислением и списанием бонусов?

Ответ требует понимания Dynamic Treatment Effects. Необходимо моделировать не только средний эффект, но и его динамику через Event Study спецификацию: Y_it = α_i + γ_t + Σ_k β_k · D_i,t-k + ε_it, где D_i,t-k — дамми-переменные относительно момента активации. Если коэффициенты β_k до активации значимо не отличаются от нуля (parallel trends test), а после активации показывают всплеск с последующим спадом ниже базового уровня — это признак каннибализации (borrowed demand). Для оценки чистого LTV-эффекта нужно интегрировать эффект по времени и сравнить с контрфактом через Synthetic Control Method, построенный на донорских единицах с похожей предварительной траекторией.

Почему стандартный A/B тест с индивидуальной рандомизацией может нарушать предположение SUTVA в системах кешбэка?

SUTVA (Stable Unit Treatment Value Assumption) нарушается, когда бонусы одного пользователя влияют на поведение других через сеть (например, семейные аккаунты или корпоративные закупки). Если муж активирует кешбэк и делает покупку для семьи, а жена прекращает свои отдельные покупки, индивидуальная рандомизация даст смещенную оценку. Необходимо применять Cluster Randomization на уровне домохозяйств или использовать методы анализа диффузии (Spillover Effects), такие как Two-Stage Least Squares (2SLS) с инструментальными переменными (например, пороговые значения для активации, варьирующиеся между кластерами).

Как учитывать гетерогенность эффекта по времени жизни пользователя (customer lifetime stage) при наличии сезонности?

Кандидаты часто игнорируют, что эффект кешбэка различен для новых пользователей (эффект первичной мотивации) и зрелых (эффект удержания). Необходимо применять Triple Difference (DDD): эффект программы = (Y_post - Y_pre) для treatment - (Y_post - Y_pre) для control, дифференцированный по сегментам tenure (новые/зрелые). При этом сезонность контролируется через фиксированные эффекты месяца взаимодействия с сегментом. Альтернативно — Heterogeneous Treatment Effects через Causal Forests или Meta-learners (S-learner, T-learner), что позволяет выявлять сегменты с положительным CATE (Conditional Average Treatment Effect) и оптимизировать таргетинг программы на них, избегая расходов на пользователей с нулевым или отрицательным эффектом.