Ответ на вопрос.

Исторически email-маркетинг развивался в парадигме максимизации touchpoints, где рост частоты коммуникаций коррелировал с увеличением выручки до насыщения. С развитием теории engagement fatigue и ужесточением фильтров спама (SpamAssassin, Gmail Promotions Tab) возникла необходимость оптимизации частоты, но классические before/after сравнения оказались ненадёжны из-за нелинейных эффектов satiation и внешних шоков.

Проблема оценки заключается в невозможности создания контрольной группы при глобальном rollout, наличии self-selection bias (разные сегменты по-разному реагируют на сокращение касаний) и confounding factors (сезонность, макроэкономические тренды, параллельные маркетинговые активности). Стандартная корреляционная аналитика смешивает causal effect с общими трендами роста или падения продукта.

Оптимальное решение требует комбинации квазиэкспериментальных методов. Применяем Difference-in-Differences (DiD) с Propensity Score Matching (PSM) по историческим метрикам engagement (open rate, click rate, recency). Для каждого сегмента строим синтетический контроль через Synthetic Control Method, используя коррелирующие временные ряды (organic traffic, прямые заходы в приложение) как ковариаты. Для инференса используем Causal Impact на основе Bayesian Structural Time Series, что позволяет моделировать counterfactual с доверительными интервалами. Дополнительно применяем Causal Forests для оценки heterogeneous treatment effects по сегментам RFM. Валидация проводится через placebo tests на pre-intervention периоде для проверки parallel trends assumption и sensitivity analysis для оценки стойкости к unobserved confounding.

Ситуация из жизни.

EdTech-платформа с 2 млн пользователей столкнулась с ростом unsubscribe rate на 40% за квартал и решила сократить частоту educational digest с ежедневной до трёх раз в неделю. Проблема заключалась в необходимости доказать CEO, что снижение frequency не уничтожит revenue от power users, при этом изменение было запущено 15 декабря — за неделю до традиционного предновогоднего пика покупок курсов, что создавало сильный временной confounder.

Первый рассмотренный подход — простое сравнение средних чеков за неделю до и после через t-test. Плюсы заключались в скорости реализации и понятности для бизнес-стейкхолдеров. Минусы были критичны: полное игнорирование сезонного роста покупок в декабре давало ложноположительный эффект роста LTV на 15%, тогда как фактически мог наблюдаться нулевой или негативный эффект от сокращения коммуникаций.

Второй вариант предполагал когортный анализ с 30-дневным lag, сравнивая ноябрьскую и декабрьскую когорты. Плюсы включали учёт жизненного цикла пользователя и seasonality-adjusted метрик. Минусы проявлялись в том, что разные когорты имели разную базовую конверсию, а декабрьская когорта искажалась новогодними промо-кампаниями, что создавало непреодолимый selection bias и невозможность изоляции чистого эффекта частоты рассылок.

Третий вариант — построение Synthetic Control на основе географических данных, используя регионы СНГ с низкой проникаемостью email-канала (где пользователи ориентируются на push и SMS) как контрольную группу для регионов с высокой зависимостью от email-дайджестов. Плюсы: возможность моделировать counterfactual «что было бы без изменения» на уровне агрегированных временных рядов. Минусы: предположение о параллельных трендах нарушалось из-за региональных различий в праздничных традициях обучения, а данные по городам были сильно зашумлены миграцией пользователей между регионами во время новогодних праздников.

Четвёртый вариант (выбранный) — Difference-in-Differences с exact matching по исторической активности (opens, clicks, purchases за 90 дней до изменения). Мы использовали power users (открывали >70% писем) как treatment group и dormants (открывали <5% писем) как контроль, так как последние фактически не испытывали изменения частоты. Плюсы: строгий контроль за наблюдаемыми характеристиками через PSM и возможность валидации parallel trends на данных за предыдущие кварталы. Минусы: предположение об отсутствии differential trends между активными и неактивными пользователями требовало дополнительной проверки. Для robustness мы применили Causal Impact, используя метрики мобильного приложения (sessions, in-app purchases) как контрольные временные ряды, не коррелирующие напрямую с email-частотой, но отражающие общий продуктовый тренд.

Итоговый результат показал, что для power users сокращение частоты привело к статистически значимому снижению 30-day retention на 8% (p-value < 0.05, 95% CI [5%, 11%]), но увеличило lifetime value на 3% за счёт снижения оттока в спам-листы. Для среднеактивных пользователей эффект был статистически нейтральным. Рекомендация бизнесу: вернуть ежедневную частоту только для топ-10% пользователей с highest engagement score через сегментацию, а для остальной базы оставить три письма в неделю.

Что кандидаты часто упускают.

Как отличить эффект частоты рассылок от эффекта качества контента, если параллельно с сокращением частоты команда улучшила copywriting и дизайн писем?

Ответ требует применения mediation analysis и instrumental variables (IV). Необходимо построить двухэтапную модель: сначала оценить влияние изменения частоты на вероятность открытия письма (контролируя качество контента через метрики readability score или engagement rate в контрольном периоде), затем оценить влияние открытия на конверсию. Используются пакеты mediation в R или Python (библиотека mediation) для разложения total effect на direct effect (частота) и indirect effect (качество). Критический нюанс для начинающего специалиста — если качество контента является collider (зависит от частоты через высвободившиеся ресурсы команды copywriters), требуется front-door adjustment Пёрла или использование lagged quality metrics (значение качества с lag=1) как инструмента для изоляции чистого эффекта частоты.

Как корректно интерпретировать результаты при нарушении SUTVA (Stable Unit Treatment Value Assumption), когда пользователи обмениваются промокодами из писем в социальных сетях, создавая spillover эффекты между treatment и control группами?

Кандидаты часто игнорируют network interference, предполагая независимость наблюдений. Решение — переход от индивидуального уровня анализа к кластерному (cluster robust standard errors) или использование методов causal inference under interference. Необходимо определить кластеры через социальные графы (если доступны данные о connections) или географическую близость, затем применить exposure mapping для observational данных. Для оценки spillover используются neighborhood-based treatment definitions или sinusoidal exposure models. Важно понимать, что при положительных spillovers (виральность промокодов) стандартные оценки дают заниженный эффект (underestimation), так как контрольная группа частично получает «лечение» через сеть. Необходимо корректировать оценки через inverse probability weighting с учётом степени экспозиции соседей.

Как провести sensitivity analysis для оценки устойчивости результатов к ненаблюдаемым конфаундерам (unobserved confounding), таким как одновременная рекламная кампания в Facebook, таргетированная на ту же аудиторию?

Стандартный подход в продуктовой аналитике — использование E-value (VanderWeele & Ding) для оценки минимальной силы ассоциации, которую должен иметь ненаблюдаемый конфаундер, чтобы объяснить observed association. Также применяется bounding analysis (Rosenbaum bounds) для rank-based tests. Для начинающего специалиста критически важно понимать технику negative controls — использование outcomes, которые не должны быть затронуты treatment (например, количество сессий в мобильном приложении, если мы меняем только email-канал), но которые коррелируют с предполагаемым конфаундером. Если «сокращение email-рассылок» влияет на время в приложении (чего не должно быть), это сигнал о наличии общего конфаундера (например, общего маркетингового бюджета или сезонности).