Ответ на вопрос

Для измерения инкрементальности офлайн-каналов применяется методология Geo-Lift Testing с использованием синтетического контроля (Synthetic Control Method). Ключевая идея заключается в разделении географических регионов на тестовые (где транслируется реклама) и контрольные (где кампания не запускается), с последующим построением взвешенной комбинации контрольных регионов, имитирующей поведение тестовых до старта кампании с точностью до 95% корреляции.

Для анализа временных рядов используется библиотека Google CausalImpact, оценивающая каузальный эффект с учётом ковариат (погодные данные, экономические индикаторы, активность конкурентов). Данные агрегируются в BigQuery, а предобработка выполняется на Python с использованием pandas и scikit-learn для подбора оптимальных весов синтетического контроля через метод опорных векторов (SVM) или регрессию Лассо.

Ситуация из жизни

Компания планирует масштабную телевизионную кампанию бюджетом 50 млн рублей в десяти крупных городах, но сталкивается с критической проблемой измерения эффективности: стандартные трекеры вроде AppsFlyer или Adjust фиксируют только цифровые касания, не позволяя отследить переход от телеэкрана к установке приложения. Дополнительная сложность возникает из-за одновременной агрессивной промо-активности конкурента и аномальных погодных условий в целевых регионах, которые могут исказить прямое сравнение с прошлыми периодами.

Первым рассматриваемым решением стал корреляционный анализ временных рядов с использованием модели ARIMA, где прогноз на основе исторических данных сравнивается с фактическими показателями установок. Плюсы данного подхода включают низкую стоимость реализации в Python с библиотекой statsmodels и отсутствие необходимости разделять рекламный бюджет между регионами. Минусы заключаются в невозможности отделить эффект ТВ от внешних шоков (действия конкурентов, погода), что приводит к риску ложной атрибуции роста именно телевизионной рекламе, несмотря на отсутствие причинной связи.

Вторым вариантом был addressable TV с классическим A/B-тестом на уровне домохозяйств, где реклама показывалась бы только части аудитории с возможностью прямой атрибуции через панельные данные. Плюсы состоят в строгой каузальности и возможности измерить долгосрочный LTV когорт. Минусы включают техническую сложность интеграции с провайдерами данных (GfK, TNS), высокую стоимость и длительные сроки подготовки (3-4 месяца), а также неприменимость к традиционному broadcast TV, который охватывает всю популяцию региона без возможности таргетинга на уровне отдельных пользователей.

Третьим подходом стал Geo-Lift Testing с синтетическим контролем, где кампания запускается в тестовых регионах, а для контрольных строится взвешенная комбинация похожих регионов, имитирующая их поведение. Плюсы метода — способность установить причинность через естественный эксперимент и устойчивость к общим внешним шокам, если они затрагивают обе группы. Минусы — необходимость тщательного подбора контрольных регионов с похожей сезонностью, чувствительность к миграции пользователей между городами и требование к объёму исторических данных минимум за 12 месяцев для построения качественного синтетического контроля.

Выбрано было третье решение, поскольку компания располагала детальными данными по 40 регионам за 18 месяцев в хранилище BigQuery, что позволило построить синтетический контроль с коэффициентом корреляции выше 0.95 для докампанийного периода. Анализ проводился в среде Jupyter с использованием библиотеки pycausalimpact, а предобработка данных выполнялась на SQL и pandas с нормализацией по размеру аудитории.

В результате был обнаружен статистически значимый инкрементальный прирост органических установок на 23% в течение 14 дней после старта кампании с доверительным интервалом 95% [15%; 31%], что транслировалось в ROI 145% и позволило маркетинговой команде обосновать увеличение бюджета на ТВ-канал на следующий квартал.

Что кандидаты часто упускают

Как обрабатывать adstock-эффекты (запаздывание и накопительный эффект) при анализе офлайн-кампаний, когда влияние рекламы проявляется не сразу, а распределяется во времени?

Кандидаты часто используют простое сравнение «день показа — день установки», игнорируя, что ТВ-реклама имеет эффект полураспада (half-life). Необходимо применять трансформацию adstock: $A_t = X_t + \lambda \cdot A_{t-1}$, где $\lambda$ — коэффициент затухания (обычно 0.3-0.8 для ТВ), определяемый через максимизацию правдоподобия или Grid Search в scikit-learn. Важно также учитывать carryover-эффект от предыдущих кампаний, иначе текущий lift будет переоценён. Для валидации $\lambda$ используется кросс-валидация на предыдущих кампаниях с разным лагом.

Почему нельзя использовать простое сравнение средних (t-test) между тестовыми и контрольными регионами в Geo-Lift тестировании, даже если регионы случайно выбраны?

Проблема заключается в гетерогенности дисперсий между регионами (разная базовая конверсия, разный размер популяции) и наличии кластерной корреляции (внутрирегиональной зависимости наблюдений). Стандартный t-test предполагает независимость наблюдений и равенство дисперсий, что приводит к завышению статистической значимости (false positives). Корректный подход — использование Clustered Standard Errors на уровне региона или иерархических байесовских моделей в PyMC3 / Stan, которые учитывают структуру данных. Также необходима проверка баланса ковариат (propensity score matching) перед тестом, чтобы убедиться, что синтетический контроль адекватен.

В чём принципиальное отличие между Marketing Mix Modeling (MMM) и Geo-Lift Testing, и когда какой метод предпочтительнее?

MMM (например, через библиотеку Robyn от Meta или LightweightMMM от Google) — это корреляционная модель, оценивающая вклад всех каналов одновременно через регрессию с регуляризацией, но она чувствительна к эдогенности и не способна установить строгую причинность без инструментальных переменных. Geo-Lift — это квазиэксперимент, устанавливающий причинность через экзогенную вариацию (наличие/отсутствие рекламы в регионе). MMM предпочтителен для оптимизации бюджета между множеством каналов и планирования, тогда как Geo-Lift необходим для валидации конкретных гипотез и калибровки MMM. Оптимальная практика — использование Geo-Lift для калибровки priors в байесовском MMM, что реализуется через pymc-marketing.