Ответ на вопрос

Исторический контекст формируется эволюцией privacy-регуляций (GDPR, CCPA, ePrivacy Directive), которые обязали компании запрашивать явное согласие пользователей на обработку данных. До 2018 года аналитики полагались на deterministic attribution с полным отслеживанием пользовательского пути, однако внедрение consent management platforms (CMP) привело к систематическому исчезновению данных (missing not at random), искажающему воронки и метрики LTV.

Проблема заключается в endogeneity self-selection: пользователи, отказывающиеся от cookies, систематически отличаются по поведению (более высокая ценочувствительность, использование ad-blockers, реже кликают на рекламу), создавая смещение выживания (survival bias) в наблюдаемых данных. Стандартное сравнение когорт с согласием и без него приводит к переоценке эффективности каналов, так как «потерянные» пользователи не являются случайной выборкой.

Решение строится на causal inference с использованием instrumental variables (IV) или regression discontinuity design (RDD) по пороговым значениям склонности к согласию (propensity score). Применяется two-stage least squares (2SLS), где инструментом служит вариант дизайна CMP-баннера (например, позиция кнопки «Accept»), влияющий на вероятность согласия, но не коррелирующий напрямую с конверсией. Для оценки долгосрочного эффекта используется Synthetic Control Method, создающий взвешенную комбинацию регионов или сегментов с высоким уровнем согласия как «доноров» для моделирования контрфактного сценария без внедрения strict consent. Дополнительно внедряется probabilistic attribution на основе first-party data и server-side tracking, позволяющий восстановить часть «потерянных» цепочек через вероятностные модели (Markov chains или Shapley value для каналов).

Ситуация из жизни

Команда e-commerce платформы столкнулась с кризисом после внедрения GDPR-compliant баннера согласия в EU-регионе: доля отказов от tracking достигла 60%, а наблюдаемая конверсия в платящего пользователя упала на 35%. Бизнес предполагал катастрофическое снижение эффективности маркетинга, однако требовалось отделить истинное снижение спроса от артефакта потери данных атрибуции.

Первый рассмотренный вариант — простое сравнение метрик до и после внедрения (pre-post analysis). Плюсы: мгновенная реализация и понятная интерпретация. Минусы: полное игнорирование сезонности (запуск совпал с началом летнего спада), внешних конкурентных кампаний и изменений в алгоритмах iOS App Tracking Transparency, что делало результат невалидным.

Второй вариант — сравнение EU-трафика с трафиком из non-EU стран (geo-experiment). Плюсы: наличие контрольной группы с полным отслеживанием. Минусы: фундаментальная нескомпарабельность регионов из-за различий в покупательном поведении, валютных колебаний и разной стадии рыночного развития, что привело бы к смещению оценки на 15-20%.

Третий вариант — применение CausalImpact с использованием Bayesian structural time-series модели. Плюсы: учет временных зависимостей и сезонности. Минусы: чувствительность к выбору ковариат (predictors) и предположению об отсутствии синхронных шоков, что рискованно в период глобальных изменений privacy-политик.

Выбранное решение — Synthetic Control Method (SCM) с использованием сегментов пользователей с высоким historical consent rate (доноров) для построения взвешенного синтетического EU. Дополнительно применили instrumental variables на уровне когорты: использовали случайизированные A/B-тесты дизайна баннера (цвет кнопки, умолчания) как инструмент для оценки Local Average Treatment Effect (LATE). Это позволило изолировать чистый эффект наличия данных, а не дизайна баннера.

Итоговый результат показал, что истинное снижение конверсии составило лишь 8% (а не 35%), остальное — артефакт потери атрибуции. Была перестроена модель MTA (Multi-Touch Attribution) с использованием incrementality-based calibration через geo-based holdouts, что восстановила точность прогнозирования ROAS на уровне ±3% от доконсентных значений.

Что кандидаты часто упускают

Как корректировать bias в атрибуции, когда часть пользователей дает partial consent (только необходимые cookies), создавая неполные user journeys?

Кандидаты часто предлагают просто исключить неконсентных пользователей из анализа, усиливая selection bias. Правильный подход — использование pattern-mixture models или multiple imputation by chained equations (MICE) с учетом механизма пропуска (MNAR). Необходимо моделировать вероятность конверсии как функцию от наблюдаемых поведенческих сигналов (first-party events) даже при отсутствии third-party identifiers, применяя surrogate outcomes для восстановления causal estimand.

Почему стандартные метрики click-through rate (CTR) могут показывать рост после внедрения strict consent, и как это интерпретировать?

Это классический survivorship bias: остаются только высокомотивированные пользователи, согласные на отслеживание, которые и так имели высокий CTR. Кандидаты упускают необходимость оценки intention-to-treat (ITT) эффекта на всей популяции, а не только на per-protocol группе. Нужно применять complier average causal effect (CACE) анализ с использованием случайизации дизайна consent-баннера как инструмента для оценки эффекта на «комплайеров».

Как отличить эффект потери данных от истинного снижения спроса при внедрении consent mechanism в условиях, когда юридически нельзя создать контрольную группу без баннера?

Здесь критично применение difference-in-differences (DiD) с staggered adoption дизайна или synthetic control с использованием «ранних» и «поздних» adopters в разных юрисдикциях. Кандидаты часто не учитывают parallel trends assumption, которую необходимо валидировать через event study спецификацию с leads-and-lags. Также важно использовать proxy variables (например, aggregate credit card spending data или panel data от поставщиков) как альтернативный источник truth для валидации внутренних метрик, корректируя на differential privacy шум.