Ответ на вопрос

Исторический контекст

Эволюция e-commerce от импульсивных покупок к планируемому потреблению началась с внедрения Amazon Subscribe & Save в 2008 году, когда ритейлеры осознали, что удержание через снижение когнитивной нагрузки при повторных заказах эффективнее агрессивных скидок. К 2015 году появились умные списки с Machine Learning-прогнозированием пополнения, которые анализировали интервалы между покупками молока или подгузников. Однако ранние оценки эффективности сталкивались с фундаментальной проблемой: пользователи, создающие списки, изначально демонстрировали более высокую дисциплину планирования и лояльность, что делало прямое сравнение с 'холодной' аудиторией некорректным с точки зрения причинно-следственной связи.

Постановка проблемы

Ключевая сложность заключается в эндогенности самоотбора: создание списка является не случайным воздействием, а следствием сознательного намерения пользователя оптимизить свои траты. Это приводит к смещению выборки, где 'лечение' (наличие списка) коррелирует с ненаблюдаемыми характеристиками (организованность, размер семьи, регулярность потребления). Дополнительно вмешивается временная динамика: эффект от списков для скоропортящихся продуктов (еженедельное пополнение) отличается от эффекта для сезонных товаров (новогодние украшения), а ML-рекомендации могут вызывать каннибализацию спонтанных добавлений в корзину, искажая общий анализ выручки.

Подробное решение

Оптимальный подход — комбинация Difference-in-Differences (DiD) с Propensity Score Matching (PSM) и Fixed Effects для контроля сезонности. На первом этапе используем Causal Forest для оценки гетерогенности эффекта по категориям товаров, выявляя сегменты, где списки действительно увеличивают частоту, а не просто фиксируют существующее поведение. Для изоляции причинно-следственной связи применяем Regression Discontinuity Design (RDD) по порогу количества предыдущих заказов, где функция 'Сохранённые списки' становится доступна (например, после третьего заказа), создавая квазиэкспериментальные условия локальной рандомизации. Альтернативно, при постепенном внедрении по регионам, используем Synthetic Control Method, конструируя взвешенную комбинацию контрольных регионов, имитирующих динамику тестового региона до внедрения. Для учёта каннибализации анализируем не только метрики списковых пользователей, но и Diversion Ratio — долю заказов, перетекающих из спонтанных сессий в плановые через списки.

Ситуация из жизни

Контекст: Гипермаркет 'ЕдаВсегда' запускал функцию 'Умный Холодильник' — автоматические списки пополнения на основе ИИ-анализа истории покупок и сроков годности. Целью было повысить частоту заказов на 20% за счёт снижения трения при повторных покупках бытовых товаров и продуктов.

Вариант решения 1: Прямое сравнение пользователей со списками и без (Before-After)

Команда аналитики предложила сравнить средний чек и частоту заказов у 10 000 пользователей, создавших списки в первую неделю, с контрольной группой случайных пользователей без списков. Плюсы этого подхода — максимальная простота реализации и скорость получения результатов. Минусы — катастрофическое смещение выборки: создатели списков оказались семьями с детьми, заказывающими еженедельно, тогда как контрольная группа включала случайных посетителей с разовыми заказами. Наблюдаемый прирост в 35% оказался артефактом самоотбора, а не эффектом функции.

Вариант решения 2: Принудительное A/B-тестирование с видимостью кнопки

Продуктовая команда предложила показывать 50% пользователей кнопку 'Создать список' ярко-зелёной, а другим 50% — серой и скрытой в меню, создавая разницу в проникновении. Плюсы — возможность оценить чистый эффект доступности функции. Минусы — этические и UX-риски: скрытие полезной функции у лояльных пользователей снижало их опыт взаимодействия, а низкая конверсия в создание списка (2% vs 15% в тесте) приводила к недостаточной мощности статистических тестов и невозможности оценить долгосрочный эффект привыкания.

Вариант решения 3: Regression Discontinuity Design по порогу активности (Выбранное решение)

Аналитики выбрали метод разрывной регрессии, используя порог в 3 заказа за 60 дней: пользователи, достигшие этого порога, автоматически получали доступ к 'Умному Холодильнику' с ML-рекомендациями, тогда как пользователи с 2 заказами — нет. Это создало квазиэкспериментальные условия локальной рандомизации вблизи порога. Плюсы — минимизация смещения самоотбора в узкой полосе вокруг cutoff (пользователи с 2 и 3 заказами статистически неотличимы по наблюдаемым характеристикам). Минусы — ограниченная генерализуемость результатов только на 'граничных' пользователей, а не на всю базу; необходимость проверки непрерывности распределения ковариатов вокруг порога.

Итоговый результат: Анализ показал истинный прирост частоты заказов на 12% (вместо кажущихся 35%) и рост среднего чека на 8% только для категории 'Бытовая химия и бумажные изделия'. Для скоропортящихся продуктов эффект был статистически незначим из-за физических ограничений сроков годности. Было выявлено, что 30% роста выручки составляла каннибализация спонтанных покупок, перетекших в плановые. На основе данных компания скорректировала ML-модель, исключив из рекомендаций импульсивные категории (сладости, чипсы), что сохранило общий рост выручки, но повысило удовлетворённость пользователей, так как 'Умный Холодильник' перестал 'подсказывать' вредные привычки.

Что кандидаты часто упускают

Почему нельзя просто сравнить метрики пользователей со списками и без них через обычный t-test или линейную регрессию?

Ответ заключается в фундаментальной проблеме эндогенности и смещения самоотбора. Пользователи, которые тратят время на создание структурированных списков, систематически отличаются от случайных посетителей по ненаблюдаемым характеристикам: у них выше планируемое потребление, больше размер семьи, выше предсказуемость жизненного расписания. OLS-регрессия, даже с контролем за демографией, не способна уловить 'культуру планирования' как латентную переменную. Это приводит к переоценке эффекта функции, так как высокие метрики объясняются не самими списками, а изначальной высокой вовлечённостью пользователей. Для корректной оценки необходимо использовать инструментальные переменные (IV), квазиэкспериментальные дизайны (RDD, DiD) или методы двойной разности с сопоставлением (PSM-DiD), которые изолируют вариацию, не зависящую от индивидуальных предпочтений.

Как отделить эффект 'планирующего' типа пользователя от истинного эффекта функции списков при анализе интенсивного и экстенсивного полей воздействия?

Необходимо разделять intensive margin (увеличение частоты среди тех, кто уже и так планировал покупки) и extensive margin (привлечение импульсивных покупателей к планированию). Для этого применяется Causal Forest или Heterogeneous Treatment Effects анализ, позволяющий оценить эффект по подгруппам. Ключевой инсайт — использование порядковой логистической регрессии с фиктивными переменными для количества созданных списков. Если функция работает, мы увидим значимый прирост метрик при переходе от 0 к 1 списку (экстенсивная margin), но незначительные изменения при переходе от 5 к 6 спискам (интенсивная margin, где доминирует самоотбор). Также важно анализировать time-to-event (время до следующего заказа) через Cox Proportional Hazards Model, контролируя за базовым риском оттока, что позволяет отделить 'естественную' регулярность от 'искусственной' подсказки системы.

Как корректно учесть каннибализацию между planned purchases через списки и spontaneous add-to-cart, когда списки могут просто перетягивать выручку из одного канала в другой без роста общего GMV?

Кандидаты часто игнорируют необходимость анализа diversion ratio и композиции корзины. Необходимо строить triple-difference модель (DiD с дополнительным измерением), сравнивая изменения в структуре корзины у пользователей со списками до и после внедрения, относительно контрольной группы. Важно отслеживать метрику 'share of wallet' — долю категорий, традиционно покупаемых спонтанно (сладости, снеки), в общем чеке. Если доля импульсных категорий падает у пользователей со списками, но растёт у контроля, это сигнал каннибализации. Для количественной оценки используется Almost Ideal Demand System (AIDS) или Rotterdam Model, оценивающие эластичность замещения между каналами покупок. Без этого анализа компания может ошибочно инвестировать в развитие функции списков, получая нулевой инкрементальный эффект на уровне бизнеса, несмотря на рост метрик у сегмента 'списковых' пользователей.