Ответ на вопрос

Исторически сервисы доставки еды эволюционировали от модели «доставка в течение 60 минут» к гиперлокальной логистике с точными часовыми слотами. Этот переход создаёт методологическую проблему: рестораны с изначально высокой операционной эффективностью (короткое время приготовления, близость к районам высокой плотности заказов) самоотбираются в первые волны внедрения, в то время как проблемные точки подключаются позже или никогда. Прямое сравнение конверсии до и после внедрения приводит к завышенной оценке эффекта, так как игнорирует систематические различия между early-adopters и laggards.

Проблема усугубляется географической кластеризацией: рестораны в центре города, где спрос высок и стабилен, чаще получают доступ к функции раньше, чем периферийные точки с волатильным спросом. Сезонные колебания (например, новогодние праздники или летний спад) дополнительно искажают наблюдаемые тренды, делая невозможным использование простой межгрупповой разности средних.

Для изоляции истинного эффекта необходимо применить комбинацию Difference-in-Differences (DiD) с фиксированными эффектами ресторана и времени, дополненную Propensity Score Matching (PSM) для устранения смещения самоотбора. На первом этапе строится модель вероятности подключения к системе точных слотов на основе ковариат (историческое время доставки, рейтинг, плотность курьеров в радиусе), после чего каждому обработанному ресторану сопоставляется контрольный «близнец» из числа ещё не подключившихся. Затем оценивается двойная разность в динамике конверсии между этими парами, что позволяет контролировать не наблюдаемые постоянные характеристики (например, качество кухни). Для учёта пространственной корреляции применяется кластеризация стандартных ошибок на уровне географических ячеек или используется Synthetic Control Method, создающий взвешенную комбинацию неподключённых ресторанов, имитирующую контрфактический сценарий для treated-единиц.

Ситуация из жизни

В крупнейшем федеральном агрегаторе доставки планировалось внедрение функции «Доставка в выбранный 15-минутный интервал» для премиальных ресторанов. Пилот запустился в трёх городах, где первыми подключились 15% партнёров с исторически низким временем готовки и высокими рейтингами. Через месяц аналитики зафиксировали рост конверсии на 22% у подключённых ресторанов, но бизнес-сомневался, является ли это эффектом функции или просто отражением изначально высокого качества этих точек.

Было рассмотрено три подхода к оценке. Первый вариант — простое сравнение средних чеков и конверсии до и после подключения — отвергли сразу: он игнорировал трендовый рост рынка и сезонное оживление спроса в праздники, что давало завышенную оценку в +22%, но при этом не учитывало, что эти рестораны и без новой функции росли быстрее рынка на 8-10%.

Второй вариант — когортный анализ сравнения пользователей, видевших точное время доставки, с теми, кто видел стандартное «40-50 минут» — тоже оказался проблемным: пользователи в районах с премиальными ресторанами имели более высокий средний чек и лояльность изначально, создавая смещение выбора (selection bias). Попытка обрезать выборку по географии привела бы к потере 40% данных и снижению мощности теста.

Третий вариант, который и был выбран, включал построение Synthetic Control для каждого подключённого ресторана на основе 50 неподключённых «доноров» с похожей историей продаж, географией и сезонностью. Методология DiD применялась к этим взвешенным синтетическим группам с дополнительным контролем за погодными условиями (которые влияли на спрос на доставку) и днями недели. Это позволило изолировать чистый эффект в +9.3% по конверсии и +14% по частоте повторных заказов, при этом выявив гетерогенность: эффект был значим только для ресторанов с временем готовки менее 12 минут, тогда как для медленных кухонь точное окно доставки не давало статистически значимого прироста, так как узким местом оставалась не логистика, а производство.

Что кандидаты часто упускают

Как проверить выполнение предположения параллельных трендов (parallel trends) в DiD, когда ранние адаптеры систематически отличаются от контрольной группы?

Кандидаты часто заявляют о применении DiD без проверки ключевого предположения: до внедрения тренды метрик в treatment и control группах должны быть параллельны. В условиях самоотбора это предположение обычно нарушено. Необходимо проводить event study (динамическую DiD) с индикаторами ведущих периодов (lead indicators) за несколько недель до внедрения. Если коэффициенты при этих индикаторах статистически значимы и отличны от нуля, тренды не параллельны, и требуется применение Augmented DiD или добавление трендовых взаимодействий (interactions with time trends) для контроля за дифференциальными трендами. Также можно использовать Change-in-Changes модель, которая менее чувствительна к нарушению параллелизма, но требует монотонности распределения исходов.

Как учесть пространственные спилловер-эффекты (spillover effects), когда внедрение точной доставки в одном районе влияет на поведение пользователей в соседних районах без функции?

Часто аналитики игнорируют, что пользователи могут мигрировать между районами или изменять свои предпочтения, узнав о существовании функции у друзей. Это создаёт положительное смещение в контрольной группе (SUTVA violation). Для диагностики необходимо строить Spatial DiD, включая в модель пространственные лаги (spatial lags) концентрации подключённых ресторанов в радиусе 1-2 км от каждой точки. Если коэффициент при пространственном лаге значим, существуют сетевые эффекты. В таком случае классическая оценка DiD даёт заниженную оценку эффекта (attenuation bias), и требуется использование Two-Stage Least Squares (2SLS) с инструментами на уровне административных ограничений (например, техническая готовность конкретного склада к сортировке по временным слотам), которые влияют на подключение ресторана, но не коррелируют со спросом в соседних районах напрямую.

Почему нельзя использовать простое Propensity Score Matching без последующего DiD, и какие ошибки возникают при оценке долгосрочного эффекта (dynamic treatment effects)?

Начинающие специалисты часто применяют PSM как самостоятельный метод, получая сопоставимые группы на момент t0, но затем сравнивают их простыми средними в t1. Это игнорирует временную структуру данных и возможные временные шоки. Правильный подход — PSM-DiD, где matching используется только для выбора контрольной группы, а сама оценка эффекта происходит через разность разностей. Кроме того, кандидаты упускают проблему динамических эффектов: эффект точной доставки может нарастать со временем (пользователи привыкают к функции) или, наоборот, исчезать (эффект новизны). Для этого необходимо строить staggered DiD с множественными периодами внедрения и использовать современные корректировки для устранения смещения, возникающего при гетерогенных эффектах во времени (например, метод Callaway & Sant'Anna или Sun & Abraham для корректной агрегации когортных эффектов), так как стандартный двухпериодный DiD в таком случае даёт смещённую оценку среднего эффекта на обработанных (ATT).