Ответ на вопрос

Исторический контекст: концепция социального доказательства (social proof) восходит к работам Роберта Чалдини 1980-х годов, но в digital-продуктах массовое внедрение real-time нотификаций началось с 2015 года вместе с развитием WebSocket-соединений и Kafka-подобных стриминговых платформ. Классические методы A/B-тестирования здесь часто дают смещенные оценки из-за сетевых эффектов (SUTVA violation), когда результат одного пользователя зависит от наличия других онлайн. Ранние попытки оценки сводились к простому сравнению сессий с видимым виджетом и без, что приводило к серьезной эндогенности выборки.

Проблема: при оценке эффекта необходимо разделить истинное влияние интервенции от эндогенной переменной плотности аудитории. Если просто сравнить сессии с уведомлениями и без, мы получим смещение выбора (selection bias): в час пик и так конверсия выше, и в этот момент система генерирует больше уведомлений. Дополнительно миграция пользователей между мобильным приложением и десктопом создает контаминацию, размывая границу между treatment и control.

Решение: оптимальный подход — разностно-разностная оценка (Difference-in-Differences, DiD) с двусторонними фиксированными эффектами (two-way fixed effects) по временным зонам и товарным категориям, дополненная инструментальной переменной (IV-approach) для плотности аудитории. В качестве инструмента используется экзогенный шок погодных условий или региональные интернет-аутыжи, влияющие на онлайн-активность, но не связанные напрямую с конверсией. Альтернативно применяется Synthetic Control Method, где контрольная группа конструируется из похожих товаров/регионов без внедрения функции, взвешенных по предыстории конверсии и сезонности.

Ситуация из жизни

В маркетплейсе электроники планировалось внедрение виджета "Сейчас этот товар смотрят 15 человек" с реальными данными из ClickHouse-стриминга. Проблема заключалась в том, что продуктовая команда фиксировала рост конверсии на 18% в пиковые часы, но не могла отделить эффект уведомлений от естественно высокого спроса вечером. Дополнительно наблюдался эффект "пустой комнаты": в ночные часы виджет показывал нули или устаревшие данные, что потенциально могло снижать доверие.

Первый рассмотренный вариант — классический A/B-тест с географической сегментацией. Плюсы: простота реализации и чистая интерпретация. Минусы: сетевые эффекты размываются, так как пользователи из разных городов видят разный ассортимент и базовую конверсию; кроме того, при низкой плотности аудитории в малых городах виджет показывал "Сейчас смотрят 0 человек", что создавало negative social proof и снижало доверие.

Второй вариант — прерывание регрессии (Regression Discontinuity Design, RDD) по времени запуска функции в конкретном регионе. Плюсы: четкая каузальная идентификация в момент cutoff и возможность визуальной проверки на графике. Минусы: невозможно отделить эффект новизны (novelty effect) от постоянного эффекта; кроме того, постепенный rollout по часовым поясам создавал размытую границу treatment, что нарушает ключевое предположение RDD о резком изменении вероятности treatment.

Третий вариант — квазиэксперимент с использованием товаров без реального времени как контрольной группы (DiD). Плюсы: учет сезонных трендов через фиксированные эффекты; возможность оценить гетерогенность эффекта по уровню базового трафика. Минусы: требуется предположение о параллельных трендах (parallel trends assumption), которое проверялось через Event Study спецификацию с leads и lags.

Было выбрано решение с DiD и инструментальной переменной на основе погодных данных: дождливые дни в регионах неожиданно повышали онлайн-активность (удовлетворяя relevance инструмента), но не влияли напрямую на желание купить телефон (exclusion restriction). Анализ показал, что истинный эффект виджета составляет +9% конверсии только при плотности >30 онлайн-пользователей на SKU; при меньшей плотности эффект отрицательный (-4%) из-за демонстрации "пустых" или устаревших данных.

На основе этих результатов был внедрен адаптивный алгоритм, отключающий social proof при низком трафике. Результатом стала оптимизация правил отображения: система перешла от постоянного показа к условному, что повысило среднюю конверсию на 7% по платформе и снизило отток от сегмента "ночных" пользователей на 12%. Экономия на инфраструктурных мощностях составила 15% за счет отключения обработки стримов для неактивных товаров.

Что кандидаты часто упускают

Как разделить эффект механизма (intensive margin) от общего эффекта присутствия функции (extensive margin)?

Кандидаты часто путают reduced form оценку (просто наличие системы) с оценкой механизма (как изменение плотности внутри treatment влияет на результат). Корректный подход — двухступенчатая оценка (Two-Stage Least Squares, 2SLS), где на первом этаче предсказывается фактическая частота показа уведомлений инструментом (погодой), а на втором — конверсия от предсказанной частоты. Это позволяет отделить чистый эффект уведомления от эффекта "толпы" (herding behavior), который имеет обратную причинность: высокая конверсия привлекает больше просмотров, создавая больше уведомлений.

Почему важна коррекция на множественное тестирование при анализе гетерогенности по сегментам плотности и времени суток?

Аналитики часто ищут оптимальный порог включения функции, тестируя эффект на 10, 20, 50 пользователях, и выбирают порог с максимальным uplift'ом. Это приводит к проблеме data mining и inflated Type I error. Необходимо применять коррекцию Bonferroni или Benjamini-Hochberg procedure для family-wise error rate, либо использовать pre-analysis plan с фиксацией гипотез до анализа. Иначе "оптимальный" порог окажется просто случайным выбросом в данных.

Как учесть negative spillover на контрольную группу через общий inventory и ограниченность бюджета пользователя?

При социальном доказательстве в marketplace существует эффект перетягивания спроса: если виджет ускоряет покупку в treatment-группе товаров, это может снижать конверсию в control-группе из-за исчерпания бюджета или отвлечения внимания. Кандидаты игнорируют General Equilibrium Effects. Для корректировки требуется оценка с агрегированными данными на уровне сессии пользователя (aggregate treatment effects) или использование моделей с балансировкой рынка (market equilibrium models), учитывающих ограниченность внимания пользователя.