Исторический контекст: концепция социального доказательства (social proof) восходит к работам Роберта Чалдини 1980-х годов, но в digital-продуктах массовое внедрение real-time нотификаций началось с 2015 года вместе с развитием WebSocket-соединений и Kafka-подобных стриминговых платформ. Классические методы A/B-тестирования здесь часто дают смещенные оценки из-за сетевых эффектов (SUTVA violation), когда результат одного пользователя зависит от наличия других онлайн. Ранние попытки оценки сводились к простому сравнению сессий с видимым виджетом и без, что приводило к серьезной эндогенности выборки.
Проблема: при оценке эффекта необходимо разделить истинное влияние интервенции от эндогенной переменной плотности аудитории. Если просто сравнить сессии с уведомлениями и без, мы получим смещение выбора (selection bias): в час пик и так конверсия выше, и в этот момент система генерирует больше уведомлений. Дополнительно миграция пользователей между мобильным приложением и десктопом создает контаминацию, размывая границу между treatment и control.
Решение: оптимальный подход — разностно-разностная оценка (Difference-in-Differences, DiD) с двусторонними фиксированными эффектами (two-way fixed effects) по временным зонам и товарным категориям, дополненная инструментальной переменной (IV-approach) для плотности аудитории. В качестве инструмента используется экзогенный шок погодных условий или региональные интернет-аутыжи, влияющие на онлайн-активность, но не связанные напрямую с конверсией. Альтернативно применяется Synthetic Control Method, где контрольная группа конструируется из похожих товаров/регионов без внедрения функции, взвешенных по предыстории конверсии и сезонности.
В маркетплейсе электроники планировалось внедрение виджета "Сейчас этот товар смотрят 15 человек" с реальными данными из ClickHouse-стриминга. Проблема заключалась в том, что продуктовая команда фиксировала рост конверсии на 18% в пиковые часы, но не могла отделить эффект уведомлений от естественно высокого спроса вечером. Дополнительно наблюдался эффект "пустой комнаты": в ночные часы виджет показывал нули или устаревшие данные, что потенциально могло снижать доверие.
Первый рассмотренный вариант — классический A/B-тест с географической сегментацией. Плюсы: простота реализации и чистая интерпретация. Минусы: сетевые эффекты размываются, так как пользователи из разных городов видят разный ассортимент и базовую конверсию; кроме того, при низкой плотности аудитории в малых городах виджет показывал "Сейчас смотрят 0 человек", что создавало negative social proof и снижало доверие.
Второй вариант — прерывание регрессии (Regression Discontinuity Design, RDD) по времени запуска функции в конкретном регионе. Плюсы: четкая каузальная идентификация в момент cutoff и возможность визуальной проверки на графике. Минусы: невозможно отделить эффект новизны (novelty effect) от постоянного эффекта; кроме того, постепенный rollout по часовым поясам создавал размытую границу treatment, что нарушает ключевое предположение RDD о резком изменении вероятности treatment.
Третий вариант — квазиэксперимент с использованием товаров без реального времени как контрольной группы (DiD). Плюсы: учет сезонных трендов через фиксированные эффекты; возможность оценить гетерогенность эффекта по уровню базового трафика. Минусы: требуется предположение о параллельных трендах (parallel trends assumption), которое проверялось через Event Study спецификацию с leads и lags.
Было выбрано решение с DiD и инструментальной переменной на основе погодных данных: дождливые дни в регионах неожиданно повышали онлайн-активность (удовлетворяя relevance инструмента), но не влияли напрямую на желание купить телефон (exclusion restriction). Анализ показал, что истинный эффект виджета составляет +9% конверсии только при плотности >30 онлайн-пользователей на SKU; при меньшей плотности эффект отрицательный (-4%) из-за демонстрации "пустых" или устаревших данных.
На основе этих результатов был внедрен адаптивный алгоритм, отключающий social proof при низком трафике. Результатом стала оптимизация правил отображения: система перешла от постоянного показа к условному, что повысило среднюю конверсию на 7% по платформе и снизило отток от сегмента "ночных" пользователей на 12%. Экономия на инфраструктурных мощностях составила 15% за счет отключения обработки стримов для неактивных товаров.
Как разделить эффект механизма (intensive margin) от общего эффекта присутствия функции (extensive margin)?
Кандидаты часто путают reduced form оценку (просто наличие системы) с оценкой механизма (как изменение плотности внутри treatment влияет на результат). Корректный подход — двухступенчатая оценка (Two-Stage Least Squares, 2SLS), где на первом этаче предсказывается фактическая частота показа уведомлений инструментом (погодой), а на втором — конверсия от предсказанной частоты. Это позволяет отделить чистый эффект уведомления от эффекта "толпы" (herding behavior), который имеет обратную причинность: высокая конверсия привлекает больше просмотров, создавая больше уведомлений.
Почему важна коррекция на множественное тестирование при анализе гетерогенности по сегментам плотности и времени суток?
Аналитики часто ищут оптимальный порог включения функции, тестируя эффект на 10, 20, 50 пользователях, и выбирают порог с максимальным uplift'ом. Это приводит к проблеме data mining и inflated Type I error. Необходимо применять коррекцию Bonferroni или Benjamini-Hochberg procedure для family-wise error rate, либо использовать pre-analysis plan с фиксацией гипотез до анализа. Иначе "оптимальный" порог окажется просто случайным выбросом в данных.
Как учесть negative spillover на контрольную группу через общий inventory и ограниченность бюджета пользователя?
При социальном доказательстве в marketplace существует эффект перетягивания спроса: если виджет ускоряет покупку в treatment-группе товаров, это может снижать конверсию в control-группе из-за исчерпания бюджета или отвлечения внимания. Кандидаты игнорируют General Equilibrium Effects. Для корректировки требуется оценка с агрегированными данными на уровне сессии пользователя (aggregate treatment effects) или использование моделей с балансировкой рынка (market equilibrium models), учитывающих ограниченность внимания пользователя.