Ответ на вопрос

Исторической контекст: Функция разделения счёта (split payment) традиционно доминировала в вертикалях travel и B2B-сервисах, но её массовое внедрение в классическом e-commerce (electronics, fashion) началось относительно недавно с ростом мобильных платежей. Ключевая аналитическая сложность заключается в том, что пользователи самоотбираются в социальные кластеры (молодёжные группы, семьи), где решение о покупке принимается коллективно, что создаёт interference между тестовой и контрольной группами и делает стандартное A/B-тестирование невалидным.

Постановка проблемы: Требуется изолировать чистый casual effect от split payment на метрики юнит-экономики, отделив его от (1) сезонных колебаний спроса на дорогие товары, (2) естественной тенденции к росту среднего чека в молодых когортах, (3) эндогенности социальных связей (богатые друзья приглашают богатых друзей), и (4) постепенного rollout'а по категориям, который искажает временные срезы.

Подробное решение: Оптимальный подход — комбинация Difference-in-Differences (DiD) с кластерной рандомизацией на уровне «социального графа» (не юзера), дополненная Fuzzy Regression Discontinuity Design (RDD) по пороговой цене активации функции (например, 30 000 ₽). Для корректировки на эндогенность социальных связей применяется IV (Instrumental Variables) подход, где инструментом служит порядковый номер категории в плане rollout'а (exogenous variation), предшествующий фактическому использованию функции. Для оценки гетерогенности эффекта по сегментам используется Causal Forest, позволяющий выделить условные средние эффекты (CATE) для разных кластеров пользователей. Метрики оцениваются в двух режимах: Intent-to-Treat (ITT) — эффект от наличия кнопки, и Treatment-on-the-Treated (TOT) — эффект от фактического использования, что требует корректной обработки non-compliance через Two-Stage Least Squares (2SLS).

Ситуация из жизни

Контекст: Крупный маркетплейс электроники запускает функцию «Поделиться корзиной» для покупок дороже 50 000 ₽, позволяя двум пользователям разделить платёж поровну. Пилот запущен в категории «Смартфоны», планируется расширение на «Ноутбуки». После первого месяца коммерция фиксирует рост среднего чека на 25% в тестовой категории, но аналитик подозревает, что 70% пользователей функции — студенты 18-22 лет, которые historically имели низкий ARPU, но в пилоте стали покупать iPhone совместно, создавая эффект «скупления в складчину».

Вариант решения 1: Простое сравнение Before/After (t-test на средних). Плюсы: Мгновенная реализация, не требует сложной инфраструктуры. Минусы: Полностью игнорирует сезонность (старты учебного года повышают спрос на гаджеты), общие тренды роста мобильной коммерции и самоотбор высокочековых заказов к порогу в 50 000 ₽. Результат смещён вверх на 15-18 процентных пунктов.

Вариант решения 2: Difference-in-Differences с категорией «Аксессуары» как контролем. Плюсы: Устраняет общие временные тренды, простая интерпретация. Минусы: Нарушение assumption о parallel trends — категория смартфонов имеет иную эластичность спроса и другую динамику цен, чем аксессуары. Кроме того, существует spillover effect: пользователи могут купить смартфон в складчину, но чехол — уже без split payment в контрольной категории, что загрязняет контрольную группу.

Вариант решения 3: Regression Discontinuity Design (RDD) строго по порогу 50 000 ₽. Плюсы: Использует exogenous threshold для квази-эксперимента, оценивает локальный эффект (LATE) для заказов у порога. Минусы: Не масштабируется на весь диапазон цен, игнорирует заказы на 80 000 ₽ (там эффект может отличаться). Кроме того, fuzzy характеристика — пользователи могут манипулировать ценой (докинуть аксессуар), чтобы попасть под условие.

Выбранное решение и обоснование: Реализован гибридный подход: Fuzzy RDD для заказов в диапазоне 45 000–55 000 ₽ (чистая идентификация у порога) + DiD для общего тренда с использованием Synthetic Control Method (SCM) — созданием взвешенного искусственного контроля из других категорий, повторяющего динамику смартфонов до внедрения. Для социальных эффектов применена кластеризация по device ID (идентификация устройств, используемых группой людей) как прокси для социальных связей.

Итоговый результат: Истинный инкрементальный эффект составил +8,4% к среднему чеку (вместо наблюдаемых +25%), при этом конверсия в сегменте 18-25 лет выросла на 12%, но частота покупок снизилась на 5% в следующем квартале (эффект «откладывания» покупок до момента сбора компании). Функция была раскатана только в категориях с чеком 40 000–70 000 ₽, где эффект статистически значим.

Что кандидаты часто упускают

1. Проблема interference (загрязнение) через социальные графы: пользователь из контрольной группы может быть приглашён другом из тестовой группы для совместной покупки.

Ответ: В классическом A/B-тесте предполагается Stable Unit Treatment Value Assumption (SUTVA) — независимость юнитов. В случае split payment она нарушается, так как treatment (наличие кнопки) одного пользователя влияет на поведение другого (приглашение). Корректное решение — кластерная рандомизация (cluster randomization) на уровне социальных компонент (графов дружбы), либо анализ сетевых эффектов через exposure mapping, где exposure определяется как доля друзей с доступом к функции. Альтернативно — использование bipartite graph clustering для разделения графа на изолированные кластеры до эксперимента.

2. Различие между ITT (Intent-to-Treat) и TOT (Treatment-on-the-Treated) эффектами в условиях низкого penetration'а функции.

Ответ: Многие аналитики ошибочно оценивают эффект для всех, кто видел кнопку (ITT), как эффект для тех, кто ей воспользовался (TOT). Если только 10% видящих кнопку нажимают «Разделить», то ITT занижает истинный эффект в 10 раз. Для оценки TOT необходим IV-approach, где инструмент $Z$ — факт отображения кнопки (randomized), а эндогенная переменная $D$ — факт использования. Оценка 2SLS даст Local Average Treatment Effect (LATE) для compliers — тех, кто воспользовался бы функцией, только если она доступна. Это критично для бизнес-кейса: эффект для «склонных к складчине» в 3-4 раза выше, чем средний эффект.

3. Долгосровая каннибализация и forward-looking bias: split payment может не создавать новый спрос, а только перераспределять будущие индивидуальные покупки на коллективную текущую.

Ответ: Кандидаты часто смотрят только на immediate transaction metrics. Необходим cohort analysis с горизонтом 90+ дней, сравнивающий частоту покупок (purchase frequency) пользователей, воспользовавшихся split payment, против matched-контроля. Это требует построения propensity score matching (PSM) на основе pre-treatment характеристик (история чеков, сезонность). Дополнительно важно проверить compositional shift — не сместился ли ассортимент в сторону товаров с высокой маржинальностью, но низкой повторяемостью покупки (например, консоли вместо игр), что создаёт иллюзию роста чека при снижении LTV.