Ответ на вопрос

Исторически подходы к оценке AR-функций в продуктовой аналитике опирались на корреляционный анализ или простое сравнение средних между пользователями с поддержкой технологии и без неё. Этот методологический фреймворк доминировал до 2018 года, когда исследователи ритейла не учитывали систематические различия в сегментации аудитории по ценовым категориям устройств. Владельцы флагманских смартфонов с ARKit или ARCore статистически значимо отличаются по уровню дохода, технологической адаптивности и склонности к импульсным покупкам высокомаржинальных товаров.

Таким образом, прямое сравнение создаёт смещение самоотбора до 40%, делая невозможным отделение эффекта функции от предсуществующих различий между группами. Классическое A/B-тестирование также невозможно, так как принудительное включение AR на несовместимых устройствах приводит к техническим сбоям, крашам приложения и искажённому пользовательскому опыту, что нарушает фундаментальный принцип SUTVA (Stable Unit Treatment Value Assumption) и создаёт эффект отрицательной реакции на обращение.

Оптимальное решение требует применения Regression Discontinuity Design (RDD) вокруг порога технических характеристик устройства, например, сравнения пользователей iPhone X и iPhone 8+, которые имеют схожую ценовую доступность на вторичном рынке и демографические характеристики, но различаются критически по наличию TrueDepth камеры, необходимой для AR. Для учёта поэтапного внедрения по категориям товаров дополняем Difference-in-Differences (DiD) с фиксированными эффектами категория-время (Two-Way Fixed Effects), контролируя за сезонностью и ассортиментными различиями. Наконец, применяем Propensity Score Matching (PSM) по ценовому сегменту устройства и истории покупок для корректировки остаточной гетерогенности внутри локальной зоны RDD, что позволяет экстраполировать локальный средний эффект (LATE) на генеральную совокупность с помощью Inverse Probability Weighting.

Ситуация из жизни

В крупном fashion-маркетплейсе осенью 2023 года запускали AR-примерку солнцезащитных очков с использованием технологии отслеживания лица. Функция работала исключительно на iPhone X+ и флагманских Android с Google ARCore, автоматически отсекая 60% аудитории с бюджетными устройствами. Предварительный аналитический отчёт показывал, что пользователи с доступом к AR конвертируются в покупку в 3.5 раза чаще и возвращают товар на 30% реже, но команда подозревала сильное смещение выживания: владельцы дорогих телефонов исторически демонстрировали более высокий средний чек и лояльность независимо от новых функций.

Первый рассмотренный вариант — прямое сравнение средних с помощью t-test или Mann-Whitney U test между группами AR-доступности без каких-либо корректировок. Плюсы этого подхода включали мгновенную калькуляцию, минимальные требования к данным и интуитивную понятность результата для бизнес-стейкхолдеров. Минусы были критическими: катастрофическая эндогенность по доходу и технологической осведомлённости делала невозможным отделение эффекта функции от предсуществующих различий между сегментами пользователей.

Второй вариант — когортный анализ before-after для пользователей, которые обновили свои устройства с несовместимых на совместимые с AR в течение периода наблюдения. Плюсы заключались в контроле индивидуальной гетерогенности через внутрисубъектное сравнение, что устраняло смещение по неизмеримым характеристикам пользователя. Минусы включали сильное влияние эффекта новизны (novelty effect), сезонности (обновление телефонов пиками в декабре и сентябре коррелирует с разными паттернами покупок), а также самоотбор по времени обновления (мотивированные пользователи меняют телефоны чаще).

Третий вариант — применение Regression Discontinuity Design вокруг порога модели iPhone X (чип A11 Bionic), сравнивая пользователей iPhone 8+ и iPhone X, которые статистически неотличимы по социально-демографическим характеристикам и ценовой категории на вторичном рынке, но различаются только наличием TrueDepth камеры. Плюсы этого метода включали создание квазислучайного распределения в локальной зоне вокруг порога, что обеспечивало валидную причинно-следственную оценку (LATE) без необходимости рандомизации. Минусы состояли в ограниченной внешней валидности — результаты применимы только к «маргинальным» пользователям, колеблющимся между покупкой старого и нового флагмана, а также в необходимости проверки предположения о непрерывности ковариат (continuity assumption) и отсутствии точечной манипуляции (heap).

Было выбрано комбинированное решение: RDD для оценки чистого эффекта функции на маргинальных пользователях у порога устройства, интегрированное с Difference-in-Differences с staggered adoption для учёта постепенного rollout'а по категориям товаров (сначала премиум-бренды, затем масс-маркет). Для экстраполяции результатов с порога на всю популяцию применялось Inverse Probability Weighting (IPW) на основе распределения цен устройств и демографических характеристик. Итоговый результат показал, что истинный эффект составил +8% к конверсии и -12% к возвратам, тогда как наивный анализ без корректировок демонстрировал искажённые +35% и -28% соответственно, что критически изменило бизнес-решение о масштабировании функции и позволило избежать завышенных инвестиционных ожиданий.

Что кандидаты часто упускают

Как корректно обрабатывать сетевые эффекты (spillover effects), когда пользователи с AR делятся фотографиями виртуальной примерки в социальных сетях или мессенджерах, влияя на решения о покупке своих контактов, которые не имеют совместимых устройств и формально принадлежат к контрольной группе?

Кандидаты часто игнорируют нарушение SUTVA через социальный граф, предполагая изолированность групп. На практике, если друг видит примерку очков через Instagram Stories и совершает покупку, это загрязняет контрольную группу. Корректный подход — применение Two-Stage Least Squares (2SLS) с инструментальной переменной (дата релиза конкретной модели телефона в конкретном регионе), которая влияет только на наличие AR у «отправителя», но не на «получателя» напрямую. Альтернативно используется exposure mapping, где мы моделируем интенсивность социальных связей между пользователями и вводим в модель взаимодействие treatment × exposure, позволяя количественно оценить прямой эффект AR против косвенного эффекта вирусности.

Почему методология Intent-to-Treat (ITT) с последующим расчётом Local Average Treatment Effect (LATE) предпочтительнее попыток провести «форсированный» A/B-тест, принудительно включив AR-функцию для случайной половины аудитории, даже если это технически возможно через облачный рендеринг?

Этот вопрос проверяет понимание экспериментальной этики и комплаенс-ограничений. Принудительное включение AR через облачный рендеринг на несовместимых устройствах создаёт искусственный UX с высокой задержкой (latency) и низким разрешением, что приводит к катастрофическому опыту и массовому оттоку пользователей (churn), нарушая принцип «no harm». Это создаёт selection into non-compliance: пользователи быстро отключат функцию или удалят приложение, делая оценку эффекта невозможной и создавая смещение в комплаенсе. Правильный подход — encouragement design: вместо принудительного включения, мы случайным образом показываем баннер с предложением попробовать AR (только владельцам совместимых устройств), создавая ITT анализ, где тreatment — это предложение, а не фактическое использование. Затем через IV-регрессию (инструментальная переменная — рандомизация предложения) получаем LATE — эффект только для тех, кто действительно воспользовался функцией (compliers), что даёт консервативную, но причинно-следственно чистую оценку без риска технического саботажа продукта.

Как учитывать перекос в покрытии каталога (catalog coverage bias), когда AR-модели созданы только для 30% товаров, преимущественно из премиального сегмента, и это создаёт смещение в оценке среднего чека и LTV, если анализировать только доступные SKU?

Кандидаты забывают о проблеме generalizability и truncation bias, сравнивая премиум-сегмент (где AR доступен) с масс-маркетом (где его нет). Если не скорректировать выборку, мы ошибочно припишем высокий чек эффекту AR, тогда как на самом деле меряем разницу между ценовыми сегментами. Решение требует применения Inverse Probability Weighting (IPW) или Doubly Robust Estimation: сначала моделируем propensity score — вероятность наличия AR-модели для товара на основе его наблюдаемых характеристик (цена, бренд, категория, сезонность). Затем взвешиваем наблюдения обратно пропорционально этой вероятности, чтобы сделать выборку с AR репрезентативной для всего каталога. Дополнительно используем synthetic control methods для категорий без AR, создавая взвешенную линейную комбинацию категорий с AR, которая имитирует контрфактическое поведение отсутствующих категорий, позволяя оценить эффект на уровне всего бизнеса, а не только на подвыборке премиальных товаров.