Ответ на вопрос

Эволюция e-commerce от текстового поиска к мультимодальному интерфейсу началась с появления Convolutional Neural Networks (CNN) в мобильных приложениях в mid-2010s. Классические подходы к A/B-тестированию здесь сталкиваются с аппаратной фрагментацией: один и тот же алгоритм визуального поиска демонстрирует разную точность на flagship-устройствах и бюджетных смартфонах.

Ранние исследования показали, что пользователи с low-end устройствами имеют систематически отличные паттерны просмотра, что создаёт угрозу violation assumption о независимости ошибки от ковариат в стандартных эконометрических моделях. Это делает простое сравнение групп через t-test или базовую регрессиюmethodologically invalid.

Фундаментальная эндогенность возникает из-за self-selection на уровне adoption: технически подкованные пользователи (early adopters) одновременно склонны попробовать новую фичу и имеют высокую базовую конверсию. Дополнительно наблюдается структурная каннибализация: визуальный поиск "отнимает" запросы у текстового поиска, но при этом трансформирует низкоинформативные текстовые запросы в высокоинформативные визуальные эмбеддинги.

Техническая гетерогенность качества камеры вводит дополнительный слой measurement error, коррелирующий с SES-профилем пользователя. Стандартные методы контроля за selection bias, такие как Propensity Score Matching, здесь недостаточны из-за наличия unobserved heterogeneity в визуальной грамотности пользователей.

Оптимальная стратегия — Two-Stage Least Squares (2SLS) с использованием аппаратных возможностей камеры (наличие Telephoto Lens, поддержка Night Mode) как инструментальной переменной (IV). Эксклюзионное ограничение выполняется при условии, что спецификации камеры влияют на конверсию только через возможность использования визуального поиска, а не через коррелированные с доходом характеристики.

Проверка валидности инструмента осуществляется через Overidentification Test с использованием exogenous variation в партиях камер. Для каннибализации применяется Principal Stratification: разбиение пользователей на страты по модели latent class, где классы определяются вероятностью переключения с текстового поиска.

Heterogeneous Treatment Effects оцениваются через Causal Forests с кластеризацией на уровне device-type для учёта корреляции ошибок внутри hardware-классов. Дополнительно контролируются метаданные съёмки (EXIF-данные об exposure) для изоляции эффекта именно от распознавания, а не от внешних условий.

Ситуация из жизни

Команда маркетплейса «FashionHub» запустила визуальный поиск на 20% трафика, наблюдая рост конверсии на 18% среди adopters. Однако аудит выявил, что 70% пользователей с iPhone 12+ (высококачественная камера) попали в тестовую группу, в то время как Android-бюджетный сегмент остался в контроле, создавая hardware-based confounding. Ключевая метрика — среднее количество просмотренных карточек товара перед покупкой — росла непропорционально в сегменте premium-устройств.

Грубое сравнение adopters vs non-adopters дало бы оценку +18% к конверсии, но несло бы смещение выживания. Пользователи, сделавшие фото товара, уже демонстрировали высокий purchase intent и терпимость к friction в UX. Плюс подхода — простота интерпретации и скорость получения результата. Минус — невозможность отделить causal effect фичи от self-selection технически грамотных аудиторий с высокой baseline-конверсией.

Географический rollout с Difference-in-Differences предполагал запуск сначала в Москве (высокая проникающая способность смартфонов премиум-класса), затем в регионах через месяц. Плюс — возможность учёта временных трендов и сезонности моды. Минус — регионы различались по disposable income и fashion-ценностям, что нарушало parallel trends assumption; московская аудитория имела systematically different elasticity к novelty в digital-фичах.

Instrumental Variables с Propensity Score Matching использовал техническую невозможность запустить визуальный поиск на устройствах без Auto-Focus и OIS (Optical Image Stabilization) как естественный эксперимент. Пользователи с совместимыми устройствами сопоставлялись с похожими по демографии и истории текстового поиска, но с неподдерживаемыми устройствами. Плюс — экзогенность инструмента (hardware предшествует решению о покупке). Минус — требование relevance проверялось через first-stage F-statistic (составил 45, >10 порог), а exclusion restriction требовали убеждённости, что камера влияет на покупку только через поиск.

Было выбрано IV-решение с дополнительным контролем за lighting conditions через API определения времени суток и анализ EXIF-метаданных фото (ISO, exposure time). Итоговый результат: истинный Local Average Treatment Effect (LATE) составил +4.2% к конверсии (всё остальное — selection bias), при этом эффект был сосредоточен в категории «обувь» (где цветовое соответствие критично), и отсутствовал в «аксессуарах» (гее доминирует бренд over визуальные характеристики).

Что кандидаты часто упускают

Почему нельзя просто сделать A/B-тест на уровне пользователя, если инфраструктура позволяет?

Кандидаты игнорируют network effects в обучении Visual Embeddings Model: когда пользователи делают фото, эти данные попадают в обучающую выборку Siamese Network, улучшая качество поиска для всех пользователей, включая контрольную группу (spillover effects). Кроме того, SUTVA (Stable Unit Treatment Value Assumption) нарушается через ranking contamination: если визуальный поиск поднимает релевантные товары в общей ленте рекомендаций, это влияет на поведение контрольной группы.

Решение — Cluster Randomization на уровне device-type или использование Exposure Mapping с корректировкой на интенсивность использования фичи в кластере через Inverse Probability Weighting.

Как отделить каннибализацию текстового поиска от создания нового спроса, когда intent нелатентен?

Стандартный подход сравнения total queries игнорирует quality-adjusted volume. Нужно применить Principal Stratification Framework: определить четыре страты (Compliers, Never-takers, Always-takers, Defiers) на основе потенциальных исходов использования текстового поиска при наличии/отсутствии визуального.

Затем оценить Complier Average Causal Effect (CACE) для тех, кто переключился бы с текстового на визуальный only if available. Дополнительно использовать Embedding Space Distance между текстовыми запросами пользователя и категориями товаров: если визуальный поиск сокращает semantic distance между query и purchase, это инкрементальный эффект, а не substitution.

В чём опасность conditioning на количество успешных распознаваний при анализе retention?

Это классическая Collider Bias (M-структура): условие на «успешность распознавания» (которое зависит как от качества камеры, так и от сложности запроса) открывает спуриальные пути между hardware и retention. Кандидаты часто фильтруют «failed uploads», создавая selection on dependent variable.

Правильный подход — Heckman Two-Step Correction или Tobit Model для zero-inflated outcomes, где моделируется jointly decision to use feature и outcome conditional on usage, учитывая Inverse Mills Ratio из первого уравнения probit-модели с predictorsами (освещённость, время суток, категория товара).