Ответ на вопрос

Для анализа влияния биометрической оплаты на конверсию необходимо провести A/B-тестирование с рандомизацией на уровне пользователя. Ключевые метрики: основная — конверсия в покупку (conversion rate), контрольные — средний чек, глубина воронки (initiate checkout → payment success), retention на 7-й день. Дополнительно требуется сегментация по устройствам (iOS/Android) и когортам новых/вернувшихся пользователей для выявления эффекта новизны.

Минимальный дизайн эксперимента: 50/50 сплит, длительность не менее 2 полных бизнес-циклов (14 дней), рассчитанная мощность теста (power) ≥ 80% и уровень значимости (alpha) = 5%. Дополнительно строится когортный анализ с использованием SQL для валидации стабильности эффекта во времени и Python (SciPy, Pandas) для статистической проверки гипотезы о равенстве пропорций.

Situation from life

Проблема:

Финтех-стартап планировал внедрить оплату через Apple Face ID в iOS-приложении. Продуктовая команда предполагала рост конверсии на 15%, но бизнес опасался временных затрат на разработку (2 спринта). Задача аналитика — обосновать или опровергнуть целесообразность фичи, исключив альтернативные объяснения роста метрик (сезонность, маркетинговые активности, обновление iOS).

Рассмотренные решения:

Первое решение — анализ «до и после» (pre-post analysis) за счёт сравнения конверсии за неделю до и после релиза. Плюсы: минимальные временные затраты, не требует изоляции пользователей. Минусы: невозможно отделить эффект фичи от внешних факторов (например, одновременного запуска рекламной кампании), высокий риск ложноположительных выводов.

Второе решение — квазиэксперимент с использованием метода Difference-in-Differences (DiD). Планировалось сравнить пользователей iOS (где появится Face ID) с пользователями Android (контрольная группа), учитывая тренды до внедрения. Плюсы: не требует технической реализации сплитования в приложении, работает с наблюдаемыми данными. Минусы: критичное предположение о параллельных трендах между платформами часто нарушается из-за разной аудитории iOS и Android, сложность интерпретации при наличии конфайндеров.

Третье решение (выбранное) — полноценное A/B-тестирование с помощью фиче-флагов (LaunchDarkly). 50% пользователей iOS получили доступ к Face ID (тестовая группа), 50% — оплату по старой схеме (контроль). Расчёт размера выборки проводился в R с использованием библиотеки pwr: при базовой конверсии 8%, ожидаемом MDE (Minimum Detectable Effect) 12%, power=0.8 и alpha=0.05 требовалось ≥ 12 000 пользователей на группу. Эксперимент длился 3 недели для покрытия разных дней недели.

Результат:

Конверсия в тестовой группе выросла на 11,3% (с 8,1% до 9,0%), p-value = 0.002 (двусторонний z-тест). Однако анализ когорт показал, что эффект статистически значим только для новых пользователей (+18%), тогда как для текущих база изменений не зафиксирована. В результате фичу решили раскатать на 100% аудитории, но маркетинговые материалы перенацелили на привлечение новых пользователей, что увеличило ROI проекта на 40% относительно первоначальной модели.

What candidates often miss

Как отличить эффект новизны (novelty effect) от устойчивого улучшения метрик?

Кандидаты часто завершают A/B-тест при достижении статзначимости, не проверяя устойчивость эффекта. Для выявления novelty effect необходимо построить кривые накопления метрики (cumulative metric curves) по дням и провести анализ гетерогенности: сравнить эффект в первые 3 дня с эффектом в последнюю неделю. Используйте когортный анализ в SQL: разбейте трафик по дням захода в эксперимент (cohort_date) и посмотрите, сохраняется ли uplift для «старых» когорт. Если эффект убывает со временем, это классический novelty effect — пользователи изначально пробуют фичу из любопытства, но не меняют долгосрочное поведение.

Чем отличается статистическая значимость (statistical significance) от практической значимости (practical significance) в продуктовой аналитике?

При больших выборках даже 0,5% прирост конверсии может быть статистически значим (p < 0,05), но бессмысленен для бизнеса, если стоимость поддержки фичи выше выручки от дополнительных покупок. Перед запуском эксперимента необходимо определить MDE (Minimum Detectable Effect) — минимальный размер эффекта, имеющий бизнес-ценность. Рассчитывается как (Expected Revenue per Conversion × Additional Conversions) — Cost of Feature. Если фактический uplift ниже MDE, даже при p-value = 0,01 фичу не следует раскатывать. Для расчёта используйте Python (statsmodels.stats.power) или онлайн-калькуляторы Evan Miller.

Как обрабатывать ситуацию, когда пользователь видит фичу, но не может ей воспользоваться (network effect или технический сбой в одной из групп)?

Это проблема contamination или spillover effect. Классический пример: в тестовой группе включили оплату криптовалютой, но сервис-провайдер был недоступен 30% времени. «Намеренное лечение» (intent-to-treat, ITT) анализ оценивает эффект на всех, кому показали кнопку, независимо от факта использования. Для чистоты оценки применяйте метод CACE (Complier Average Causal Effect) или ** instrumental variables** (инструментальные переменные), где «присваивание в группу» служит инструментом для фактического использования фичи. В SQL это реализуется через двухступенчатую регрессию или через JOIN с логами фактических операций, исключая пользователей с ошибками сервера из анализа эффективности, но сохраняя их в исходной рандомизации для проверки сбалансированности групп.