Ответ на вопрос

Исторический контекст. Традиционные edtech-платформы долгое время использовали статичные учебные траектории с фиксированной сложностью материала для всех пользователей. С развитием Machine Learning и возможностей real-time обработки данных появились адаптивные системы, которые динамически подстраивают контент под индивидуальные когнитивные способности учащегося. Однако оценка эффективности таких систем сталкивается с фундаментальной методологической проблемой: невозможно одновременно показать одному и тому же пользователю и адаптивную, и статичную версию курса для чистого сравнения без нарушения пользовательского опыта.

Постановка проблемы. Классический A/B Testing здесь неприменим в чистом виде, так как алгоритм адаптации работает в реальном времени на основе потоковых данных о взаимодействии, а фиксация пользователя в статичной группе нарушает логику продукта и создаёт этические риски предоставления заведомо неоптимального образовательного опыта. Кроме того, существует сильная эндогенность: пользователи с разным начальным уровнем знаний реагируют на адаптацию асимметрично (некоторым требуется упрощение, другим — усложнение), что требует методов оценки гетерогенных эффектов воздействия.

Подробное решение. Оптимальный подход представляет собой комбинацию Regression Discontinuity Design (RDD) на пороге включения алгоритма и Difference-in-Differences (DiD) для когорт пользователей с разным временем внедрения. Во-первых, если алгоритм активируется при достижении определённого уровня ошибок в решении задач (например, >30% неверных ответов подряд), можно использовать Sharp RDD, сравнивая пользователей непосредственно до и после порога включения адаптации. Во-вторых, для оценки долгосрочного эффекта на retention применяется Synthetic Control Method: строится взвешенная комбинация пользователей из исторических когорт, не имевших доступа к адаптивной системе, максимально имитирующая поведение текущей тестовой группы до внедрения. Дополнительно используется Causal Forest или Meta-learners для квантификации гетерогенности эффекта по сегментам начальной подготовки. Данные агрегируются через SQL с оконными функциями для отслеживания сессий, а статистический анализ проводится в Python с использованием библиотек causalml, pymc для байесовской оценки неопределённости и sklearn для построения прокси-переменных.

Ситуация из жизни

В онлайн-школе программирования «CodeStart» внедрили алгоритм адаптивного трекинга, который автоматически упрощал или усложнял задачи по Python в зависимости от скорости решения предыдущих заданий и паттернов ошибок. Продукт-менеджер требовал оценить, увеличивает ли это завершаемость курса с текущих 45% до целевых 60%, но аналитическая команда столкнулась с тем, что отключение алгоритма для контрольной группы приводило к массовому оттоку на втором дне обучения, что делало сравнение некорректным.

Рассматривали три варианта решения проблемы оценки.

Вариант 1: Классический A/B-тест с полным отключением алгоритма для 50% трафика. Плюсы данного подхода включают простоту интерпретации результатов и прямую сравнимость метрик между группами. Минусы заключаются в высоком риске потери пользователей в контрольной группе из-за фрустрации чрезмерной сложностью или, наоборот, скукой от слишком простых задач, что создаёт смещение выжившего (survivorship bias) и нарушает этические нормы равного доступа к качественному образованию.

Вариант 2: Анализ исторических данных до внедрения (pre-post analysis) без контрольной группы. Плюсы: отсутствие необходимости лишать часть аудитории улучшения и возможность быстрого получения результатов. Минусы: невозможность отделить эффект алгоритма от внешних факторов, таких как сезонность (начало учебного года), изменение качества трафика из рекламных каналов и макроэкономические события, что делает оценку эффекта ненадёжной и необъективной.

Вариант 3: Использование Regression Discontinuity Design на пороге включения адаптации с инструментальными переменными. Был выбран этот вариант, так как алгоритм включался строго автоматически при превышении порога ошибок в 25% на модуле, что создавало естественный эксперимент. Мы сравнили пользователей с 24% и 26% ошибок — практически идентичные группы по наблюдаемым характеристикам, но с разным статусом адаптации. Для долгосрочной оценки построили синтетический контроль из когорт прошлого года с похожим распределением начальных скиллов, используя Propensity Score Matching.

Итоговый результат показал, что адаптивный алгоритм повышает завершаемость курса на 18 процентных пунктов (с 45% до 53%) для пользователей со средним входным уровнем подготовки, но даёт негативный эффект (-5%) для продвинутых студентов, которым система ошибочно упрощала материал из-за нетипичных паттернов решения. На основе этих данных был введён корректирующий фактор порога сложности для опытных пользователей, что довело общую конверсию до 58%.

Что кандидаты часто упускают

Как обрабатывать ситуацию, когда алгоритм адаптации постоянно обучается (online learning), и его предсказания меняются во времени, делая невалидной статичную оценку эффекта?

Ответ. Необходимо использовать thompson sampling или contextual bandits как часть экспериментального дизайна ещё на этапе внедрения. Вместо фиксированного воздействия моделируется распределение вероятностей эффекта, которое обновляется с каждым новым наблюдением. Для оценки применяются методы off-policy evaluation, такие как inverse propensity weighting (IPW) или doubly robust estimators, которые корректируют смещение, возникающее из-за того, что политика алгоритма менялась в процессе сбора исторических данных. Критически важно логировать версию модели и её параметры для каждого принятого решения в ClickHouse или аналогичном хранилище, чтобы потом стратифицировать анализ по версиям алгоритма и учитывать его эволюцию.

Почему стандартное сравнение средних (t-test) между группами с включённым и выключенным алгоритмом даёт смещённую оценку даже при рандомизации, и как это исправить?

Ответ. Проблема заключается в сетевых эффектах (spillover effects) и нарушении предположения SUTVA (Stable Unit Treatment Value Assumption). Если пользователи взаимодействуют друг с другом через форумы, групповые проекты или чаты, то контрольная группа "заражается" воздействием через социальное обучение и обмен опытом. Для исправления применяется cluster randomization (рандомизация на уровне классов/потоков, а не индивидуальных пользователей) или exposure mapping — моделирование вероятности контакта с адаптивной версией курса. Альтернативно используют two-stage least squares (2SLS) с инструментальной переменной (например, пороговое значение ошибок для включения адаптации) для изоляции локального среднего эффекта воздействия (LATE).

Как отличить истинный эффект адаптации от эффекта новизны (novelty effect), когда пользователи активнее взаимодействуют просто потому, что интерфейс изменился, а не из-за улучшения качества подбора задач?

Ответ. Необходимо проводить analysis by cohorts с разными датами внедрения и отслеживать temporal dynamics эффекта во времени. Если метрики вовлечённости возвращаются к базовому уровню через 2-3 недели после начала использования — это классический эффект новизны. Для разделения используется segmented regression с точкой разрыва (interrupted time series) или сравнение с holdout group, которому алгоритм "притворяется" адаптивным, но на самом деле показывает случайный или фиксированный контент (placebo test). Также важно анализировать не только прокси-метрики (время на платформе), но и hard metrics (результаты финального экзамена или практического проекта), которые менее подвержены краткосрочным колебаниям мотивации и отражают реальное освоение материала.