Contexto histórico. Las plataformas tradicionales de edtech utilizaron durante mucho tiempo trayectorias de aprendizaje estáticas con una dificultad fija del material para todos los usuarios. Con el desarrollo del Machine Learning y las capacidades de procesamiento de datos en tiempo real, surgieron sistemas adaptativos que ajustan dinámicamente el contenido a las capacidades cognitivas individuales del estudiante. Sin embargo, la evaluación de la efectividad de tales sistemas enfrenta un problema metodológico fundamental: no es posible mostrar simultáneamente a un mismo usuario tanto la versión adaptativa como la estática del curso para una comparación limpia sin alterar la experiencia del usuario.
Planteamiento del problema. La clásica A/B Testing aquí no se aplica en su forma pura, ya que el algoritmo de adaptación trabaja en tiempo real basado en datos de interacción en streaming, y la fijación del usuario en un grupo estático interrumpe la lógica del producto y crea riesgos éticos al proporcionar una experiencia educativa deliberadamente subóptima. Además, existe una fuerte endogeneidad: los usuarios con diferentes niveles iniciales de conocimientos responden a la adaptación de manera asimétrica (algunos requieren simplificación, otros — complejidad), lo que requiere métodos de evaluación de efectos heterogéneos.
Solución detallada. El enfoque óptimo consiste en una combinación de Regression Discontinuity Design (RDD) en el umbral de activación del algoritmo y Difference-in-Differences (DiD) para cohortes de usuarios con diferentes momentos de implementación. En primer lugar, si el algoritmo se activa al alcanzar un cierto nivel de errores en la resolución de tareas (por ejemplo, >30% de respuestas incorrectas consecutivas), se puede utilizar Sharp RDD, comparando usuarios justo antes y después del umbral de activación de la adaptación. En segundo lugar, para evaluar el efecto a largo plazo en la retención se aplica el Synthetic Control Method: se construye una combinación ponderada de usuarios de cohortes históricas que no tuvieron acceso al sistema adaptativo, imitando de la mejor manera el comportamiento del grupo de prueba actual antes de la implementación. También se emplea Causal Forest o Meta-learners para cuantificar la heterogeneidad del efecto por segmentos de preparación inicial. Los datos se agregan a través de SQL con funciones de ventana para rastrear sesiones, y el análisis estadístico se lleva a cabo en Python utilizando bibliotecas como causalml, pymc para la estimación bayesiana de la incertidumbre y sklearn para la construcción de variables proxy.
En la escuela de programación en línea “CodeStart” se implementó un algoritmo de seguimiento adaptativo, que automáticamente simplificaba o complicaba las tareas en Python dependiendo de la velocidad de resolución de las tareas anteriores y de los patrones de errores. El gerente de producto solicitó evaluar si esto aumentaba la tasa de finalización del curso del 45% actual al 60% objetivo, pero el equipo analítico se enfrentó al problema de que desactivar el algoritmo para el grupo de control resultaba en una alta deserción en el segundo día de clases, lo que hacía que la comparación fuera incorrecta.
Se consideraron tres opciones para resolver el problema de la evaluación.
Opción 1: A/B test clásico con la desactivación total del algoritmo para el 50% del tráfico. Los pros de este enfoque incluyen la simplicidad de interpretación de los resultados y la comparabilidad directa de métricas entre grupos. Los contras radican en el alto riesgo de pérdida de usuarios en el grupo de control debido a la frustración por excesiva complejidad o, por el contrario, el aburrimiento por tareas demasiado simples, lo que crea un sesgo de supervivencia (survivorship bias) y rompe las normas éticas de acceso equitativo a educación de calidad.
Opción 2: Análisis de datos históricos antes de la implementación (análisis pre-post) sin grupo de control. Pros: no hay necesidad de privar a parte de la audiencia de la mejora y posibilidad de obtener resultados rápidamente. Contras: imposibilidad de aislar el efecto del algoritmo de factores externos, como la estacionalidad (inicio del año escolar), el cambio en la calidad del tráfico de los canales publicitarios y eventos macroeconómicos, lo que hace que la evaluación del efecto sea poco confiable y no objetiva.
Opción 3: Uso de Regression Discontinuity Design en el umbral de activación de la adaptación con variables instrumentales. Se eligió esta opción, ya que el algoritmo se activaba estrictamente de forma automática al superar un umbral de errores del 25% en el módulo, lo que creaba un experimento natural. Comparamos usuarios con 24% y 26% de errores — grupos prácticamente idénticos en características observadas, pero con diferente estado de adaptación. Para la evaluación a largo plazo, construimos un control sintético de cohortes del año pasado con una distribución similar de habilidades iniciales, utilizando Propensity Score Matching.
El resultado final mostró que el algoritmo adaptativo aumenta la tasa de finalización del curso en 18 puntos porcentuales (del 45% al 53%) para los usuarios con un nivel de preparación medio, pero tiene un efecto negativo (-5%) para estudiantes avanzados, a quienes el sistema erróneamente simplificaba el material debido a patrones inusuales de respuesta. Con base en estos datos se introdujo un factor corrector para el umbral de dificultad para usuarios experimentados, lo que aumentó la conversión total al 58%.
¿Cómo manejar la situación cuando el algoritmo de adaptación se entrena continuamente (aprendizaje en línea), y sus predicciones cambian con el tiempo, lo que invalida la evaluación estática del efecto?
Respuesta. Es necesario utilizar thompson sampling o contextual bandits como parte del diseño experimental desde la etapa de implementación. En lugar de un impacto fijo, se modela una distribución de probabilidades del efecto, que se actualiza con cada nueva observación. Para la evaluación se aplican métodos de off-policy evaluation, como inverse propensity weighting (IPW) o doubly robust estimators, que ajustan el sesgo que surge porque la política del algoritmo cambiaba durante la recopilación de datos históricos. Es crítico registrar la versión del modelo y sus parámetros para cada decisión tomada en ClickHouse o un almacenamiento similar, para luego estratificar el análisis por versiones del algoritmo y tener en cuenta su evolución.
¿Por qué la comparación estándar de medias (t-test) entre grupos con el algoritmo activado y desactivado da una estimación sesgada incluso con aleatorización, y cómo corregirlo?
Respuesta. El problema radica en los efectos de red (spillover effects) y la violación de la suposición SUTVA (Stable Unit Treatment Value Assumption). Si los usuarios interactúan entre sí a través de foros, proyectos grupales o chats, el grupo de control se “contagia” del efecto a través del aprendizaje social y el intercambio de experiencias. Para corregir esto, se aplica cluster randomization (aleatorización a nivel de clases/grupos, no de usuarios individuales) o exposure mapping — modelado de la probabilidad de contacto con la versión adaptativa del curso. Alternativamente, se utiliza two-stage least squares (2SLS) con una variable instrumental (por ejemplo, umbral de errores para activar la adaptación) para aislar el efecto medio local del tratamiento (LATE).
¿Cómo diferenciar el efecto verdadero de la adaptación del efecto de novedad (novelty effect), cuando los usuarios interactúan más activamente simplemente porque la interfaz ha cambiado, y no debido a una mejora en la calidad de la selección de tareas?
Respuesta. Es necesario realizar analysis by cohorts con diferentes fechas de implementación y rastrear las temporal dynamics del efecto en el tiempo. Si las métricas de participación regresan al nivel base después de 2-3 semanas tras el inicio de uso — este es el clásico efecto de novedad. Para la separación se utiliza segmented regression con un punto de quiebre (interrupted time series) o comparación con un holdout group, al que el algoritmo “finge” ser adaptativo, pero en realidad muestra contenido aleatorio o fijo (prueba de placebo). También es importante analizar no solo métricas proxy (tiempo en la plataforma), sino también hard metrics (resultados del examen final o proyecto práctico), que son menos susceptibles a oscilaciones a corto plazo en la motivación y reflejan la verdadera asimilación del material.