Respuesta a la pregunta

Contexto histórico

Tradicionalmente, los equipos de producto han evaluado la eficacia de la incorporación al comparar la retención de usuarios que completaron el aprendizaje con aquellos que lo saltaron. Este enfoque generó errores masivos en la interpretación: la correlación observada entre la finalización del tutorial y la retención no reflejaba un efecto causal del aprendizaje, sino la selección de usuarios altamente motivados. Con el desarrollo de la Inferencia Causal en la industria, se ha convertido en estándar diferenciar entre intención de tratar (ITT) y tratamiento sobre los tratados (TOT), así como utilizar experimentos naturales cuando la aleatorización clásica no es posible.

Planteamiento del problema

La dificultad clave radica en la endogeneidad de la auto-selección: la decisión de pasar por la incorporación está correlacionada con características no observables del usuario (motivación, paciencia), que a su vez afectan la retención futura. La simple comparación de grupos lleva a sesgo de supervivencia y sobreestimaciones del efecto. Además, el despliegue gradual por regiones crea oportunidades para un cuasi-experimento, pero las regiones difieren en factores culturales y métricas básicas, lo que requiere controlar las variables de confusión.

Solución detallada

Es necesario aplicar Mínimos Cuadrados en Dos Etapas (2SLS) utilizando la bandera regional de implementación como Variable Instrumental (IV). En la primera etapa, se modela la probabilidad de pasar por la incorporación (cumplimiento) a través de la pertenencia a una región donde la función está activa. En la segunda etapa, se utilizan los valores predichos para estimar el efecto sobre la retención. Para tener en cuenta la heterogeneidad regional, se aplica Diferencia en Diferencias (DiD) con efectos fijos por región y tiempo. Adicionalmente, se construye un Bosque Causal para evaluar el Efecto del Tratamiento Promedio Condicional (CATE) y identificar segmentos donde la incorporación proporciona el mayor incremento. Es importante controlar la pre tendencia de paralelismo antes de la implementación y verificar la restricción de exclusión para el instrumento.

Situación de la vida real

Un equipo de aplicación móvil para aprender idiomas implementó un tutorial interactivo obligatorio de 3 minutos antes de acceder al contenido gratuito. El lanzamiento piloto mostró que los usuarios que completaron la incorporación tenían una retención de 7 días un 35% más alta que aquellos que cerraron la aplicación durante el tutorial. El negocio quería escalar la función a todos los usuarios, pero un analista sospechó sesgo de supervivencia.

Opción 1: Comparación simple (enfoque ingenuo). Comparación de retención entre usuarios con incorporación completada vs omitida. Pros: cálculo instantáneo, métrica de mejora clara. Contras: Sesgo crítico de selección; los usuarios dispuestos a gastar 3 minutos en el inicio ya están más comprometidos; la estimación está sobreestimada de 3 a 4 veces; no tiene en cuenta las diferencias regionales en la tolerancia al fricción.

Opción 2: A/B test con incorporación obligatoria. Aleatorización a nivel de usuario: grupo A ve el tutorial obligatorio, grupo B – contenido directamente. Pros: La aleatorización limpia excluye la selección. Contras: El no cumplimiento en el grupo A (parte de los usuarios cierra la aplicación y no regresa) crea una attrition asimétrica; el análisis ITT da una estimación conservadora, pero no responde a la pregunta sobre el efecto para aquellos que realmente completaron el aprendizaje; puede haber spillover negativo en redes sociales.

Opción 3: Diseño de Discontinuidad de Regresión (RDD) por tiempo. Uso del momento exacto de lanzamiento de la función en la región como corte. Pros: Alta validez interna para los usuarios "en el límite"; no requiere grupo de control dentro de la región. Contras: El efecto local (LATE) no se puede generalizar a todos los usuarios; se requiere alta densidad de datos en las cercanías del corte; la estacionalidad y el día de la semana de lanzamiento pueden distorsionar los resultados.

Solución elegida: Combinación del enfoque IV con el despliegue regional y la Estimación Doble Robusta.

Las regiones con la incorporación activa se utilizaron como instrumento para el cumplimiento real del tutorial (la condición de relevancia se comprobó mediante una correlación de 0.82). Se aplicaron 2SLS para evaluar el efecto exactamente para los cumplidores (aquellos que solo pasarían por la incorporación si fuera obligatoria). Además, se construyó un Control Sintético para cada región de tratamiento, utilizando una combinación ponderada de regiones de control con tendencias previas similares.

Resultado final: El verdadero efecto causal resultó ser +8% en la retención de 7 días en lugar de +35% en los datos brutos. Resultó que la incorporación es efectiva solo para usuarios con bajo compromiso inicial (CATE = +15%), pero genera fricción para los usuarios comprometidos (CATE = -3%). Se implementó un sistema adaptativo: la incorporación se mostró solo a usuarios con puntaje de compromiso predicho bajo basado en los primeros 10 segundos de la sesión. Esto resultó en un +12% en la retención global sin pérdida de usuarios comprometidos.

Lo que a menudo pasan por alto los candidatos

¿Por qué la A/B prueba con incorporación obligatoria proporciona una estimación sesgada incluso con aleatorización, y cómo interpretar correctamente los resultados?

Respuesta: El problema de no cumplimiento y attrition diferencial. Incluso con asignación aleatoria al grupo de prueba con incorporación obligatoria, parte de los usuarios se van para siempre (never-takers), mientras que en el grupo de control no hay tal "penalización" por su negativa. Esto crea un sesgo asimétrico de supervivencia. Para una evaluación correcta, es necesario calcular el efecto de Intención de Tratar (ITT) como la diferencia entre grupos por hecho de la asignación, y luego usar el estimador de Wald para obtener el Efecto Causal Promedio de Cumplidores (CACE): CACE = ITT / (proporción de cumplidores). Es importante verificar que la proporción de cumplidores sea suficiente (>20%), de lo contrario, la estimación será inestable (problema de instrumento débil).

¿Cómo diagnosticar y corregir los efectos spillover negativos cuando los usuarios de regiones de control se enteran de la nueva incorporación y cambian su comportamiento antes del lanzamiento real?

Respuesta: Esto viola la SUTVA (Suposición de Valor de Tratamiento Estable de Unidad). Para el diagnóstico, se analizan gráficos de evento de estudio de instalaciones en regiones de control en busca de una disminución anormal (efecto de congelamiento) antes del despliegue. Si se confirma el spillover, se aplica Diferencia en Diferencias espacial, donde el control consiste solo en regiones alejadas sin vínculos sociales, o se utiliza un experimento de población parcial con tratamiento de una sub-muestra aleatoria de usuarios dentro de la región. Alternativamente, se aplican efectos fijos bidireccionales con interacción de la distancia a la región de tratamiento más cercana como variable controlada.

¿Por qué es importante diferenciar entre fricción a corto plazo y acumulación de valor a largo plazo al elegir el horizonte de observación, y qué métodos permiten evaluar el efecto a largo plazo con datos limitados?

Respuesta: La incorporación crea fricción a corto plazo, reduciendo mecánicamente la retención del día 0, pero acumula valor a largo plazo a través de una mejor comprensión del producto. La evaluación en una ventana corta (1-3 días) puede mostrar un efecto negativo debido a la salida de usuarios poco motivados, que ya tendrían un bajo LTV. Para evaluar efectos a largo plazo con datos limitados, se utiliza un Índice Sustituto: se construye un modelo que relaciona métricas a corto plazo (profundidad de la primera sesión, cantidad de funciones vistas) con resultados a largo plazo (retención de 30 días) en datos históricos antes de la implementación. Luego se evalúa el efecto en el sustituto, que proxies el efecto a largo plazo. Es importante verificar la no confusión del sustituto a través de un análisis de sensibilidad.