Respuesta a la pregunta

Para medir el efecto sin aleatorización, es necesario construir un control sintético a través de Propensity Score Matching (PSM), y luego aplicar el método Difference-in-Differences (DiD). Primero, evaluamos la probabilidad de recibir una insignia (regresión logística) en datos históricos (actividad, demografía, retención), para emparejar a los "tratados" con usuarios "de control" similares. Luego, comparamos la dinámica de la métrica objetivo (profundidad de participación) entre estos grupos, lo que permite separar el efecto de la insignia de las tendencias generales de crecimiento.

Es crítico verificar la suposición de tendencias paralelas a través de un análisis de event-study: construimos una regresión con rezagos y lideres de tratamiento y nos aseguramos de que los coeficientes antes de la implementación no sean significativos. Para aumentar la sensibilidad, utilizamos CUPED en Python o R, reduciendo la varianza a través de covariables antes del experimento. La evaluación final de ATT (Average Treatment Effect on the Treated) proporciona una estimación no sesgada del efecto neto de la gamificación.

Situación de la vida real

La empresa "EduTech" lanzó un programa de motivación: los usuarios recibían insignias digitales por los comentarios que dejaban sobre los cursos. Las limitaciones técnicas del backend heredado no permitieron dividir aleatoriamente a la audiencia, por lo que el analista se enfrentó a la medición del impacto en la métrica "profundidad de participación" (número promedio de lecciones vistas por semana) en presencia de un fuerte auto-selección: los comentarios eran dejados por los estudiantes más activos, lo que creaba un sesgo evidente.

Se consideraron cuatro enfoques para resolver el problema.

Simple comparación de medias después de la implementación entre quienes recibieron insignias y quienes no. La principal ventaja es la rapidez en el cálculo en SQL sin una preparación de datos compleja. La desventaja crítica es la ignorancia total de la auto-selección: los usuarios activos ya están creciendo más rápido (efecto de maduración), lo que lleva a sobrestimar el efecto y llegar a conclusiones erróneas sobre la efectividad.

Análisis "antes-después" exclusivamente en el grupo con insignias. Las ventajas radican en excluir las diferencias intergrupales y utilizar la prueba t pareada para los mismos usuarios. Sin embargo, es imposible separar el efecto de la insignia del crecimiento estacional general de la actividad (inicio del año escolar) o cambios simultáneos en los algoritmos de recomendaciones, lo que hace que las conclusiones sean poco fiables.

Regresión OLS con control de covariables a través de la adición de variables sobre la actividad pasada. Esto se implementa rápidamente en statsmodels y proporciona coeficientes comprensibles. Pero el método requiere una estricta linealidad de las relaciones, es sensible a los valores atípicos y no considera las tendencias individuales de desarrollo del usuario a lo largo del tiempo, lo que podría distorsionar la evaluación.

PSM + Difference-in-Differences (solución elegida). Realizamos Propensity Score Matching en BigQuery, utilizando regresión logística sobre los predictores antes del lanzamiento (frecuencia de acceso, cursos completados). Luego aplicamos DiD con efectos fijos del usuario y la semana. Las ventajas son la minimización del sesgo de selección sobre características observables y la eliminación de tendencias temporales, manteniendo la paralelidad. Las desventajas son la alta complejidad computacional y la criticidad de la suposición de tendencias paralelas, que requiere verificación a través de gráficos de event-study.

La solución fue elegida por su capacidad de proporcionar la estimación no sesgada más confiable en presencia de solo datos observacionales. Como resultado del análisis, se reveló que las insignias aumentan el compromiso en un 12%, pero solo entre los usuarios con menos de tres meses de antigüedad. Para los "veteranos", el efecto resultó ser estadísticamente insignificante, lo que permitió al equipo de producto revisar las reglas de concesión y centrarse en la incorporación.

Lo que los candidatos suelen pasar por alto

¿Cómo verificar que la suposición de tendencias paralelas en DiD no se ha violado si no tenemos un experimento?

Los candidatos a menudo se limitan a comparar gráficos visualmente, omitiendo una verificación formal. Es necesario construir una regresión de event-study, incluyendo variables dummy para cada período antes y después del tratamiento. Si los coeficientes para los períodos "antes" son estadísticamente significativos (p-value < 0.05), la suposición ha sido violada. En este caso, se puede aplicar CUPED para corregir los pretrends o usar el Método de Control Sintético para construir un grupo de control con una tendencia que esté lo más cerca posible de la tendencia del grupo tratado antes de la intervención.

¿Por qué el Propensity Score Matching no resuelve el problema de endogeneidad por características ocultas (selection on unobservables)?

El PSM solo equilibra covariables observables (edad, actividad), pero si existe una motivación oculta (por ejemplo, "amor por el aprendizaje") que es difícil de cuantificar, el sesgo persiste. Para resolver esto se necesitan variables instrumentales (IV), por ejemplo, la distancia geográfica al centro físico más cercano, que correlaciona con la probabilidad de recibir una insignia, pero no influye directamente en el compromiso. Otra alternativa es el Diseño de Discontinuidad de Regresión (RDD), si el umbral para recibir la insignia es estricto (por ejemplo, exactamente 3 comentarios), lo que genera variación exógena.

¿Cómo manejar la violación de SUTVA (Suposición de Valor de Tratamiento de Unidad Estable) en la gamificación, cuando el efecto es "contagioso" a través del gráfico social?

Si los amigos ven las insignias y también comienzan a dejar comentarios, el DiD estándar proporciona una estimación sesgada, mezclando efectos directos e indirectos. La solución es usar errores estándar agrupados por grupos de amigos o un muestreo de dos etapas, donde se excluyen del grupo de control a los usuarios relacionados con los "tratados". Se pueden evaluar los efectos spillover claramente a través del análisis de mediación en Python (librerías causalml o mediation), separando el efecto total en directo (para el propio usuario) e indirecto (para amigos), para evitar subestimar el efecto verdadero.