Contexto histórico
Las primeras estrategias de retención usaban envíos masivos de descuentos a todos los usuarios con disminución de actividad. Esto resultaba en gastos de marketing no dirigidos y en la formación de un patrón de comportamiento de "esperar descuentos". Con la aparición del Uplift Modeling y métodos de Propensity Score en la década de 2010, las empresas comenzaron a dirigirse solo a usuarios con alta probabilidad de cancelación. Sin embargo, esto generó problemas fundamentales de evaluación, ya que el grupo de tratamiento se auto-selecciona mediante el modelo, violando la suposición de aleatorización necesaria para inferencias causales.
Definición del problema
La dificultad clave radica en establecer un escenario contrafactual válido para los usuarios identificados por el modelo de predicción de cancelación como de alto riesgo. Estos usuarios se diferencian sistemáticamente de la población general: tienen menor nivel de compromiso, experiencias negativas recientes o patrones de comportamiento específicos. La simple comparación de su retención con usuarios de bajo riesgo o con su propio historial antes de la intervención mezcla el efecto del tratamiento con las diferencias inherentes. Además, la abstención de ofertas de retención para usuarios con el máximo riesgo de cancelación (grupo de control) crea un riesgo comercial inaceptable y pérdida de ingresos, haciendo que la A/B testing clásica sea políticamente inviable.
Solución detallada
Aplique Regression Discontinuity Design (RDD) alrededor del umbral del puntaje de riesgo (por ejemplo, 0.7), que activa la intervención. Los usuarios justo por encima y justo por debajo del umbral son estadísticamente similares, excepto por la asignación del tratamiento. Esto proporciona el efecto medio local del tratamiento (LATE) para usuarios marginales. Para generalizar a toda la población de alto riesgo, combine RDD con Inverse Probability Weighting (IPW), utilizando puntajes de propensión estimados a partir de datos anteriores a la intervención. Para usuarios muy por encima del umbral, utilice Doubly Robust Estimation o Causal Forests para modelar efectos heterogéneos. Para gestionar la contaminación de datos de campañas anteriores durante el entrenamiento, implemente un "modo sombra", donde el modelo genere predicciones sin disparadores para un pequeño holdout (5-10%), creando una herramienta para el análisis de Two-Stage Least Squares (2SLS). Finalmente, considere la saturación de los canales de comunicación, utilizando Difference-in-Differences (DiD) para comparar tendencias temporales entre segmentos de riesgo.
Un servicio de suscripción móvil (una aplicación de meditación) implementó ChurnGuard — un sistema de ML que activa notificaciones push personalizadas con un 30% de descuento para usuarios con una probabilidad predicha de cancelación en 7 días > 0.75.
Opción 1: Comparación simple de retención entre quienes recibieron el descuento (alto riesgo) y quienes no lo recibieron (bajo riesgo)
Pros: Cálculo instantáneo con herramientas de BI existentes; no requiere infraestructura experimental. Contras: Fuerte sesgo de auto-selección — los usuarios de alto riesgo tienden a irse con más frecuencia; la comparación subestima el efecto o incluso muestra una correlación negativa (los usuarios tratados aún se van con más frecuencia que los no tratados de bajo riesgo).
Opción 2: Experimento controlado aleatorizado, donde el 50% de los usuarios de alto riesgo son privados aleatoriamente de la oferta de retención
Pros: Evaluación causal sin sesgos; clara interpretación del efecto medio del tratamiento (ATE). Contras: Rechazo por parte de las partes interesadas comerciales debido al miedo a perder usuarios valiosos; problemas éticos con la suposición deliberada de cancelaciones en presencia de intervención; problemas con el tamaño de la muestra para el segmento de alto riesgo.
Opción 3: Regression Discontinuity Design utilizando el umbral 0.75 del modelo más el Método de Control Sintético para validar series temporales
Pros: Éticamente aceptable: los usuarios justo por debajo del umbral reciben una experiencia estándar; explota el umbral algorítmico existente como un experimento natural; puede ser implementado retrospectivamente en datos históricos. Contras: Solo evalúa el efecto local (para usuarios en el umbral); requiere verificación cuidadosa de las suposiciones de continuidad (ausencia de manipulaciones de puntajes); menos preciso que RCT debido a un menor tamaño efectivo de muestra en el margen de corte.
Solución elegida y justificación
Opción 3 con un margen de 0.05 alrededor del umbral, complementado con Análisis por Cohortes comparando usuarios una semana antes y después del despliegue del modelo, ajustado por estacionalidad mediante Propensity Score Matching por características de comportamiento. Razón de la elección: Equilibró la rigurosidad estadística con las restricciones comerciales; permitió medir el efecto sin abstenerse de tratar claramente a usuarios de alto riesgo.
Resultado final
Se encontró una disminución del 18% en la cancelación relativa en 7 días para usuarios en el límite (puntaje de riesgo 0.75-0.80). Sin embargo, se identificó que para usuarios con riesgo >0.90, el retorno disminuía debido a la "fatiga de ansiedad" por múltiples notificaciones de retención. Se optimizó el límite de frecuencia a un máximo de 2 notificaciones por semana. El efecto neto sobre el LTV fue de +$1.2M en 3 meses con un ROI del 340% sobre los costos de descuento.
¿Por qué comparar la tasa de retención entre los usuarios que recibieron la campaña de retención y aquellos que no la recibieron (incluso dentro del segmento de alto riesgo) puede exagerar o subestimar el verdadero efecto de la intervención?
Incluso dentro del segmento de alto riesgo, el momento en el que un usuario ingresa a este segmento es importante. Los usuarios que alcanzan el umbral de riesgo antes en su ciclo de vida son fundamentalmente diferentes de aquellos que lo alcanzan más tarde. Sin considerar los Confusores que Varían con el Tiempo (por ejemplo, problemas recientes de la aplicación o eventos estacionales que aumentan simultáneamente el riesgo y hacen que los descuentos sean más/menos efectivos), las comparaciones simples sufren de Sesgo de Supervivencia y Paradoja de Simpson. El enfoque correcto requiere el uso de Modelos Estructurales Marginales (MSM) con ponderación por la probabilidad inversa del tratamiento para manejar covariables dependientes del tiempo.
¿Cómo el problema de "data leakage" en la muestra de entrenamiento del modelo de cancelación distorsiona la evaluación de la efectividad del mismo sistema de prevención de cancelaciones?
Si el modelo de cancelación se entrenó en datos históricos donde parte de los usuarios ya habían recibido campañas de retención, las etiquetas de la variable objetivo están contaminadas. El modelo aprende a identificar "usuarios salvados por campañas anteriores", en lugar de "usuarios que podrían haberse ido naturalmente". Esto crea un Ciclo de Retroalimentación, donde el modelo funciona artificialmente bien en la validación (prediciendo una baja cancelación para usuarios tratados), pero no es capaz de identificar verdaderos usuarios en riesgo en producción. Para corregir esto, es necesario utilizar solo datos previos a la intervención para el entrenamiento o aplicar Importance Sampling para re-ponderar los datos de entrenamiento por la probabilidad inversa de recibir tratamientos anteriores, simulando efectivamente la ausencia de campañas en el pasado.
¿Por qué la A/B testing estándar con aleatorización a nivel de usuario puede ser inaplicable para evaluar sistemas de prevención de cancelaciones y qué diseños experimentales alternativos deberían usarse?
La A/B testing estándar a menudo es inaplicable, ya que la abstención del tratamiento en el grupo de control viola el principio de Equilibrio Individual (suposición intencionada de daño en presencia de intervención) y padece de Efectos de Derrame (los usuarios tratados pueden compartir códigos promocionales con el control). En su lugar, utilice Randomización por Clúster (aleatorización por regiones geográficas o períodos de tiempo a través de Switchback Experiments) o Diseños de Estímulo, donde el instrumento es el derecho a participar en el modelo, en lugar del tratamiento mismo. Otro enfoque es Experimentos de Población Parcial, donde el modelo opera en "modo sombra" para el grupo de control (se generan predicciones, pero no se toman acciones), permitiendo comparar la cancelación predicha y real mediante Análisis de Calibración para medir el verdadero lift.