Históricamente, las campañas de marketing se han evaluado a través del efecto medio de tratamiento (ATE), pero el desarrollo de Causal ML ha llevado a modelos de uplift que predicen el efecto terapéutico individual (ITE). La prueba clásica A/B es paradójica aquí: para entrenar el modelo se necesitan datos sobre los tratados y el control para todos los segmentos, pero para evaluar el modelo, se debe aplicar, lo que destruye el grupo de control. Esto crea una dicotomía de exploración y explotación (exploration-exploitation).
El problema se complica por la contaminación cruzada (contamination), cuando el comportamiento de los usuarios del grupo de prueba influye en el control a través de efectos de red o recursos comunes (por ejemplo, agotamiento del límite de cupones). Se requiere un método que permita entrenar el modelo y al mismo tiempo aísle su efecto incremental comparado con una distribución uniforme o la ausencia de campaña.
La solución se basa en un Enfoque de Dos Etapas. La primera etapa es exploración con aleatorización (20-30% del tráfico) para recopilar datos no sesgados, entrenamiento del modelo (X-learner o R-learner) para evaluar el CATE (Conditional Average Treatment Effect). La segunda etapa es explotación con una gradual transferencia de tráfico al modelo a través de Thompson Sampling o Contextual Bandits, lo que minimiza el regret. Para aislar el efecto, se utiliza Randomización Basada en Clusters (aleatorización por clústeres geográficos) o Pruebas Switchback (aleatorización temporal) con una evaluación posterior a través del Método de Control Sintético (SCM). La métrica de calidad es el coeficiente de Qini o el Área Bajo la Curva de Uplift (AUUC), corregida a través del Pesado de Propensión Inversa (IPW) para eliminar el sesgo de selección.
El problema surgió en un marketplace durante el lanzamiento de una campaña con cupones personalizados. El gerente de producto quería utilizar un modelo uplift para enviar descuentos solo a los "persuadables" (aquellos que comprarían solo con el cupón), evitando a los "sure things" y "lost causes". La prueba A/B estándar era imposibilitada ya que se requerían datos sobre los que no recibieron el cupón en todos los segmentos, pero mantener el 50% de la audiencia sin cupones disminuía críticamente los ingresos.
La primera opción fue Randomización Hold-out manteniendo el 10% de los usuarios en control total durante todo el periodo. Ventajas del enfoque: evaluación limpia del ATE y posibilidad de un correcto entrenamiento del modelo en el contraste. Desventajas: ingresos perdidos significativos (oportunidad de costo), conflictos éticos (discriminación de precios sin criterios transparentes) y convergencia lenta del modelo debido al pequeño tamaño del grupo de control.
La segunda opción fue Thompson Sampling con un aumento gradual de la proporción de tráfico. Aquí, las "manos" del bandido son estrategias de segmentación (modelo uplift contra aleatorio). Ventajas: relación óptima de exploración/explotación, adaptación a la estacionalidad y minimización de pérdidas económicas. Desventajas: complejidad de interpretación en las primeras etapas, riesgo de caer en un óptimo local con una elección de contexto desfavorable y necesidad de grandes volúmenes de tráfico para significancia estadística.
La tercera opción fue Control Sintético Basado en Geografía. La aleatorización se realizó por regiones: en los grupos de prueba se aplicó el modelo uplift, en los grupos de control se utilizó el sistema antiguo. Se usó SCM para crear una combinación ponderada de las regiones de control que imitaría a las de prueba antes de la implementación. Ventajas: aislamiento del efecto de la aleatorización individual, trabajo con datos agregados y ausencia de contaminación cruzada entre ciudades. Desventajas: necesidad de estabilidad de regiones con el tiempo, sensibilidad a outliers en unidades geográficas pequeñas y suposición de tendencias paralelas, que a menudo se viola en periodos de alta estacionalidad.
Se eligió una solución combinada: Randomización Geo-cluster con Control Sintético para validación offline y Thompson Sampling para optimización online dentro de los clústeres de prueba. Justificación: la aleatorización geográfica excluyó la contaminación cruzada (usuarios de diferentes ciudades rara vez interactúan), y Control Sintético evitó un split 50/50. Thompson Sampling dentro de las regiones de prueba proporcionó una rápida adaptación del modelo a las preferencias locales.
Resultado: se logró aislar el verdadero efecto incremental del modelo uplift en +12% a la conversión en comparación con el envío masivo, con una reducción del 35% en los costos de cupones. Control Sintético mostró que sin el modelo, la tendencia en las regiones de prueba replicaría la dinámica del control sintético con una precisión del 94% (RMSPE), lo que confirmaba la validez de la evaluación.
¿Por qué no se puede simplemente comparar la conversión de aquellos que recibieron un cupón según el modelo con aquellos que no lo recibieron (data observacional), incluso si se utiliza el emparejamiento por puntuación de propensión?
Respuesta: Sesgo de auto-selección y confundidores no observados. Los usuarios con alto uplift-score pueden diferir sistemáticamente en características no observadas (por ejemplo, recibir recientemente un salario o buscar un producto específico). Emparejamiento por puntuación de propensión (PSM) solo corrige según covariables observables, pero si existe una variable oculta que influye tanto en la probabilidad de recibir el cupón como en la conversión, la evaluación estará sesgada. Por ejemplo, los usuarios activos con múltiples sesiones pueden ser erróneamente clasificados como "persuadables", pero comprarían incluso sin un descuento. Para un especialista principiante, es crítico entender que la correlación entre el uplift predicho y la conversión real no es igual al efecto causal — se necesita aleatorización o variables instrumentales (IV) para aislamiento.
¿Cómo afecta la dependencia temporal (confundidores que varían en el tiempo) a la evaluación del modelo uplift durante un periodo largo de entrenamiento y cómo combatir esto?
Respuesta: Durante un largo periodo de entrenamiento, surge el confundimiento temporal: el comportamiento de los usuarios cambia (estacionalidad, actualizaciones de producto) y los datos de la fase de exploración se vuelven obsoletos en el momento de la explotación. El modelo uplift clásico asume estacionariedad, lo cual rara vez es cierto. La solución es utilizar experimentación adaptativa con pesos decrecientes para datos antiguos o algoritmos de aprendizaje online (por ejemplo, Actualización Bayesiana). También se requiere monitorear el cambio de concepto a través del Índice de Estabilidad de Población (PSI) para características y rendimiento del modelo. Los analistas principiantes a menudo entrenan el modelo en datos trimestrales y lo aplican seis meses después, sin verificar el sesgo del comportamiento de la audiencia (por ejemplo, debido a la entrada de un competidor), lo que conduce a un uplift negativo en producción.
¿Por qué la métrica AUUC (Área Bajo la Curva de Uplift) puede ser engañosa al comparar dos modelos uplift diferentes y qué alternativas utilizar?
Respuesta: AUUC depende de la distribución del uplift pronosticado en la población y no es invariante al escalado. Si un modelo predice conservadoramente un pequeño uplift para todos, y otro lo hace de manera agresiva con alta dispersión, sus curvas se cruzarán y AUUC dará un resultado ambiguo. Además, AUUC ignora las restricciones comerciales (presupuesto para cupones). Una alternativa es el coeficiente de Qini sensible al costo o Respuesta Esperada con un presupuesto fijo. Para un especialista principiante, es importante entender que un buen modelo según AUUC ≠ una buena métrica comercial. Es necesario usar Evaluación de Políticas simulando la estrategia: clasificar a los usuarios por uplift pronosticado, tomar el top-K% (según el presupuesto), y comparar el aumento real con el contrafáctico a través de Estimación Doble Robusta o Pesado de Probabilidad Inversa (IPW).