Respuesta a la pregunta

Históricamente, la evaluación de programas de lealtad se basaba en la simple comparación de los tickets medios de participantes y no participantes, lo que llevaba a una sobreestimación del efecto debido al sesgo de selección. La analítica de producto moderna requiere la aislamiento del verdadero efecto causal en condiciones donde los usuarios se auto-seleccionan en el programa basándose en características no observables (por ejemplo, el volumen proyectado de compras). El problema clave es separar el efecto del programa de las diferencias preexistentes entre los grupos, así como tratar correctamente los retrasos temporales entre la acumulación y la activación de los bonos.

Para resolver esto, es necesario aplicar una combinación de Emparejamiento por Puntaje de Propensión (PSM) y Diferencias en Diferencias (DiD) con especificaciones ampliadas de efectos temporales. En la primera etapa, se construye un modelo de probabilidad de unirse al programa basado en covariables hasta el momento del lanzamiento (historia de compras, demografía, engagement). Los usuarios se emparejan con el vecino más cercano o mediante pesos (IPW), para equilibrar la distribución de características observables. En la segunda etapa, se aplica DiD con efectos fijos por usuarios y tiempo, donde los períodos se dividen en grupos en relación al momento de activación del cashback (diseño de estudio de eventos). Esto permite rastrear la dinámica del efecto, considerando que parte de los usuarios activan sus bonos una semana después, y otros un mes después. Para controlar la canibalización (traslado de compras en el tiempo), se incluyen retrasos de la variable dependiente y se analizan cohortes con diferentes horizontes de observación a través de Análisis de Supervivencia.

Situación de la vida real

Lanzamos un cashback acumulativo del 5% en un mercado de electrónica, donde los usuarios debían activar la opción en su perfil. Un mes después, las métricas mostraron un aumento del 40% en la frecuencia de compras entre los participantes, pero el negocio dudaba de la causalidad, ya que se asumía que los usuarios que ingresaban al programa eran inicialmente leales. El problema se complicaba por el hecho de que los bonos solo se podían gastar a partir de los 14 días tras la acumulación, creando un pico artificial de actividad en la tercera semana.

La primera opción considerada fue una prueba A/B clásica con aleatorización forzada del acceso al cashback. Pros: evaluación limpia del efecto causal. Contras: restricciones legales (no se puede imponer un programa financiero sin consentimiento) y distorsión del comportamiento (los usuarios que supieron sobre la indisponibilidad del cashback se iban a la competencia). Esta opción fue rechazada debido a riesgos éticos y comerciales.

La segunda opción fue una simple comparación de “participantes vs no participantes” a través de una prueba t con corrección por tamaño de muestra. Pros: rapidez de implementación y simplicidad en la elaboración de informes. Contras: un sesgo catastrófico de supervivencia (survivorship bias) y la ignorancia de la endogeneidad; el análisis mostró que los participantes antes de la activación tenían 2.3 veces más frecuencia de compras base, lo que hacía que la comparación fuera incorrecta.

La tercera opción fue Diseño de Regresión Discontinuidad (RDD) en el umbral del monto de la primera compra, que otorgaba automáticamente el derecho al cashback. Pros: la aleatoriedad local cerca del umbral proporciona una evaluación no sesgada para los usuarios marginales. Contras: la evaluación es válida solo para un grupo reducido en el umbral (efecto de tratamiento promedio local), y no para toda la audiencia; además, en nuestro caso no había un umbral estricto: el programa estaba disponible para todos inmediatamente después del opt-in.

La solución elegida fue una combinación de Emparejamiento por Puntaje de Propensión para crear un control sintético y Diferencias en Diferencias basadas en Cohortes teniendo en cuenta los retrasos temporales. Emparejamos a los participantes con no participantes en 15 variables (segmentos RFM, estacionalidad, dispositivo), y luego aplicamos DiD con efectos fijos por semana y usuario. Para tener en cuenta el retraso de 14 días, construimos un Estudio de Eventos con bines en relación al momento de activación, lo que permitió separar el verdadero crecimiento del traslado de compras. Resultado: el efecto incremental neto fue del +12% en la frecuencia de compras y +8% en el ticket medio después de descontar la canibalización, mientras que los datos en bruto mostraban un +40%. El programa fue considerado exitoso, pero con expectativas de ROI mucho más modestas.

Lo que los candidatos a menudo pasan por alto

¿Cómo diferenciar correctamente el efecto del programa del traslado temporal de compras (intertemporal substitution) en presencia de retrasos entre la acumulación y el canje de bonos?

La respuesta requiere entender los Efectos de Tratamiento Dinámicos. Es necesario modelar no solo el efecto medio, sino también su dinámica a través de especificaciones de Estudio de Eventos: Y_it = α_i + γ_t + Σ_k β_k · D_i,t-k + ε_it, donde D_i,t-k son variables dummy en relación al momento de activación. Si los coeficientes β_k antes de la activación no difieren significativamente de cero (prueba de tendencias paralelas), y después de la activación muestran un pico con una posterior caída por debajo del nivel base, esto es un signo de canibalización (borrowed demand). Para evaluar el efecto LTV neto, es necesario integrar el efecto a lo largo del tiempo y compararlo con el contrafactual a través de Método de Control Sintético, construido sobre unidades donantes con trayectoria previa similar.

¿Por qué una prueba A/B estándar con aleatorización individual puede violar la suposición SUTVA en sistemas de cashback?

SUTVA (Suposición de Valor de Tratamiento Estable de la Unidad) se viola cuando los bonos de un usuario afectan el comportamiento de otros a través de la red (por ejemplo, cuentas familiares o compras corporativas). Si un esposo activa el cashback y hace una compra para la familia, y la esposa cesa sus compras individuales, la aleatorización individual dará una evaluación sesgada. Es necesario aplicar Aleatorización por Clúster a nivel de hogares o utilizar métodos de análisis de difusión (Efectos de Difusión), como Mínimos Cuadrados en Dos Etapas (2SLS) con variables instrumentales (por ejemplo, valores umbral para la activación que varían entre clústeres).

¿Cómo tener en cuenta la heterogeneidad del efecto en la vida útil del usuario (customer lifetime stage) en presencia de estacionalidad?

Los candidatos a menudo ignoran que el efecto del cashback es diferente para nuevos usuarios (efecto de motivación primaria) y maduros (efecto de retención). Es necesario aplicar Triple Diferencia (DDD): efecto del programa = (Y_post - Y_pre) para tratamiento - (Y_post - Y_pre) para control, diferenciado por segmentos de antigüedad (nuevos/maduros). Al mismo tiempo, la estacionalidad se controla a través de efectos fijos del mes de interacción con el segmento. Alternativamente, se pueden usar Efectos de Tratamiento Heterogéneos a través de Bosques Causales o Meta-aprendices (S-learner, T-learner), que permiten identificar segmentos con CATE positivo (Efecto de Tratamiento Promedio Condicional) y optimizar el enfoque del programa hacia ellos, evitando costos en usuarios con efecto cero o negativo.