Para medir la incrementalidad de los canales offline se aplica la metodología Geo-Lift Testing utilizando control sintético (Synthetic Control Method). La idea clave es dividir las regiones geográficas en grupos de prueba (donde se transmite la publicidad) y control (donde no se lanza la campaña), y luego construir una combinación ponderada de regiones de control que imiten el comportamiento de las regiones de prueba antes del inicio de la campaña con un 95% de precisión en la correlación.
Para analizar series temporales se utiliza la biblioteca Google CausalImpact, que evalúa el efecto causal teniendo en cuenta covariables (datos meteorológicos, indicadores económicos, actividad de competidores). Los datos se agregan en BigQuery, y la preprocesamiento se realiza en Python utilizando pandas y scikit-learn para seleccionar los pesos óptimos de control sintético a través del método de vectores de soporte (SVM) o la regresión Lasso.
La empresa planea una gran campaña televisiva con un presupuesto de 50 millones de rublos en diez ciudades grandes, pero enfrenta un problema crítico de medición de efectividad: los rastreadores estándar como AppsFlyer o Adjust solo registran los toques digitales, sin permitir rastrear la transición de la pantalla de televisión a la instalación de la aplicación. La complejidad adicional surge debido a la agresiva actividad promocional simultánea de un competidor y a las condiciones climáticas anormales en las regiones objetivo, que pueden distorsionar la comparación directa con períodos anteriores.
La primera solución considerada fue el análisis correlacional de series temporales utilizando el modelo ARIMA, donde las proyecciones basadas en datos históricos se comparan con las métricas reales de instalaciones. Ventajas de este enfoque incluyen el bajo costo de implementación en Python con la biblioteca statsmodels y la ausencia de necesidad de dividir el presupuesto publicitario entre regiones. Desventajas incluyen la imposibilidad de separar el efecto de la televisión de los choques externos (acciones de competidores, clima), lo que lleva a un riesgo de atribución falsa del crecimiento a la publicidad en televisión, a pesar de la ausencia de conexión causal.
La segunda opción fue la televisión direccionable con una prueba A/B clásica a nivel de hogares, donde la publicidad se mostraría solo a una parte de la audiencia con la posibilidad de atribución directa a través de datos de panel. Ventajas incluyen una estricta causalidad y la capacidad de medir el LTV a largo plazo de cohortes. Desventajas incluyen la complejidad técnica de integración con proveedores de datos (GfK, TNS), alto costo y largos plazos de preparación (3-4 meses), así como la inaplicabilidad a la televisión tradicional broadcast, que abarca toda la población de la región sin posibilidad de segmentación a nivel de usuarios individuales.
El tercer enfoque fue el Geo-Lift Testing con control sintético, donde la campaña se lanza en regiones de prueba y para las regiones de control se construye una combinación ponderada de regiones similares que imitan su comportamiento. Ventajas del método: la capacidad de establecer causalidad a través de un experimento natural y su resistencia a choques externos generales si afectan a ambos grupos. Desventajas: necesidad de seleccionar cuidadosamente las regiones de control con estacionalidad similar, sensibilidad a la migración de usuarios entre ciudades y requerimiento de un volumen de datos históricos de al menos 12 meses para construir un control sintético de calidad.
Se eligió la tercera solución, ya que la empresa disponía de datos detallados de 40 regiones durante 18 meses en el almacenamiento de BigQuery, lo que permitió construir un control sintético con un coeficiente de correlación superior a 0.95 para el período anterior a la campaña. El análisis se llevó a cabo en un entorno de Jupyter utilizando la biblioteca pycausalimpact, y la preprocesamiento de datos se realizó en SQL y pandas con normalización según el tamaño de la audiencia.
Como resultado, se encontró un incremento incremental estadísticamente significativo en las instalaciones orgánicas del 23% durante 14 días después del inicio de la campaña con un intervalo de confianza del 95% [15%; 31%], lo que se tradujo en un ROI del 145% y permitió al equipo de marketing justificar un aumento en el presupuesto para el canal de TV para el siguiente trimestre.
¿Cómo manejar los efectos de adstock (retraso y efecto acumulativo) al analizar campañas offline, cuando el impacto de la publicidad no se manifiesta de inmediato, sino que se distribuye en el tiempo?
Los candidatos a menudo utilizan una simple comparación de "día de la muestra - día de la instalación", ignorando que la publicidad en TV tiene un efecto de semivida (half-life). Se debe aplicar la transformación de adstock: $A_t = X_t + \lambda \cdot A_{t-1}$, donde $\lambda$ es el coeficiente de atenuación (generalmente 0.3-0.8 para TV), determinado a través de la maximización de la verosimilitud o Grid Search en scikit-learn. También es importante tener en cuenta el efecto de carryover de campañas anteriores; de lo contrario, el lift actual se sobreestimará. Para validar $\lambda$, se utiliza la validación cruzada en campañas anteriores con diferentes rezagos.
¿Por qué no se puede utilizar una simple comparación de medias (t-test) entre regiones de prueba y control en la prueba Geo-Lift, incluso si las regiones son elegidas al azar?
El problema radica en la heterogeneidad de las varianzas entre regiones (diferente conversión base, diferente tamaño de población) y la existencia de correlación de clúster (dependencia interna regional de las observaciones). El t-test estándar supone independencia de las observaciones y homogeneidad de varianzas, lo que lleva a sobreestimar la significancia estadística (falsos positivos). El enfoque correcto es utilizar Clustered Standard Errors a nivel de región o modelos bayesianos jerárquicos en PyMC3 / Stan, que tienen en cuenta la estructura de los datos. También es necesaria la verificación del equilibrio de covariables (matching de puntaje de propensión) antes de la prueba, para asegurarse de que el control sintético es adecuado.
¿Cuál es la diferencia fundamental entre el Marketing Mix Modeling (MMM) y el Geo-Lift Testing, y cuándo es preferible cada método?
El MMM (por ejemplo, a través de la biblioteca Robyn de Meta o LightweightMMM de Google) es un modelo correlacional que evalúa la contribución de todos los canales simultáneamente a través de regresión con regularización, pero es sensible a la endogeneidad y no puede establecer una causalidad estricta sin variables instrumentales. Geo-Lift es un cuasi-experimento que establece causalidad a través de variación exógena (presencia/ausencia de publicidad en la región). MMM es preferible para optimizar el presupuesto entre múltiples canales y planificación, mientras que Geo-Lift es necesario para validar hipótesis específicas y calibrar el MMM. La práctica óptima es usar Geo-Lift para calibrar los priors en el MMM bayesiano, lo que se realiza a través de pymc-marketing.