Respuesta a la pregunta

El contexto histórico está formado por la evolución de las regulaciones de privacidad (GDPR, CCPA, Directiva de ePrivacy) que obligan a las empresas a solicitar el consentimiento explícito de los usuarios para el procesamiento de datos. Hasta 2018, los analistas confiaban en la atribución determinista con seguimiento completo del viaje del usuario, pero la implementación de las plataformas de gestión de consentimiento (CMP) ha llevado a la desaparición sistemática de datos (missing not at random), distorsionando los embudos y las métricas de LTV.

El problema radica en la endogeneidad de la auto-selección: los usuarios que optan por no usar cookies difieren sistemáticamente en su comportamiento (mayor sensibilidad al precio, uso de bloqueadores de anuncios, menos clics en anuncios), creando sesgo de supervivencia en los datos observados. La comparación estándar de cohortes con y sin consentimiento lleva a una sobreestimación de la efectividad de los canales, ya que los “usuarios perdidos” no constituyen una muestra aleatoria.

La solución se basa en la inferencia causal utilizando variables instrumentales (IV) o diseño de discontinuidad de regresión (RDD) según los umbrales de propensidad al consentimiento (propensity score). Se aplica regresión de mínimos cuadrados en dos etapas (2SLS), donde el instrumento es una variante del diseño del banner CMP (por ejemplo, la posición del botón “Aceptar”), que influye en la probabilidad de consentimiento, pero no se correlaciona directamente con la conversión. Para evaluar el efecto a largo plazo se utiliza el Método de Control Sintético, que crea una combinación ponderada de regiones o segmentos con alta tasa de consentimiento como “donantes” para modelar un escenario contrafactual sin la implementación de consentimiento estricto. Adicionalmente, se implementa atribución probabilística basada en datos de primera parte y seguimiento del lado del servidor, lo que permite recuperar parte de las cadenas “perdidas” a través de modelos probabilísticos (cadenas de Markov o valor de Shapley para canales).

Situación de la vida real

El equipo de la plataforma de comercio electrónico enfrentó una crisis tras la implementación del banner de consentimiento GDPR-compliant en la región de la UE: la tasa de rechazo al seguimiento alcanzó el 60%, y la conversión observada de usuario a pagador cayó un 35%. El negocio suponía una reducción catastrófica de la efectividad del marketing, pero era necesario separar la verdadera disminución de la demanda del artefacto de la pérdida de datos de atribución.

La primera opción considerada fue una simple comparación de métricas antes y después de la implementación (análisis pre-post). Pros: implementación instantánea e interpretación clara. Contras: ignorar completamente la estacionalidad (el lanzamiento coincidió con el comienzo de la caída de verano), campañas competitivas externas y cambios en los algoritmos de iOS App Tracking Transparency, lo que invalidaba el resultado.

La segunda opción fue comparar el tráfico de la UE con el tráfico de países no pertenecientes a la UE (experimento geográfico). Pros: existe un grupo de control con seguimiento completo. Contras: fundamental no comparabilidad de regiones debido a diferencias en el comportamiento de compra, fluctuaciones monetarias y diferentes etapas de desarrollo del mercado, lo que llevaría a un sesgo de estimación del 15-20%.

La tercera opción fue aplicar CausalImpact con el uso de un modelo de serie temporal estructural bayesiano. Pros: consideración de dependencias temporales y estacionalidad. Contras: sensibilidad a la elección de covariables (predictors) y la suposición de ausencia de choques síncronos, lo cual es arriesgado en un período de cambios globales en las políticas de privacidad.

La solución elegida fue el Método de Control Sintético (SCM) utilizando segmentos de usuarios con alta tasa de consentimiento histórica (donantes) para construir una UE sintética ponderada. Adicionalmente, se aplicaron variables instrumentales a nivel de cohorte: se utilizaron pruebas A/B aleatorizadas del diseño del banner (color del botón, opciones predeterminadas) como instrumento para evaluar el Efecto de Tratamiento Medio Local (LATE). Esto permitió aislar el efecto limpio de la disponibilidad de datos, y no del diseño del banner.

El resultado final mostró que la verdadera disminución de la conversión fue solo del 8% (y no del 35%), el resto fue un artefacto de pérdida de atribución. Se reconstruyó el modelo de MTA (Atribución Multicanal) utilizando calibración basada en incrementos a través de aguas de retención geográficas, lo que restauró la precisión de predicción del ROAS a un nivel de ±3% respecto a los valores previos al consentimiento.

Qué suelen omitir los candidatos

¿Cómo corregir el sesgo en la atribución cuando parte de los usuarios otorgan consentimiento parcial (solo cookies necesarias), creando viajes de usuario incompletos?

Los candidatos a menudo sugieren simplemente excluir a los usuarios no consentidos del análisis, lo que agrava el sesgo de selección. El enfoque correcto es utilizar modelos de mezcla de patrones o imputación múltiple por ecuaciones encadenadas (MICE), considerando el mecanismo de omisión (MNAR). Es necesario modelar la probabilidad de conversión como una función de señales de comportamiento observables (eventos de primera parte) incluso en ausencia de identificadores de terceros, aplicando resultados sustitutos para recuperar el estimador causal.

¿Por qué las métricas estándar de tasa de clics (CTR) pueden mostrar un aumento después de la implementación del consentimiento estricto, y cómo interpretarlo?

Este es un clásico sesgo de supervivencia: solo quedan usuarios altamente motivados dispuestos a ser rastreados, que ya tenían un alto CTR. Los candidatos pasan por alto la necesidad de evaluar el efecto de intención de tratar (ITT) en toda la población, y no solo en el grupo por protocolo. Es necesario aplicar el análisis del efecto causal promedio de los cumplidores (CACE) utilizando la aleatorización del diseño del banner de consentimiento como instrumento para evaluar el efecto en los “cumplidores”.

¿Cómo distinguir el efecto de la pérdida de datos de la verdadera disminución de la demanda al implementar un mecanismo de consentimiento en condiciones donde no se puede crear legalmente un grupo de control sin el banner?

Aquí es crítico aplicar diferencia-en-diferencias (DiD) con diseño de adopción escalonada o control sintético utilizando “adoptantes tempranos” y “tardíos” en diferentes jurisdicciones. Los candidatos a menudo no consideran la asunción de tendencias paralelas, que debe ser validada a través de la especificación de estudio de eventos con leads y lags. También es importante utilizar variables proxy (por ejemplo, datos agregados de gasto con tarjeta de crédito o datos de panel de proveedores) como fuente alterna de verdad para validar métricas internas, ajustando por el ruido de privacidad diferencial.