La evolución del e-commerce en la última década ha pasado de catálogos estáticos a formatos interactivos tomados de las redes sociales. El formato Stories, inicialmente popularizado por Snapchat e Instagram, ha sido adaptado por los marketplaces como una herramienta para reducir la carga cognitiva al elegir productos a través de una narrativa visual corta. Sin embargo, a diferencia de las pruebas A/B clásicas de elementos de UI, la evaluación del efecto del contenido efímero enfrenta el problema de la contaminación cruzada (contamination), cuando un usuario ve Stories de un amigo del grupo de prueba, incluso estando él mismo en el control.
La isolación del efecto puro se ve dificultada por tres factores de endogeneidad. En primer lugar, las marcas se auto-seleccionan según su capacidad para producir contenido de video de calidad (los actores grandes se lanzan primero), creando un sesgo de supervivencia. En segundo lugar, los efectos de red dentro del grafo de suscripciones llevan a un efecto de contagio, donde la influencia "se filtra" del grupo de prueba al control a través de conexiones sociales. En tercer lugar, los usuarios de la Generación Z muestran una tasa de participación de 3 a 4 veces mayor en Stories en comparación con la audiencia de 45+, lo que requiere estratificación del análisis.
La metodología óptima es staggered Difference-in-Differences (DiD) con variación espacio-temporal, donde las categorías de productos actúan como clústeres de impacto, implementados en diferentes momentos en el tiempo. Para controlar la contaminación de redes se aplica una leave-out strategy: se excluyen usuarios con suscripciones cruzadas a marcas de diferentes categorías (tratamiento y control). Para corregir el sesgo de auto-selección de marcas, se utiliza Propensity Score Matching (PSM) basado en métricas históricas de engagement y tamaño de audiencia antes de la implementación. La varianza se reduce a través de CUPED (Controlled-experiment Using Pre-Experiment Data), y la heterogeneidad del efecto se evalúa a través de Causal Forest, que permite identificar efectos promedios condicionales de tratamiento (CATE) para diferentes segmentos de edad.
En un gran marketplace de moda, se planeaba implementar Stories para marcas en la categoría de "Ropa Deportiva" (grupo de prueba) manteniendo la tarjeta de producto clásica en la categoría de "Ropa de Negocios" (control). El problema era que Nike y Adidas (prueba) tenían considerablemente más suscriptores que las marcas clásicas (control), y el 40% de los usuarios estaban suscritos simultáneamente a marcas de ambas categorías, creando una fuerte contaminación. Se necesitaba evaluar el efecto sobre la retención a 7 días (D7 retention) y la conversión en compra dentro de las 48 horas siguientes a la visualización de Stories.
Opción 1: Comparación simple antes-después en la categoría de prueba
Los analistas propusieron comparar las métricas de la categoría deportiva durante el mes anterior y posterior al lanzamiento de Stories. Las ventajas del enfoque incluían la inmediatez en la obtención de resultados y la ausencia de necesidad de una infraestructura compleja. Las desventajas fueron críticas: la imposibilidad de separar el efecto del formato del crecimiento estacional en la demanda de ropa deportiva en enero (New Year Resolution effect) y de las campañas de marketing de marcas lanzadas en sincronía con la nueva funcionalidad.
Opción 2: Prueba A/B clásica a nivel de usuario con división 50/50
Esta opción implicaba dividir aleatoriamente a los usuarios para ver Stories independientemente de la categoría. Las ventajas consistían en la pureza del diseño experimental y la simplicidad de la interpretación. Las desventajas incluían la imposibilidad técnica (el contenido lo creaban las marcas, no la plataforma) y restricciones éticas: ocultar contenido a parte de los suscriptores de la marca destruía el modelo de monetización y llevaba a quejas de los anunciantes.
Opción 3: Staggered DiD con emparejamiento de control sintético y filtrado de conexiones de red
Se decidió utilizar la variación temporal de la implementación (categoría deportiva — semana 1, ropa urbana — semana 3, clásica — semana 6) y construir un Synthetic Control basado en una combinación ponderada de categorías que aún no habían recibido la función. Para eliminar la contaminación, se excluyeron usuarios con suscripciones cruzadas >15% del total (umbral definido a través del análisis del grafo social). CUPED se aplicó para corregir según la retención histórica D7.
Solución elegida:
El equipo eligió Opción 3, complementándola con Causal Forest para segmentación por edad. Esto permitió no solo aislar el efecto puro, sino también entender para quién funcionan mejor las Stories. El factor clave en la elección fue la capacidad de mantener los procesos de negocio (todos los suscriptores ven contenido), al mismo tiempo que se obtiene una evaluación causal válida.
Resultado final:
El análisis reveló un incremento estadísticamente significativo en la retención D7 del 8.4% (p < 0.01) para el segmento de 18-25 años, sin efecto para los mayores de 45. Sin embargo, se descubrió un spillover negativo: los usuarios que vieron más de 5 Stories por sesión mostraron una disminución del 3% en la conversión a compra (efecto de sobre saturación). Con base en estos datos, el equipo de producto implementó un algoritmo adaptativo para regular la frecuencia de exposición a Stories según la edad, lo que llevó a un aumento del GMV del 4.2% en la categoría de prueba sin comprometer la experiencia del usuario de cohortes mayores.
¿Cómo considerar correctamente el efecto spillover negativo, cuando el exceso de Stories de una marca disminuye la receptividad al contenido de otras marcas en la misma sesión?
Los candidatos a menudo se centran únicamente en los efectos de red positivos, ignorando la sobre saturación. Un enfoque correcto requiere análisis a nivel de sesión (session-level), y no a nivel de usuario: dividir las sesiones en "alta densidad de Stories" (>3 marcas únicas) y "baja densidad", luego evaluar el efecto de interacción (interaction term) entre tratamiento y nivel de densidad de contenido. Si el coeficiente es negativo y significativo, esto indica una canibalización de atención dentro del formato. También es necesario comprobar la dinámica temporal: si los usuarios desarrollan "resistencia" (ad stock) al formato con el tiempo a través de la descomposición del efecto por semanas de implementación.
¿Cómo separar el efecto del formato Stories del efecto de calidad del contenido, si las marcas con alto valor de producción se auto-seleccionan en las primeras olas de implementación?
El DiD estándar no resolverá el problema, ya que las características de las marcas se correlacionan con el nivel inicial de métricas. Se requiere el uso de Instrumental Variables (IV): como instrumento se utiliza un umbral en el número de seguidores de la marca, por encima del cual la funcionalidad Stories se vuelve accesible (por ejemplo, >100k seguidores). Esto crea una variación aleatoria alrededor del umbral (regression discontinuity design, RDD), permitiendo comparar marcas con 99k y 101k seguidores, que son estadísticamente idénticas en calidad de contenido, pero difieren en el acceso a la herramienta. De esta manera, se aísla el efecto puro del formato, en lugar de calidad de los creativos.
¿Por qué las métricas estándar de click-through rate (CTR) y view-through rate (VTR) son insuficientes para evaluar el efecto a largo plazo del contenido efímero, y qué métricas deberían utilizarse?
Los candidatos se centran en el engagement inmediato, omitiendo la atribución de compras diferidas. Las Stories desaparecen después de 24 horas, pero crean una "marca" en la memoria del usuario (mental availability). Una evaluación correcta requiere construir un Surrogate Index: utilizando métricas intermedias (frecuencia de apertura de la aplicación durante 7 días, adición a la lista de deseos sin compra) como proxy para el LTV a largo plazo. Se aplica el método de Long-term Causal Effects a través de una evaluación de dos etapas: primero se modela la relación del surrogate con el LTV final en datos históricos, luego esta relación se aplica a los datos experimentales. Esto permite captar el efecto de la "conversión diferida", cuando un usuario ve Stories, pero compra una semana después de que el contenido desaparece.