El contexto histórico del problema se remonta a la evolución del contenido generado por usuarios en e-commerce. En los inicios del comercio digital predominaban las descripciones profesionales, pero con el desarrollo de Web 2.0, se produjo una transición a UGC (Contenido Generado por Usuarios), lo que aumentó la confianza, pero creó un problema de sobrecarga de información. Los usuarios modernos se enfrentan a decenas de reseñas sobre un producto, lo que incrementa la carga cognitiva y el tiempo de toma de decisiones. La aparición de Modelos de Lenguaje Grande (LLM) ha permitido automatizar la generación de resúmenes; sin embargo, reemplazar la voz auténtica del consumidor por una interpretación máquina introduce incertidumbre en la relación causal entre la información presentada y el comportamiento del usuario.
La formulación del problema se complica por tres factores que hacen imposible las pruebas clásicas de A/B-testing. En primer lugar, el rollout por etapas crea una adopción escalonada, donde los grupos de control se convierten en grupos de prueba con el tiempo, rompiendo la estabilidad de la comparación. En segundo lugar, la calidad de la IA-resumen es endógena: las categorías con un alto volumen de reseñas reciben insignias precisas, mientras que las de bajo volumen obtienen insignias distorsionadas, lo que se correlaciona con la popularidad del producto como un confusor oculto. En tercer lugar, existe un riesgo de efecto de engaño: si el usuario descubre una discrepancia entre la insignia y el producto real, la confianza en la plataforma caerá, lo que impactará la retención a largo plazo, medible solo a través de un análisis por cohortes.
Una solución detallada requiere una combinación de métodos cuasi-experimentales. La herramienta principal es Difference-in-Differences escalonada (DiD) con efectos fijos por categorías y efectos temporales, permitiendo captar el efecto en condiciones de implementación gradual. Para tener en cuenta la endogeneidad de la calidad de la generación, se aplica Causal Forest, que modela la heterogeneidad del impacto en función del volumen de datos de entrenamiento. Es críticamente importante llevar a cabo pruebas placebo en categorías sin cambios para validar las tendencias paralelas, así como utilizar Análisis de Supervivencia para rastrear la dinámica de las devoluciones en el tiempo, separando el efecto a corto plazo de la conversión del efecto a largo plazo de la confianza.
El marketplace "HogarConfort", especializado en muebles y decoración, se enfrentó a una crítica disminución en el compromiso en las páginas de productos, donde el 68% de los usuarios no llegaban a la sección de reseñas textuales, omitiendo información importante sobre la calidad del ensamblaje y los materiales. El equipo de producto propuso una solución innovadora: reemplazar los comentarios extensos por insignias visuales de IA con resúmenes de las ideas clave; sin embargo, las partes interesadas temían una degradación oculta de la métrica de confianza y un aumento de las devoluciones debido a las posibles "alucinaciones" del modelo. Los analistas enfrentaron el desafío de medir el efecto causal neto de la implementación en ausencia de la posibilidad de llevar a cabo una prueba de división clásica entre usuarios.
La primera opción planteó una prueba de A/B-testing clásica con aleatorización a nivel de usuario a través de un hash de user_id. Las ventajas de este enfoque incluyeron una estricta identificación causal y la simplicidad del procesamiento estadístico a través de la prueba t estándar o bootstrap. Sin embargo, las desventajas resultaron críticas para el producto: los usuarios compartían activamente capturas de pantalla de los productos en redes sociales, creando contaminación entre grupos, y la diferente exhibición de un mismo producto para diferentes usuarios interrumpía la consistencia de la UX y generaba disonancia cognitiva.
La segunda opción se basó en el Método de Control Sintético, donde para cada categoría que implementaba insignias de IA, se crearía un control sintético ponderado de categorías inalteradas con tendencias históricas de conversión y estacionalidad similares. Las ventajas claves estaban en la percepción natural por parte de los usuarios y la ausencia de necesidad de dividir el tráfico, lo que mantenía la integridad de la experiencia del usuario. Sin embargo, las desventajas significativas incluían la imposibilidad de construir un control creíble para categorías únicas como "neveras inteligentes" sin análogos directos, así como el riesgo de sesgo ante choques globales que afectan a todas las categorías simultáneamente.
La solución óptima fue una combinación de Difference-in-Differences escalonada con Efectos Fijos Bidireccionales (TWFE) y Causal Forest para analizar la heterogeneidad del efecto según el volumen de datos originales. Este enfoque permitió utilizar el orden natural de la implementación escalonada (primero electrónica de consumo masiva, luego muebles) como fuente de variación exógena, controlando efectos fijos categóricos y temporales. Un factor crítico en la elección fue la posibilidad de modelar diferentes impactos para categorías de alta carga con resúmenes precisos y nichos con "alucinaciones" de LLM, lo que proporcionó una ventaja estratégica en la toma de decisiones sobre escalabilidad.
La implementación final reveló una heterogeneidad claramente expresada: en categorías con más de 50 reseñas, la conversión aumentó en un 12% debido a la reducción de la carga cognitiva, y las devoluciones disminuyeron en un 3% gracias a la transmisión precisa de características clave. En contraste, en categorías nicho con menos de 10 reseñas, se observó un aumento del 8% en las devoluciones debido a la discrepancia entre las insignias generadas y la calidad real del producto, lo que llevó a la decisión de desconectar por completo las resúmenes de IA para segmentos con un volumen de datos insuficiente. Como resultado, la plataforma mantuvo un efecto neutral en el GMV total, pero mejoró significativamente la calidad de la experiencia del usuario y redujo los costos operativos en el procesamiento de devoluciones en categorías de alto flujo.
Endogeneidad de la calidad de generación como confusor
A menudo, los candidatos interpretan la implementación de insignias como un impacto binario, ignorando que la efectividad de la LLM-resumen es una función continua del volumen de reseñas originales, no una constante. De hecho, las categorías con alta conversión atraen inicialmente más reseñas, creando una causalidad inversa: popularidad → volumen de datos → calidad de IA → crecimiento detectable de la conversión, que se atribuye erróneamente solo a las insignias visuales. Un enfoque correcto requiere el uso de variables instrumentales, como la antigüedad del producto como instrumento para el volumen de reseñas, o la aplicación de Regresión por Discontinuidad en el umbral de cantidad de reseñas para aislar el efecto neto de la calidad de generación del efecto de popularidad de la categoría.
Efectos de spillovers entre categorías y substitución de atención
Los candidatos rara vez consideran que los usuarios comparan productos entre categorías durante una misma sesión, lo que crea spillovers entre categorías (cross-category spillovers). Si en la categoría de "Smartphones" aparecen atractivas insignias de IA, y en "Fundas" bloques de texto tradicionales, esto crea una asimetría de información que desplaza la demanda a la categoría de prueba no por la mejora en la UX, sino por la substitución de atención (attention substitution). Para una evaluación correcta, se necesita incluir en el modelo los efectos cruzados entre categorías a través de Econometría Espacial o analizar el cambio en la participación de la categoría en la orden total del usuario, no solo la conversión dentro de la categoría.
Efecto dinámico de revelación y curva de aprendizaje
Los analistas principiantes fijan un efecto estático en una ventana de observación a corto plazo, pasando por alto que la percepción del contenido de IA cambia con el tiempo a medida que se acumula la experiencia del usuario. Los primeros usuarios perciben las insignias como una agregación objetiva, pero tras la primera devolución del producto con una insignia engañosa, se forma un escepticismo hacia la IA, y el efecto positivo se atenúa o invierte en negativo. Para identificar este patrón se necesita un Estudio de Eventos con rezagos y variables líderes (leads and lags), así como segmentar por "edad" del usuario en relación con el primer contacto con el contenido de IA, lo que permite construir una curva de aprendizaje y prever la sostenibilidad a largo plazo del efecto.