Respuesta a la pregunta.

Históricamente, el desarrollo del e-commerce ha pasado de fichas de productos aisladas a herramientas complejas de apoyo a la decisión. En la década de 2010, la aparición de funciones de comparación de características fue una respuesta al aumento del surtido y la sobrecarga cognitiva de los usuarios; sin embargo, las métricas clásicas de correlación entre el uso de la comparación y un alto ticket medio se enfrentaron invariablemente a la endogeneidad: la función es utilizada por compradores ya motivados con alta intención de compra.

El problema de la medición radica en la triple complejidad: auto-selección por compromiso (selection bias), la adopción escalonada por categorías que rompe la sincronía (staggered adoption), y los efectos de red dentro de la categoría, cuando la comparación transfiere la demanda de un SKU a otro. Sin el control de estos factores, el analista obtendrá una estimación sesgada que sobrevalora el efecto para los usuarios activos e ignora los efectos externos en quienes no utilizan la función.

La solución detallada requiere una combinación de Instrumental Variables (IV) y Difference-in-Differences (DiD). Como instrumento se utiliza la visibilidad cuasi-aleatoria del botón de comparación, por ejemplo, a través de una prueba A/B sobre la colocación del elemento UI o factores exógenos como la resolución de pantalla que afectan la visualización. Esto permite aislar la variación no dependiente de las intenciones del usuario. Para controlar las tendencias temporales se aplica DiD con inicio escalonado (staggered DiD), comparando categorías donde la función ya ha sido lanzada con aquellas aún no afectadas, ajustando por efectos fijos de cohortes. La métrica clave se convierte en Local Average Treatment Effect (LATE) — el efecto para los “cumplidores” (compliers), aquellos que usaron la comparación solo gracias a la visibilidad del botón, lo que proporciona una estimación conservadora pero causalmente limpia.

Situación de la vida real

Contexto: un gran marketplace de electrónica lanzó la función de “Comparación de características” para smartphones y laptops. Un mes después, el análisis mostró que los usuarios que abrieron la comparación tienen un ticket medio un 40% más alto, pero, al mismo tiempo, visualizan 4 veces más páginas antes de comprar.

Opción de solución 1: Comparación directa de grupos (t-test). El analista simplemente compara las métricas medias de los usuarios con la bandera “usó comparación” frente a “no usó” en SQL. Pros: solo requiere una consulta, resultado en minutos. Contras: ignora por completo la auto-selección; un alto compromiso precede al uso de la función, y no se deriva de ella; la estimación está sesgada al alza.

Opción de solución 2: Análisis Before/After por tiempo. Comparación de las métricas de toda la plataforma antes y después del lanzamiento de la función. Pros: simplicidad de interpretación, se ve la tendencia general. Contras: estacionalidad (el lanzamiento coincidió con la presentación de nuevos iPhones), campañas de marketing y el crecimiento general del negocio ocultan completamente el efecto real; es imposible separar la influencia de la función de los choques externos.

Opción de solución 3: Regression Discontinuity (RD). Uso de una regla de umbral: el botón de comparación aparece solo después de ver 3 productos de una misma categoría. Pros: una ruptura abrupta (cutoff) crea variación cuasi-experimental alrededor del umbral. Contras: los usuarios manipulan su comportamiento, abriendo pestañas vacías para alcanzar el umbral; la “difuminación” del límite (fuzziness) viola los supuestos de RD.

Opción de solución 4: Instrumental Variables con prueba de UI. Se realiza una prueba independiente A/B sobre la visibilidad del botón (brillo, tamaño), que no cambia la funcionalidad pero afecta la probabilidad de clic. Esta prueba sirve como instrumento para la regresión de Two-Stage Least Squares (2SLS). Pros: la aleatorización garantiza la exogeneidad del instrumento; se mide el efecto solo para aquellos que se “ven obligados” a comparar por la visibilidad del botón. Contras: requiere una gran muestra para la fuerza del instrumento (first-stage F-statistic > 10); complejidad para interpretar LATE para el negocio.

Solución elegida y justificación: combinación de la Opción 4 (principal) y la Opción 2 (robustness check). La evaluación IV proporciona un efecto causal para los usuarios marginales, y DiD confirma la ausencia de sesgos globales por categorías. Este enfoque permite separar el efecto de la función de la actividad inherente de los usuarios.

Resultado final: El verdadero efecto incremental sobre el AOV fue del +8% (en lugar del +40% observado), y el tiempo de decisión no cambió significativamente. La función fue mantenida, pero el algoritmo de recomendaciones fue ajustado para no mostrar el botón de comparación a usuarios con baja actividad histórica, donde el efecto es cercano a cero, lo que redujo la carga en los servidores sin pérdida de ingresos.

Qué los candidatos a menudo pasan por alto

¿Cómo manejar correctamente la correlación de errores dentro de la sesión al analizar la elección entre múltiples alternativas?

Cuando un usuario compara productos, sus decisiones sobre cada SKU están correlacionadas dentro de una misma sesión, rompiendo la suposición de independencia de observaciones (i.i.d.). Los errores estándar de las estimaciones estarán subestimados, lo que llevará a conclusiones erróneas sobre la significancia del efecto. Para corregir esto, es necesario usar clustered standard errors a nivel de usuario o sesión, o aplicar hierarchical linear modeling (HLM). Esto es especialmente crítico al trabajar con datos de panel, donde un usuario genera múltiples comparaciones, e ignorar la agrupación puede aumentar la t-estadística de 2 a 3 veces.

¿Cómo medir el efecto externo negativo (negative spillover) en productos que no fueron incluidos en la comparación?

La función de comparación puede canibalizar las ventas de productos que no fueron incluidos en la lista de comparación, pero que son sustitutos cercanos. Los candidatos a menudo solo observan el nivel de SKU dentro del carrito, pasando por alto el equilibrio general de la categoría. Para evaluar tales efectos, es necesario analizar métricas agregadas a nivel de categoría (category-level DiD) y controlar los niveles de inventario (inventory levels). Si la comparación transfiere la demanda hacia modelos específicos, causando su escasez, el crecimiento en las ventas de competidores en el conjunto de comparación puede ser un artefacto de stock-out, y no una preferencia del usuario.

¿Cómo separar el efecto de la implementación de la función del efecto de aprendizaje de los usuarios (learning-by-doing) y la novedad (novelty effect)?

Los usuarios que descubren una nueva función, al mismo tiempo, acumulan experiencia utilizando la plataforma, lo que afecta por separado la conversión. Los analistas principiantes a menudo interpretan el aumento de métricas en los primeros adoptantes como el efecto puro del producto. Para separar estos efectos, es necesario incluir efectos fijos de antigüedad del usuario o limitar la muestra a usuarios con la misma cantidad de sesiones históricas. Alternativamente, se utiliza análisis de cohortes, comparando nuevos usuarios, a quienes se les ofrece la función desde el primer día, con cohortes “previas al lanzamiento” ajustando por tiempo calendario, lo que permite aislar la influencia de la experiencia del impacto de la herramienta de comparación.