El problema de evaluar la calidad de los resultados de búsqueda está ligado a un paradoja fundamental de la observación: solo vemos clics en aquellas posiciones que el usuario ha visto, pero la probabilidad de visualización cae exponencialmente con el rango. Los trabajos clásicos de Joachims et al. sobre position bias y Richardson sobre la examination hypothesis establecieron las bases para entender que un clic no equivale a relevancia. En el contexto de la analítica de productos, esto conlleva la necesidad de separar la verdadera preferencia del usuario de los artefactos de la interfaz, especialmente cuando el cambio en el algoritmo de clasificación afecta a toda la base de usuarios al mismo tiempo.
En una actualización global del motor de búsqueda, las métricas observadas (CTR, profundidad de visualización, conversión) cambian bajo la influencia de dos confusores: el cambio en el propio orden de los documentos y el cambio en la probabilidad de ser vistos. Sin la posibilidad de dividir a los usuarios en grupos de control y prueba, la clásica prueba A/B es imposible, y las fluctuaciones estacionales crean tendencias temporales que correlacionan con el momento del lanzamiento. La tarea del analista radica en aislar el efecto puro de la clasificación de estos ruidos, dadas las limitaciones de los datos.
El enfoque óptimo combina métodos de cuasi-experimentos y ajustes por sesgos. En la primera etapa se aplica Difference-in-Differences con control sintético: se construye una combinación ponderada de períodos históricos o segmentos de productos que minimiza el error de predicción de las métricas pre-tratamiento. Para ajustar el position bias, se utiliza Inverse Propensity Weighting (IPW), donde los propensity scores se evalúan a través de la probabilidad de visualización de la posición basándose en logs aleatorizados previos o a través del algoritmo de Expectation-Maximization bajo la suposición del Examination-Cascade Model. Adicionalmente, para efectos no lineales se aplican Causal Forests, que permiten modelar la heterogeneidad del efecto por categorías de productos y segmentos de usuarios.
En un marketplace de electrónica, el equipo de búsqueda reemplazó BM25 por un clasificador de BERT basado en redes neuronales, optimizado para rentabilidad. Dos semanas después del lanzamiento, el métrica de GMV por sesión de búsqueda creció un 18%, pero la profundidad de visualización cayó un 25%. El negocio dudaba si el crecimiento estaba relacionado con el algoritmo o con el inicio de las rebajas, que coincidieron con el lanzamiento, y también se preocupaba por la degradación de la experiencia del usuario en la larga cola de solicitudes.
El primer opción considerada fue una simple comparación de métricas antes y después del lanzamiento a través de un t-test. La ventaja era la rapidez y la ausencia de necesidad de una infraestructura compleja. Sin embargo, las desventajas son evidentes: la incapacidad de separar el efecto estacional de las rebajas del efecto del algoritmo, la ignorancia del position bias (el nuevo algoritmo podía mostrar productos caros más arriba simplemente porque generan más dinero, y no porque sean más relevantes), y la falta de consideración de la inflación general de la demanda durante el período de promociones.
La segunda opción fue un análisis de Interrupted Time Series (ITS) con descomposición estacional a través de Prophet o SARIMA. Esto permitiría tener en cuenta las tendencias y la estacionalidad, construyendo un valor de referencia pronosticado de las métricas sin el lanzamiento. Las ventajas incluían rigurosidad estadística y la posibilidad de modelar autocorrelaciones. Sin embargo, las desventajas incluían la sensibilidad al punto de ruptura (si el lanzamiento fue gradual), la complejidad de la interpretación de los coeficientes para el negocio y la suposición de linealidad de las tendencias, que a menudo se rompe en e-commerce durante campañas promocionales masivas.
La tercera opción fue el desarrollo de un Synthetic Control Method a nivel de categorías de productos: creando una cesta ponderada de solicitudes o categorías no afectadas, donde el algoritmo no cambió (por ejemplo, debido a limitaciones técnicas en ciertas localidades), como un grupo de control para la comparación. Las ventajas estaban en la percepción visual y la intuición para los interesados, así como en menor sensibilidad a las suposiciones sobre la forma de distribución de errores. Las desventajas incluían la necesidad de identificar unidades de control adecuadas con dinámica similar (lo cual es difícil en un lanzamiento global) y el riesgo de overfitting al elegir los pesos.
Finalmente, se eligió una metodología híbrida: Diff-in-Diff con control sintético a nivel de categorías de productos, combinada con ajuste IPW en la posición de exhibición. Esto permitió separar el efecto del cambio en la clasificación de los picos estacionales y corregir la distorsión causada por el hecho de que los productos caros ahora aparecían con más frecuencia en las posiciones superiores. La elección se basó en la necesidad de considerar simultáneamente la estructura temporal de los datos y los sesgos estructurales en la exposición.
El resultado fue establecer que el 14% del crecimiento del GMV se explica precisamente por el algoritmo, mientras que el 4% restante —por la estacionalidad. A su vez, se detectó que en las solicitudes head (top-20% en frecuencia) la conversión creció un 22%, mientras que en las solicitudes tail cayó un 15%, lo que fue compensado por el aumento del ticket promedio. Esto condujo a la decisión de implementar un esquema híbrido: un clasificador basado en redes neuronales para consultas populares y un clasificador clásico para las raras, equilibrando así las métricas.
¿Cómo considerar correctamente el position bias en ausencia de un experimento aleatorizado?
Sin demostraciones aleatorizadas especiales, se puede evaluar la propensity a través del algoritmo de Expectation-Maximization, suponiendo que un clic = examination × relevancia. Los candidatos a menudo proponen simplemente agregar la posición como una característica en la regresión, pero esto ignora la interacción no lineal entre la posición y la relevancia. El enfoque correcto es utilizar Click Models (Cascade Model o DBN — Dependent Click Model) para evaluar la probabilidad de examen, y luego ponderar las observaciones inversamente proporcionales a esta probabilidad (IPW). Sin esto, la estimación del efecto de la clasificación estará sesgada hacia los resultados de mayor rango.
¿Por qué una simple comparación de clics antes y después del cambio en el algoritmo proporciona una estimación sesgada incluso al considerar la estacionalidad?
Además del position bias, existe el efecto de exploración vs explotación y el aprendizaje del usuario. Un nuevo algoritmo puede explorar (explore) menos, ofreciendo resultados más predecibles, lo que reduce el engagement a corto plazo. O, al contrario, los usuarios pueden adaptarse a la nueva estructura de resultados, cambiando los patrones de desplazamiento (scrolling behavior), lo que viola las suposiciones de estacionariedad del análisis de series de tiempo. Los candidatos pasan por alto la necesidad de verificar la parallel trends assumption en Diff-in-Diff en datos pre-período y la importancia de los retrasos en la agregación (no se pueden comparar días a día debido a los efectos del day-of-week, se necesita una agregación de al menos una semana).
¿Cómo distinguir el efecto de mejora del matching de consulta-producto del efecto del cambio en la composición del assortimento de los resultados superiores?
Esta distinción es crítica para entender el impacto a largo plazo en el LTV. Si el nuevo algoritmo simplemente desplaza los resultados hacia productos caros (assortment shift), en lugar de comprender mejor la intención del usuario (relevance improvement), el crecimiento en la conversión puede ser a corto plazo debido al efecto de novedad. Para separar esto, es necesario utilizar Causal Forests o Meta-learners (S-Learner, T-Learner) con efectos fijos de productos (product fixed effects), comparando el mismo producto en diferentes posiciones antes y después del cambio. Si el efecto se observa únicamente gracias al cambio en la composición de productos en la parte superior (por ejemplo, la desaparición de opciones económicas), esto requiere una respuesta de producto diferente que si el CTR mejoró en posiciones fijas para dicho producto.