Respuesta a la pregunta

Contexto histórico. En el comercio electrónico clásico, la falta de un producto en el pedido (out-of-stock) se resolvía tradicionalmente a través de la cancelación de la línea o una llamada manual de un gerente, lo que reducía drásticamente la conversión y la satisfacción. Con el desarrollo de los sistemas de recomendación de ML, se volvió posible ofrecer sustituciones en tiempo real basadas en la proximidad semántica, la paridad de precios y el historial de sustituciones. Sin embargo, una simple comparación de pedidos con y sin sustituciones proporciona una estimación sesgada, ya que la propia existencia de la sustitución correlaciona con el déficit inicial del producto, y los usuarios que aceptan sustituciones automáticas difieren sistemáticamente de aquellos que no las permiten.

Planteamiento del problema. La principal dificultad radica en la endogeneidad de la auto-selección: los usuarios leales son más propensos a permitir sustituciones automáticas, y los déficits aleatorios afectan la muestra de manera desigual según las categorías (por ejemplo, productos perecederos frente a tecnología). Además, la implementación ocurre a nivel de los almacenes, lo que excluye la clásica prueba A/B a nivel de usuarios debido a la contaminación a través del inventario común. Es necesario aislar el efecto puro de la calidad de la sustitución de ML del negativo básico de la falta del producto y tener en cuenta la heterogeneidad entre categorías.

Solución detallada. El enfoque óptimo es una combinación de Difference-in-Differences (DiD) a nivel de almacenes y Causal Forest para evaluar la heterogeneidad del efecto. Para los almacenes con la implementación de sustituciones de ML (tratamiento), se selecciona un grupo de control a través del Método de Control Sintético, utilizando almacenes sin sustituciones automáticas con una estructura de demanda y estacionalidad similares. Para los usuarios dentro de los almacenes de tratamiento, se aplica Propensity Score Matching para emparejar a quienes aceptan y rechazan las sustituciones según características históricas (frecuencia de pedidos, valor medio del pedido, preferencias categóricas). El efecto se evalúa como Efecto Promedio de Tratamiento Condicional (CATE) desglosado por categorías de sustituibilidad (alta/media/baja), lo que permite separar el efecto tecnológico del efecto de selección.

Situación de la vida real

La empresa "ProductoPlus" implementó un sistema de sustituciones inteligentes para posiciones faltantes en pedidos en línea. El problema era que el 15% de los pedidos contenían posiciones out-of-stock, lo que llevaba a la pérdida de usuarios. A los analistas les necesitaba medir si realmente las sustituciones de ML reducían el efecto negativo del déficit o simplemente enmascaraban problemas de adquisiciones.

Primera opción — prueba clásica de A/B entre usuarios con división en el grupo "sustitución automática activada" y "desactivada". Pros: interpretación simple y comparabilidad directa de las métricas de conversión. Contras: no es práctico, ya que un almacén atiende a ambos grupos, y si el producto se agota, no se puede "devolver" para el grupo de control, creando un colapso logístico y contaminación.

Segunda opción — comparación "antes y después" en los mismos almacenes sin grupo de control. Pros: simplicidad en el cálculo y falta de necesidad de sincronización con otros almacenes. Contras: la estacionalidad de la demanda de productos y los cambios en la matriz de productos distorsionan el resultado, haciendo imposible separar el efecto de la función del crecimiento general de la base.

Tercera opción — diseño cuasiexperimental de Difference-in-Differences usando microalmacenes urbanos como unidades de aleatorización, donde los almacenes de tratamiento recibían el modelo de ML y los de control permanecían con la aprobación manual. Pros: elimina tendencias sistemáticas y estacionalidad, permite utilizar conclusiones estadísticamente significativas. Contras: requiere una estricta suposición de tendencias paralelas y un número suficiente de almacenes homogéneos para construir un control sintético.

Solución elegida: el equipo optó por la tercera opción con la aplicación adicional de Causal Forest para segmentar usuarios según la propensión a aceptar sustituciones. Esto permitió aislar el efecto para "conservadores" y "primeros seguidores" por separado, corrigiendo el análisis en función de la historia de pedidos previa a través de Propensity Score Matching.

Resultado final: se pudo establecer que las sustituciones de ML aumentan la retención en un 12% solo para las categorías con alta sustituibilidad (lácteos, comestibles), pero reducen la satisfacción en un 8% para productos nicho (cerveza artesana, productos orgánicos), donde las sustituciones son percibidas como intrusivas. La empresa limitó las sustituciones automáticas a las categorías con alta correlación de preferencias, lo que resultó en un aumento de 0.4 puntos en NPS y una reducción del 23% en los costos operativos del reagrupamiento manual.

Lo que los candidatos a menudo pasan por alto

¿Cómo distinguir el efecto de la tecnología de sustituciones del efecto de calidad de un modelo de ML específico y evitar el sesgo de supervivencia (survivorship bias)?

Respuesta. Los candidatos a menudo confunden el efecto tecnológico (la posibilidad de sustitución en sí) con el cualitativo (la precisión de la selección del análogo). Para realizar la separación, es necesario construir una función de dosis-respuesta (dose-response function), donde la "dosis" es la probabilidad de relevancia de la sustitución según la métrica del modelo (NDCG@1). Utilizando Fuzzy Regression Discontinuity alrededor del umbral de la tasa de aceptación del modelo (por ejemplo, sustituciones con confianza > 0.8 frente a 0.6), se puede aislar el efecto puro de la calidad del efecto de la existencia de la función. Al mismo tiempo, es importante considerar el sesgo de supervivencia: los usuarios que recibieron malas sustituciones en el primer pedido pueden desactivar la función para siempre, distorsionando la muestra a favor de casos exitosos. Para la corrección, se aplica el modelo de selección de Heckman, que modela conjuntamente la ecuación de selección (probabilidad de permanecer en la muestra tras la primera experiencia) y la ecuación de resultado (satisfacción).

¿Cómo tener en cuenta la contaminación cruzada (spillover) entre categorías, cuando una mala sustitución en una categoría afecta la percepción de todo el pedido y la cancelación de otras posiciones?

Respuesta. El enfoque estándar evalúa el efecto de la categoría de manera aislada, ignorando el spillover negativo en el carrito. Para tener en cuenta los efectos inter-categoriales, es necesario modelar el pedido como un sistema de productos interdependientes, utilizando Modelos Causales de Grafos o Modelado de Ecuaciones Estructurales (SEM). Específicamente: se construye un gráfico de dependencias entre categorías (por ejemplo, la sustitución de yogur afecta la percepción de los cereales), y el efecto se evalúa a través del Efecto Total del Tratamiento controlando las covariables de posiciones vecinas. Alternativamente, se puede usar Análisis de Mediación, donde el mediador es el "indicador de decepción" (eliminación de otros productos del carrito después de mostrar una sustitución). Esto permite descomponer el efecto general en directo (dentro de la categoría) e indirecto (a través de la modificación del carrito), evitando la sobreestimación del beneficio de las sustituciones.

¿Cómo interpretar correctamente los resultados si el modelo de ML muestra un aprendizaje dinámico (learning effects), y la calidad de las sustituciones mejora con el tiempo, creando una tendencia temporal en el grupo de tratamiento?

Respuesta. Los analistas principiantes ignoran la no estacionaridad del efecto, asumiendo un ATE constante durante todo el horizonte de observación. En el aprendizaje dinámico del modelo, el efecto "hoy" difiere sistemáticamente del efecto "hace un mes", violando la suposición de Suposición de Valor de Tratamiento de Unidad Estable (SUTVA) sobre la estabilidad temporal. La solución es aplicar Modelos de Coeficientes Variables en el Tiempo o Series Temporales Estructurales Bayesianos (BSTS) con modelación de la tendencia del efecto como variable latente. En el marco de DiD, es necesario incluir la interacción entre el tiempo y el tratamiento (diseño de estudio de eventos), verificando la hipótesis de tendencias paralelas para cada corte temporal. Si el efecto crece, es importante distinguir entre la curva de aprendizaje del modelo mismo (mejoramiento del algoritmo) y la adaptación del usuario (acostumbramiento de los usuarios a la función), utilizando diferentes cohortes de usuarios y versiones del modelo para la descomposición.