Respuesta a la pregunta

Contexto histórico

La evolución del comercio electrónico desde compras impulsivas hasta consumo planificado comenzó con la implementación de Amazon Subscribe & Save en 2008, cuando los minoristas se dieron cuenta de que retener a los clientes al reducir la carga cognitiva en pedidos repetidos era más efectivo que ofrecer descuentos agresivos. Para 2015, aparecieron listas inteligentes con pronósticos de Machine Learning para resurtido, que analizaban los intervalos entre compras de leche o pañales. Sin embargo, las primeras evaluaciones de efectividad se enfrentaron a un problema fundamental: los usuarios que crean listas inicialmente demostraron una mayor disciplina en la planificación y lealtad, lo que hizo que una comparación directa con una audiencia 'fría' fuera incorrecta desde el punto de vista de la causalidad.

Planteamiento del problema

La dificultad clave reside en la endogeneidad de la auto-selección: la creación de una lista no es un efecto aleatorio, sino una consecuencia de la intención consciente del usuario de optimizar sus gastos. Esto lleva a un sesgo en la muestra, donde el 'tratamiento' (tener una lista) se correlaciona con características no observables (organización, tamaño de la familia, regularidad en el consumo). Además, la dinámica temporal también juega un papel: el efecto de las listas para productos perecederos (resurtido semanal) difiere del efecto para productos estacionales (decoraciones navideñas), y las recomendaciones de ML pueden provocar canibalización de adiciones espontáneas al carrito, distorsionando el análisis general de los ingresos.

Solución detallada

El enfoque óptimo es una combinación de Difference-in-Differences (DiD) con Propensity Score Matching (PSM) y Fixed Effects para controlar la estacionalidad. En la primera etapa, se utiliza Causal Forest para evaluar la heterogeneidad del efecto por categorías de productos, identificando segmentos donde las listas realmente aumentan la frecuencia, y no solo fijan un comportamiento existente. Para aislar la relación causal, se aplica Regression Discontinuity Design (RDD) en el umbral de pedidos anteriores, donde la función de 'Listas Guardadas' se vuelve disponible (por ejemplo, después del tercer pedido), creando condiciones cuasi-experimentales de randomización local. Alternativamente, en un despliegue gradual por regiones, se utiliza Synthetic Control Method, construyendo una combinación ponderada de regiones de control que imitan la dinámica de la región de prueba antes de la implementación. Para tener en cuenta la canibalización, se analizan no solo las métricas de los usuarios de listas, sino también el Diversion Ratio - la proporción de pedidos que se trasladan de sesiones espontáneas a planificadas a través de listas.

Situación de la vida real

Contexto: El hipermercado 'ComidaSiempre' lanzaba la función de 'Refrigerador Inteligente' - listas de resurtido automáticas basadas en análisis de IA de historial de compras y fechas de caducidad. El objetivo era aumentar la frecuencia de pedidos en un 20% al reducir la fricción en las compras repetidas de productos de uso doméstico.

Opción de solución 1: Comparación directa de usuarios con listas y sin listas (Antes-Después)

El equipo de análisis propuso comparar el ticket medio y la frecuencia de pedidos de 10,000 usuarios que crearon listas en la primera semana, con un grupo de control de usuarios aleatorios sin listas. Las ventajas de este enfoque son la máxima simplicidad de implementación y la rapidez en obtener resultados. Las desventajas son un sesgo de muestra catastrófico: los creadores de listas estaban formados por familias con niños que realizaban pedidos semanales, mientras que el grupo de control incluía visitantes aleatorios con pedidos únicos. El aumento observado del 35% resultó ser un artefacto de auto-selección, y no un efecto de la función.

Opción de solución 2: A/B testing forzado con visibilidad del botón

El equipo de producto propuso mostrar el botón 'Crear lista' en verde brillante al 50% de los usuarios, y al otro 50% en gris y oculto en el menú, creando una diferencia en la penetración. Ventajas - la posibilidad de evaluar el efecto limpio de la disponibilidad de la función. Desventajas - riesgos éticos y de UX: ocultar una función útil para los usuarios leales disminuía su experiencia, y la baja conversión en la creación de listas (2% vs 15% en la prueba) llevó a una potencia estadística insuficiente y a la incapacidad de evaluar el efecto a largo plazo de la habituación.

Opción de solución 3: Regression Discontinuity Design por umbral de actividad (Solución elegida)

Los analistas eligieron el método de regresión discontinua, utilizando un umbral de 3 pedidos en 60 días: los usuarios que alcanzaron este umbral recibieron automáticamente acceso al 'Refrigerador Inteligente' con recomendaciones de ML, mientras que los usuarios con 2 pedidos no lo obtuvieron. Esto creó condiciones cuasi-experimentales de randomización local cerca del umbral. Ventajas - minimización del sesgo de auto-selección en una estrecha franja alrededor del corte (los usuarios con 2 y 3 pedidos son estadísticamente indistinguibles en características observadas). Desventajas - limitación de la generalización de resultados solo a los usuarios 'fronterizos' y no a toda la base; necesidad de verificar la continuidad de la distribución de covariables alrededor del umbral.

Resultado final: El análisis mostró un aumento real del 12% en la frecuencia de pedidos (en lugar del aparente 35%) y un aumento del 8% en el ticket medio solo para la categoría de 'Productos de Limpieza y Productos de Papel'. Para productos perecederos, el efecto fue estadísticamente insignificante debido a limitaciones físicas en la fecha de caducidad. Se identificó que el 30% del crecimiento de ingresos provenía de la canibalización de compras espontáneas que se trasladaron a planificadas. Con base en los datos, la empresa ajustó el modelo de ML, excluyendo de las recomendaciones categorías impulsivas (dulces, papas fritas), lo que mantuvo el crecimiento de ingresos general, pero aumentó la satisfacción del usuario, ya que el 'Refrigerador Inteligente' dejó de 'sugerir' hábitos perjudiciales.

Lo que los candidatos a menudo pasan por alto

¿Por qué no se pueden simplemente comparar las métricas de usuarios con listas y sin listas a través de una prueba t normal o regresión lineal?

La respuesta está en el problema fundamental de la endogeneidad y el sesgo de auto-selección. Los usuarios que dedican tiempo a crear listas estructuradas sistemáticamente difieren de los visitantes aleatorios en características no observables: tienen un mayor consumo planificado, un mayor tamaño de la familia, y una mayor previsibilidad en su cronograma de vida. La regresión OLS, incluso controlando por demografía, no puede capturar 'la cultura de la planificación' como una variable latente. Esto conduce a una sobreestimación del efecto de la función, ya que métricas altas se explican no por las listas en sí, sino por la alta implicación original de los usuarios. Para una evaluación correcta, es necesario usar variables instrumentales (IV), diseños cuasi-experimentales (RDD, DiD) o métodos de doble diferencia con emparejamiento (PSM-DiD), que aíslan la variación no dependiente de preferencias individuales.

¿Cómo separar el efecto del tipo de usuario 'planificador' del efecto real de la función de listas al analizar el campo de impacto intensivo y extensivo?

Es necesario distinguir entre intensive margin (aumento de la frecuencia entre aquellos que ya planifican compras) y extensive margin (atraer compradores impulsivos a la planificación). Para esto se utiliza Causal Forest o análisis de Efectos de Tratamiento Heterogéneos, que permiten evaluar el efecto por subgrupos. La clave es usar regresión logística ordinal con variables ficticias para el número de listas creadas. Si la función funciona, veremos un aumento significativo de métricas al pasar de 0 a 1 lista (margen extensivo), pero cambios no significativos al pasar de 5 a 6 listas (margen intensivo, donde domina la auto-selección). También es importante analizar time-to-event (tiempo hasta el siguiente pedido) a través del Cox Proportional Hazards Model, controlando el riesgo básico de fuga, lo que permite separar la regularidad 'natural' de la señal 'artificial' del sistema.

¿Cómo tener en cuenta correctamente la canibalización entre las compras planificadas a través de listas y las adiciones espontáneas al carrito, cuando las listas pueden simplemente trasladar ingresos de un canal a otro sin un aumento en el GMV general?

Los candidatos a menudo ignoran la necesidad de analizar diversion ratio y la composición del carrito. Es necesario construir un modelo de triple diferencia (DiD con una medida adicional), comparando los cambios en la estructura del carrito de los usuarios con listas antes y después de la implementación, en relación con el grupo de control. Es importante rastrear la métrica 'share of wallet' - la proporción de categorías que tradicionalmente se compran espontáneamente (dulces, aperitivos) en el ticket medio. Si la proporción de categorías impulsivas cae entre los usuarios con listas, pero aumenta en el control, esto es una señal de canibalización. Para la evaluación cuantitativa se utiliza Almost Ideal Demand System (AIDS) o el Modelo de Rotterdam, que evalúan la elasticidad de sustitución entre canales de compra. Sin este análisis, la empresa podría invertir erróneamente en el desarrollo de la función de listas, obteniendo un efecto incremental cero a nivel comercial, a pesar del crecimiento de métricas en el segmento de 'usuarios de listas'.