Respuesta a la pregunta

Contexto histórico. Desde la década de 2020, la evolución del e-commerce ha desplazado el enfoque de la entrega instantánea (same-day) hacia una logística sostenible, donde la consolidación de pedidos reduce la huella de carbono y los costos de la última milla. Los primeros experimentos de Amazon Day y servicios similares demostraron que la consolidación voluntaria de entregas atrae a usuarios con baja urgencia de consumo, lo que crea endogeneidad en la evaluación del efecto sobre las métricas del producto. Los métodos tradicionales de A/B testing son inaplicables ante la consolidación forzada, ya que la infraestructura logística requiere una optimización masiva de rutas a nivel de toda la zona, y no a nivel de usuario individual.

Planteamiento del problema. Al implementar un sistema de consolidación (por ejemplo, entrega solo los martes y viernes), surge el problema de la falta de distribución aleatoria: los usuarios en las zonas de implementación difieren sistemáticamente en lejanía geográfica de los almacenes y en tolerancia a la espera. Además, existe el riesgo de contaminación espacial (spillover), donde los usuarios cambian su dirección de entrega a trabajo o familiares en regiones vecinas sin consolidación, rompiendo la suposición del SUTVA (Stable Unit Treatment Value Assumption). La estacionalidad de la demanda y la correlación del lanzamiento con la optimización logística en regiones de alto ingreso distorsionan aún más la evaluación del verdadero efecto causal.

Solución detallada. Para aislar el efecto, se aplica Staggered Difference-in-Differences (DiD) con implementación gradual (rollout) por zonas logísticas, donde los períodos previos a la implementación sirven como control para los posteriores. Es crucial verificar la suposición de tendencias paralelas a través de un análisis de event study de la dinámica de métricas antes de la implementación, para asegurarse de que no haya tendencias diferenciales entre los futuros grupos de tratamiento y control. Para cada zona se construye un Synthetic Control a partir de regiones donantes con una dinámica histórica similar de pedidos, pero sin la implementación planificada, lo que permite modelar una contrafactual y mejorar la robustez de las estimaciones.

Para ajustar la aceptación parcial (partial compliance) se utiliza regresión IV (Instrumental Variables), donde la herramienta (Z) es el hecho de que el usuario pertenezca a la zona de implementación (assignment), predecir el uso real de la consolidación (D), mientras que el resultado (Y) es la retención o la frecuencia de compras. Esto permite estimar el LATE (Local Average Treatment Effect) — el efecto para aquellos que cambiaron su comportamiento debido a la implementación (compliers), en contraste con el ITT (Intent-to-Treat), que muestra el efecto de la oferta del servicio. El análisis de heterogeneidad por categorías de productos (productos de impulso vs productos de almacenamiento) ayuda a separar la verdadera disminución de la demanda de la sustitución intertemporal (intertemporal substitution).

Situación de la vida real

Un marketplace de electrodomésticos lanzó un piloto de consolidación de entregas en tres grandes ciudades con el objetivo de reducir los costos logísticos en un 30%. Los analistas se enfrentaron a distorsiones al comparar usuarios que aceptaron la consolidación (treatment) con aquellos que rechazaron (control): los adoptadores tenían una frecuencia de compras históricamente menor y un ticket medio más alto, lo que indicaba auto-selección de compradores planificadores. Una simple comparación habría mostrado una falsa disminución en la retención, cuando en realidad el comportamiento podría haber sido estable pero distorsionado por un sesgo de selección.

Primera opción: comparación directa de métricas antes y después de la implementación (análisis pre-post) dentro de la zona. Aquí, las ventajas radican en la simplicidad de implementación y la rapidez en obtener resultados sin necesidad de recopilar datos de otras regiones. Las desventajas son evidentes: es imposible separar el efecto de la consolidación de las fluctuaciones estacionales de la demanda y las tendencias generales de crecimiento de la base de usuarios, lo que lleva a un sesgo sistemático en la evaluación cuando el lanzamiento coincide con períodos festivos o campañas publicitarias.

Segunda opción implica una comparación transversal entre zonas con implementación y sin implementación en una fecha fija. Las ventajas incluyen la posibilidad de controlar las tendencias temporales a través de un corte de datos en un solo momento y la ausencia de necesidad de una larga historia de regiones de control. Las desventajas están relacionadas con el hecho de que las regiones para la implementación se eligieron según la alta densidad de pedidos y la lealtad del público, lo que crea un fuerte sesgo de selección (selection bias) y hace que los grupos no sean comparables en características iniciales.

Tercera opción utiliza Staggered DiD con emparejamiento de puntajes de propensidad y Synthetic Control. Las ventajas incluyen el uso de regiones sin implementación como grupo de control, lo que permite retener efectos ficticios regionales y temporales, y el emparejamiento mejora la comparabilidad en características de pre-trend. Las desventajas incluyen la dificultad de validar la suposición de tendencias paralelas en casos de efectos heterogéneos a lo largo del tiempo y el riesgo de correlación espacial (spatial spillover) entre zonas vecinas, donde los usuarios pueden cambiar direcciones de entrega.

Solución seleccionada y resultado: Se eligió el tercer enfoque con el uso adicional de regresión IV en los bordes de las zonas logísticas (RDD-style boundary analysis) para la validez local. Esto permitió aislar el efecto de las diferencias regionales en el comportamiento de compra y el nivel de servicio. El análisis mostró que el verdadero efecto de la consolidación es una disminución en la frecuencia de transacciones del 8% (no 15% como en el análisis ingenuo), pero un aumento en el ticket medio del 22% gracias a la consolidación de pedidos pequeños. La retención se mantuvo al nivel del grupo de control, lo que justificó la escalabilidad de la función a otras regiones con un efecto económico proyectado.

Como resultado de la implementación, la empresa redujo los costos logísticos en un 35% gracias a la optimización de rutas, compensando la disminución en la frecuencia de pedidos con el aumento del ticket medio. El modelo de pronóstico basado en los coeficientes obtenidos permitió calcular el punto de equilibrio para lanzamientos en nuevas regiones con diferente densidad poblacional. La metodología fue aceptada como estándar para la evaluación de innovaciones logísticas en ausencia de A/B testing clásico.

Lo que los candidatos a menudo omiten

¿Cómo diferenciar la verdadera disminución de la frecuencia de compras de la sustitución intertemporal (intertemporal substitution), cuando los usuarios simplemente retrasan la compra hasta la próxima ventana de entrega?

La respuesta de los candidatos a menudo ignora la naturaleza dinámica de la demanda y supone que una disminución en la frecuencia dentro del mes equivale a la pérdida de un cliente. Es necesario analizar cohortes de usuarios con un largo retraso (más de 180 días) y distinguir categorías de productos: para productos perecederos o de impulso (snacks, accesorios) el retraso equivale a la pérdida, mientras que para compras planificadas (electrodomésticos) es simplemente un aplazamiento en el tiempo. Metodológicamente, se deben utilizar modelos de rezago distribuido o analizar el comportamiento de "almacenamiento" a través de la métrica de días de inventario en casa, calculada a partir del historial de compras de categorías con consumo regular. Si el número total de productos en 90 días ha disminuido, es una pérdida de demanda, si se mantiene igual, pero el intervalo entre pedidos ha aumentado, eso es sustitución.

¿Cómo tener en cuenta la contaminación espacial (spillover effects), cuando los usuarios cambian su dirección de entrega a trabajo o amigos en una zona vecina sin consolidación, para recibir el producto más rápido?

El estándar de DiD asume la ausencia de influencia del tratamiento en el grupo de control, pero en la práctica, los usuarios del "treatment" pueden utilizar direcciones en el "control" para pedidos urgentes, distorsionando las métricas de control hacia arriba. La solución es un filtro geográfico: analizar solo a los usuarios con dirección doméstica "estable" (historia >6 meses sin cambios) y excluir pedidos híbridos (entrega en otra zona). Alternativamente, utilizar spatial DiD con pesos inversamente proporcionales a la distancia al límite de la zona, o analizar solo regiones alejadas de los límites en más de 50 km (donut RDD), donde el spillover es mínimo.

¿Cómo interpretar correctamente la diferencia entre ITT (Intent-to-Treat) y LATE (Local Average Treatment Effect) en el contexto de la aceptación parcial (partial compliance), cuando no todos los usuarios en la zona de implementación utilizan la consolidación?

Los candidatos a menudo confunden el efecto de "oferta del servicio" y "uso real". ITT evalúa el efecto en todos los usuarios en la zona de implementación, incluidos aquellos que ignoraron la función, y es útil para el caso de negocio sobre escalabilidad. LATE (a través de regresión IV con la herramienta "presencia del servicio en la zona") evalúa el efecto solo para los compliers — aquellos que cambiaron su comportamiento debido a la implementación. Si el compliance es bajo (por ejemplo, el 30% utiliza la consolidación), ITT estará subestimado en 3 veces en relación al efecto real para los usuarios de la función. Es importante reportar ambos indicadores: ITT para pronosticar el efecto comercial general en la escalabilidad, LATE para entender el valor para un segmento específico que toma la decisión de uso.