Respuesta a la pregunta

Históricamente, los servicios de entrega de comida han evolucionado de un modelo de «entrega en 60 minutos» a una logística hiperlocal con franjas horarias precisas. Esta transición crea un problema metodológico: los restaurantes que inicialmente tienen una alta eficiencia operativa (tiempo de preparación corto, proximidad a áreas de alta densidad de pedidos) tienden a auto-seleccionarse en las primeras olas de implementación, mientras que los puntos problemáticos se conectan más tarde o nunca. La simple comparación de la conversión antes y después de la implementación lleva a una sobreestimación del efecto, ya que ignora las diferencias sistemáticas entre los early adopters y los rezagados.

El problema se agrava por la clusterización geográfica: los restaurantes en el centro de la ciudad, donde la demanda es alta y estable, suelen acceder a la función antes que los puntos periféricos con demanda volátil. Las fluctuaciones estacionales (por ejemplo, las festividades de fin de año o la baja demanda de verano) distorsionan aún más las tendencias observadas, haciendo imposible el uso de una simple diferencia de medias entre grupos.

Para aislar el efecto verdadero, es necesario aplicar una combinación de Difference-in-Differences (DiD) con efectos fijos del restaurante y del tiempo, complementada con Propensity Score Matching (PSM) para eliminar el sesgo de auto-selección. En la primera etapa, se construye un modelo de probabilidad de conexión al sistema de franjas horarias precisas basado en covariables (tiempo histórico de entrega, calificación, densidad de repartidores en el radio), después de lo cual se empareja cada restaurante tratado con un «gemelo» de control que aún no se ha conectado. Luego se evalúa la doble diferencia en la dinámica de conversión entre estas parejas, lo que permite controlar características constantes no observadas (por ejemplo, la calidad de la cocina). Para tener en cuenta la correlación espacial, se aplica la clusterización de errores estándar a nivel de celdas geográficas o se utiliza el Synthetic Control Method, que crea una combinación ponderada de restaurantes no conectados, imitando un escenario contrafactual para las unidades tratadas.

Situación de la vida real

En el mayor agregador federal de entrega se planeó implementar la función de «Entrega en un intervalo elegido de 15 minutos» para restaurantes premium. El piloto se lanzó en tres ciudades, donde primero se conectaron el 15% de los socios con un tiempo de cocción históricamente bajo y altas calificaciones. Un mes después, los analistas registraron un aumento del 22% en la conversión en los restaurantes conectados, pero el negocio dudaba si este era un efecto de la función o simplemente un reflejo de la calidad inicialmente alta de estos puntos.

Se consideraron tres enfoques de evaluación. La primera opción —una simple comparación de los promedios de cheques y conversiones antes y después de la conexión— fue rechazada de inmediato: ignoraba el crecimiento gradual del mercado y la reactivación estacional de la demanda en las festividades, lo que daba una sobreestimación del +22%, pero no tenía en cuenta que estos restaurantes ya crecían más rápido que el mercado en un 8-10% sin la nueva función.

La segunda opción —un análisis de cohortes comparando usuarios que vieron el tiempo de entrega exacto con aquellos que vieron el estándar de «40-50 minutos»— también resultó problemática: los usuarios en áreas con restaurantes premium tenían un cheque promedio y lealtad más altos desde el inicio, creando un sesgo de selección. Intentar recortar la muestra por geografía habría llevado a la pérdida del 40% de los datos y a una disminución de la potencia de la prueba.

La tercera opción, que fue elegida, incluyó construir un Synthetic Control para cada restaurante conectado basado en 50 «donantes» no conectados con una historia de ventas similar, geografía y estacionalidad. La metodología DiD se aplicó a estos grupos sintéticos ponderados con un control adicional por condiciones climáticas (que influían en la demanda de entrega) y días de la semana. Esto permitió aislar el efecto neto en +9.3% en conversión y +14% en frecuencia de pedidos repetidos, además de revelar heterogeneidad: el efecto fue significativo solo para restaurants con tiempo de cocción inferior a 12 minutos, mientras que para cocinas lentas, la ventana de entrega precisa no proporcionaba un aumento estadísticamente significativo, ya que el cuello de botella seguía siendo la producción, no la logística.

Lo que los candidatos a menudo pasan por alto

¿Cómo verificar el supuesto de tendencias paralelas (parallel trends) en DiD, cuando los early adopters son sistemáticamente diferentes del grupo de control?

Los candidatos a menudo afirman aplicar DiD sin verificar el supuesto clave: antes de la implementación, las tendencias de las métricas en los grupos de tratamiento y control deben ser paralelas. En condiciones de auto-selección, este supuesto generalmente se viola. Es necesario realizar un event study (DiD dinámica) con indicadores de períodos anteriores (lead indicators) varias semanas antes de la implementación. Si los coeficientes de estos indicadores son estadísticamente significativos y diferentes de cero, las tendencias no son paralelas, y se requiere aplicar Augmented DiD o agregar interacciones de tendencias (interactions with time trends) para controlar las tendencias diferenciales. También se puede utilizar el modelo Change-in-Changes, que es menos sensible a la violación de la paralelidad, pero requiere monotonicidad en la distribución de resultados.

¿Cómo tener en cuenta los efectos de spillover espaciales (spillover effects), cuando la implementación de entrega precisa en un área influye en el comportamiento de los usuarios en áreas vecinas sin función?

A menudo, los analistas ignoran que los usuarios pueden migrar entre áreas o cambiar sus preferencias al enterarse de la existencia de la función a través de amigos. Esto crea un sesgo positivo en el grupo de control (SUTVA violation). Para el diagnóstico, es necesario construir un Spatial DiD, incluyendo en el modelo rezagos espaciales (spatial lags) de la concentración de restaurantes conectados en un radio de 1-2 km de cada punto. Si el coeficiente del rezago espacial es significativo, existen efectos de red. En tal caso, la evaluación clásica de DiD da una estimación subestimada del efecto (attenuation bias), y se requiere el uso de Two-Stage Least Squares (2SLS) con instrumentos a nivel de restricciones administrativas (por ejemplo, la preparación técnica de un almacén específico para la clasificación por franjas temporales), que influyen en la conexión del restaurante, pero no correlacionan directamente con la demanda en áreas vecinas.

¿Por qué no se debe usar solo Propensity Score Matching sin posterior DiD, y qué errores ocurren al evaluar el efecto a largo plazo (dynamic treatment effects)?

Los especialistas principiantes a menudo aplican PSM como un método autónomo, obteniendo grupos comparables en el momento t0, pero luego comparan sus medias simples en t1. Esto ignora la estructura temporal de los datos y posibles choques temporales. El enfoque correcto es PSM-DiD, donde el emparejamiento se utiliza solo para seleccionar el grupo de control, mientras que la evaluación del efecto se lleva a cabo a través de la diferencia de diferencias. Además, los candidatos pasan por alto el problema de los efectos dinámicos: el efecto de la entrega precisa puede acumularse con el tiempo (los usuarios se acostumbran a la función) o, por el contrario, desvanecerse (efecto de novedad). Para esto, es necesario construir un staggered DiD con múltiples períodos de implementación y utilizar correcciones modernas para eliminar el sesgo que ocurre con efectos heterogéneos en el tiempo (por ejemplo, el método Callaway & Sant'Anna o Sun & Abraham para la correcta agregación de los efectos de cohortes), ya que el estándar de dos períodos DiD en tal caso ofrece una estimación sesgada del efecto promedio en los tratados (ATT).