Respuesta a la pregunta

El contexto histórico remonta a el clásico problema econométrico de la endogeneidad del precio, donde los datos de mercado observados reflejan el equilibrio de oferta y demanda, y no la reacción pura al precio. Los métodos tradicionales de estimación de la elasticidad a través de regresión OLS han dado estimaciones sesgadas, ya que los precios altos se observaban precisamente en situaciones de alta demanda, creando una correlación positiva que oculta la elasticidad negativa. La analítica de productos moderna se basa en enfoques de Inferencia Causal, desarrollados en la economía de la educación y los mercados laborales, adaptados a los mercados bidireccionales digitales (two-sided markets) como Uber, Airbnb o Delivery Hero.

El problema es que las pruebas A/B directas de precios rompen el principio de consistencia de la experiencia del usuario y crean oportunidades de arbitraje (los usuarios migran al grupo de control). Además, hay causalidad inversa: el precio afecta el comportamiento de los proveedores (supply), que se redistribuyen entre regiones, alterando el equilibrio básico del mercado. La formulación estándar de diferencia de medias (difference in means) ofrece una estimación sesgada, ya que las condiciones de alta demanda (fiestas, clima) influyen simuláneamente tanto en el precio como en la disposición a pagar.

La solución óptima combina Diseño de Discontinuidad de Regresión (RDD) en los umbrales algorítmicos de activación del coeficiente de ocupación con el enfoque de Variables Instrumentales (IV). La metodología RDD utiliza el hecho de que la vecindad del umbral (por ejemplo, 1.2x del precio base a 85% de ocupación) crea una aleatoriedad cuasi-experimental en la asignación del tratamiento. Para fortalecer la validez, se aplica el método de mínimos cuadrados en dos etapas (2SLS), donde los instrumentos son choques exógenos (condiciones climáticas impredecibles, eventos deportivos) que afectan el precio, pero que no correlacionan directamente con las preferencias individuales de los usuarios. Además, se utiliza el Método de Control Sintético para construir una región contrafactual basada en una combinación ponderada de vecindarios que no fueron sometidos a la implementación del algoritmo.

Situación de la vida real

El caso se refería a un gran servicio de entrega de comida preparada, que planeaba implementar precios dinámicos en horas pico para equilibrar la oferta y la demanda de los repartidores. La métrica básica — la tasa de cumplimiento de pedidos (fulfillment rate) — caía hasta el 70% en horas de la tarde, lo que llevaba a la pérdida de usuarios. El equipo de producto supuso que aumentar el precio en las horas pico disminuiría la demanda y atraería a más repartidores debido a una mayor compensación, pero era necesario evaluar cuantitativamente la elasticidad de la demanda sin alterar la experiencia del usuario en la ciudad de prueba.

La primera opción considerada fue la prueba A/B geográfica dividiendo ciudades vecinas en control y prueba. Pros: contrafactual limpio, simplicidad de interpretación, ausencia de contaminación cruzada dentro de la ciudad. Contras: diferencias fundamentales en la estructura de demanda entre ciudades (diferente densidad de restaurantes, diferente nivel de ingresos), migración de repartidores entre ciudades (violación de SUTVA), imposibilidad de escalar resultados a la metrópoli objetivo con un tráfico único.

La segunda opción fue un análisis temporal de interrupciones (interrupted time series) comparando periodos antes y después de la implementación. Pros: trabajo con toda la audiencia de una ciudad, consideración de estacionalidad a través de CausalImpact. Contras: imposibilidad de aislar el efecto de la fijación de precios de las tendencias de crecimiento del mercado, influencia de campañas de marketing realizadas paralelamente, cambio en el entorno competitivo durante el tiempo de observación.

La tercera opción fue el Diseño de Discontinuidad de Regresión utilizando el umbral algorítmico interno de activación del multiplicador de sobrecarga (por ejemplo, un aumento de precio ocurre al alcanzar el 80% de ocupación de los repartidores). Pros: aleatoriedad local alrededor del umbral (users just above/below threshold son comparables), aislamiento del efecto puro del precio de la demanda total, trabajo dentro de una ciudad sin grupos de control externos. Contras: estimación del Local Average Treatment Effect (LATE) solo para usuarios marginales alrededor del umbral, necesidad de grandes muestras para alcanzar potencia, sensibilidad a la manipulación del umbral por parte del algoritmo.

Se eligió una solución combinada: RDD sobre el umbral de ocupación con validación a través de Variables Instrumentales (precipitaciones inesperadas como instrumento de precio) y Control Sintético a nivel de barrios de la ciudad. Esto permitió aislar el efecto del precio del efecto de la espera (que también aumenta con la ocupación). Como resultado, se estableció que la elasticidad de la demanda es -0.8 (moderadamente elástica), pero el efecto en el balance del mercado se logra solo con un coeficiente de 1.5x+. Esto permitió optimizar los umbrales de activación y aumentar la tasa de cumplimiento hasta el 89% sin pérdida significativa de GMV.

Lo que los candidatos a menudo pasan por alto

¿Cómo distinguir el verdadero desvío de la demanda por precios del efecto de espera (delay cost), cuando el aumento del precio correlaciona con un aumento en el tiempo de entrega?

La respuesta requiere la descomposición del efecto total a través de análisis de mediación o el uso de IV con dos instrumentos: uno que solo afecta el precio (el umbral algorítmico), y otro que solo afecta el tiempo de espera (incidentes viales externos). Los analistas principiantes a menudo confunden estos efectos, sobrestimar la elasticidad del precio. Es necesario construir un modelo estructural en el que el precio y el tiempo de espera sean regresores endógenos, y la demanda sea el resultado de su interacción. Sin esto, el negocio toma decisiones de precios sin entender que parte de la caída en la conversión es causada no por el precio, sino por un servicio insatisfactorio (tiempo).

¿Por qué la estimación estándar de elasticidad a través de regresión log-log da resultados sesgados en mercados bidireccionales y cómo corregir esto?

En los mercados bidireccionales existe un sesgo de simultaneidad: el precio afecta la demanda, pero la demanda afecta el precio a través del mecanismo del algoritmo de sobrecarga. Las estimaciones de OLS estarán asintóticamente sesgadas. El enfoque correcto requiere el uso de Two-Stage Least Squares (2SLS), donde en la primera etapa el precio se predice a partir de choques exógenos (clima, eventos), y en la segunda — los valores predichos se utilizan para estimar la elasticidad. Los candidatos a menudo ignoran la necesidad de verificar la relevancia de los instrumentos (F-statistic > 10) y su validez (exclusion restriction), lo que resulta en inferencias causales no válidas.

¿Cómo considerar los efectos de red (cross-side network effects) entre clientes y proveedores al evaluar el efecto causal de la fijación de precios?

Un aumento en el precio atrae a más repartidores (efecto positivo en la oferta), lo que reduce el tiempo de espera y puede compensar el desvío negativo en la demanda. Esto crea un efecto de equilibrio general, que no se puede captar a través de equilibrio parcial. Se requiere construir un modelo estructural del mercado bidireccional (structural two-sided market model) o usar análisis de grafos bipartitos para rastrear la migración de proveedores entre zonas. Sin esto, los analistas pueden erróneamente rechazar políticas de precios efectivas sin ver el efecto compensatorio de la mejora en la calidad del servicio a través de una reducción en el tiempo de entrega.