Respuesta a la pregunta

Los métodos tradicionales de fijación de precios en e-commerce durante mucho tiempo se basaron en análisis correlacionales simples o pruebas A/B cortas para evaluar cambios en los umbrales de envío. Sin embargo, con el desarrollo de la teoría de inferencia causal (Causal Inference), se hizo evidente que cambios abruptos en la política de envío para toda la base crean problemas de endogeneidad de auto-selección y dinámica temporal. La analítica de productos moderna requiere el uso de métodos cuasi-experimentales, como el Synthetic Control Method (SCM) y las Series Temporales Estructurales Bayesianas (BSTS), que fueron desarrollados para evaluar políticas macroeconómicas, pero se han adaptado con éxito a productos digitales con métricas altamente volátiles.

Al aumentar el umbral de envío gratuito, surge un problema complejo de identificar el efecto medio causal local (LATE). Los usuarios con alta disposición de compra cambian su comportamiento (completan hasta el umbral), mientras que los usuarios marginales retrasan su compra o se van a la competencia. Un análisis clásico de antes y después ofrece una estimación sesgada debido a la estacionalidad, efectos inflacionarios y campañas competitivas. Además, se observa un efecto de sustitución intertemporal (intertemporal substitution), cuando los usuarios agrupan compras a lo largo del tiempo, creando un aumento artificial en el ticket promedio, no relacionado con un aumento real en la demanda, lo que requiere modelar la estructura temporal de la respuesta.

El enfoque óptimo es una combinación del Synthetic Control Method a nivel de cohortes agregadas de usuarios y Regression Discontinuity Design (RDD) para la evaluación local del efecto sobre los consumidores marginales. Para el SCM, se construye una combinación ponderada de regiones geográficas o segmentos con dinámicas históricas similares, que mimetiza la tendencia del grupo objetivo antes de la intervención, utilizando el algoritmo de optimización de pesos Abadie-Diamond-Hainmueller. Para RDD, se analizan transacciones en una franja estrecha alrededor del umbral (ancho óptimo a través del algoritmo Imbens-Kalyanaraman), lo que permite aislar el efecto puro del estímulo. Se aplica adicionalmente CausalImpact basado en BSTS para la evaluación dinámica de la desviación de la tendencia sintética, y la significancia estadística se calcula a través de pruebas de permutación (pruebas placebo) en datos históricos.

Situación de la vida real

Un gran marketplace de moda decidió aumentar el umbral de envío gratuito de 1500₽ a 2500₽ para toda su audiencia en Rusia de manera simultánea. El equipo de producto registró un aumento del 22% en el ticket promedio en las primeras dos semanas, pero el CFO dudó de la sostenibilidad de este efecto, temiendo la pérdida de usuarios valiosos y la canibalización de futuras ventas a través del mecanismo de compras retrasadas. El analista tuvo la tarea de separar el verdadero efecto causal del ruido de las ventas estacionales y del cambio en el comportamiento de los competidores, que lanzaron paralelamente promociones de envío.

La primera opción considerada fue una simple comparación de las métricas durante 30 días antes y 30 días después del cambio, utilizando la prueba t y calculando el uplift en porcentaje. Ventajas: implementación rápida en un día y alta comprensión para la alta dirección sin profundizar en estadística. Desventajas: ignorancia total de la tendencia estacional ascendente (inicio de la colección de primavera), falta de control sobre choques externos (campaña publicitaria de un competidor) y la incapacidad de evaluar el efecto dinámico del aumento de carritos, lo que conduce a una sobreestimación del efecto del 40-60%.

La segunda opción fue el Geographic Difference-in-Differences, utilizando regiones sin cambios en el umbral (por ejemplo, áreas remotas con limitaciones logísticas) como grupo control. Ventajas: variación natural y capacidad de captar diferencias regionales en sensibilidad a precios a través de efectos fijos. Desventajas: violación crítica de la suposición de tendencias paralelas (parallel trends) debido a la migración de usuarios entre ciudades (violación de SUTVA) y diferencias significativas en el entorno competitivo entre las capitales y las regiones, lo que hace que el grupo control sea sistemáticamente no comparable.

La tercera opción fue el Synthetic Control Method a nivel de cohortes de usuarios, formadas por frecuencia histórica de compras y ticket promedio, construido utilizando datos de 12 meses antes del cambio. Ventajas: creación de un conjunto óptimo de pesos de segmentos "donantes", considerando la estacionalidad, el día de la semana y las tendencias a través de una combinación convexa; posibilidad de validación visual de la calidad del ajuste en el período de pre-tratamiento. Desventajas: requisito de una larga historia de datos (mínimo 10-15 períodos), sensibilidad a rupturas estructurales (regime switch), como cambios de comportamiento pandémicos, y dificultad en la interpretación de los pesos para el negocio.

Se eligió una solución combinada: SCM para evaluar el efecto total sobre los ingresos y RDD con un polinomio local de segundo grado para evaluar el efecto en los usuarios marginales en el rango de 2300-2700₽. Esto permitió separar el efecto de "compra adicional" (basket augmentation) del efecto de "pérdida" (churn) y tener en cuenta correctamente la estacionalidad a través de un modelo estructural bayesiano de series temporales (BSTS), integrado en CausalImpact.

El resultado final mostró que el aumento observado del ticket del 22% estaba sobreestimado aproximadamente al doble: el efecto incremental verdadero fue del 11%, de los cuales el 6% correspondía a un desplazamiento temporal de la demanda (intertemporal substitution) y el 5% a un aumento real en el tamaño del carrito. El análisis reveló un segmento de usuarios "sensibles al envío" (15% de la base), que mostró una mayor pérdida del 8% y una disminución de la frecuencia de pedidos del 12%, lo que permitió ajustar la política: introducir un umbral híbrido de 1990₽ para el segmento de bajo ticket con alta frecuencia histórica de devoluciones, neutralizando así el efecto negativo sobre la retención.

Lo que los candidatos a menudo pasan por alto

¿Cómo considerar correctamente el efecto de la acumulación de carritos (cart pooling) y la sustitución intertemporal de compras al evaluar el umbral dinámico de envío, si los usuarios retrasan estratégicamente la conversión?

Respuesta: Es necesario modelar la estructura temporal de la toma de decisiones a través del survival analysis (modelo de Cox con riesgos proporcionales) o analizar los intervalos entre sesiones (inter-purchase time). La métrica clave se convierte en no la conversión puntual, sino el cambio en la tasa de riesgo de compra en función de la suma actual del carrito y la distancia al umbral. Además, se deben analizar las cohortes de usuarios que alcanzaron el umbral mediante compra adicional, en busca de una mayor proporción de devoluciones de productos dentro de 14 días (canibalización de devoluciones), lo que distorsiona la métrica GMV y requiere corrección en la tasa de devoluciones en el modelo.

¿Por qué los intervalos de confianza estándar (confidence intervals) son incorrectos para el Synthetic Control Method y cómo se debe evaluar la significancia estadística del efecto causal en esta metodología?

Respuesta: En el SCM, las estimaciones están sujetas a inferential uncertainty, relacionada con el proceso de selección de pesos de las unidades donantes y la finitud de la muestra, lo que viola las suposiciones de la estadística frecuentista clásica sobre la independencia de las observaciones. El enfoque correcto es la prueba de permutación (placebo test), donde el mismo algoritmo SCM se aplica a cada unidad donante del pool (pretendiendo que recibieron el tratamiento), creando una distribución empírica de efectos placebo. El efecto se considera estadísticamente significativo al nivel del 5%, si la razón post/pre-RMSPE para la unidad tratada supera el percentil 95 de la distribución placebo, como se formaliza en el trabajo de Abadie, Diamond y Hainmueller (2010, 2015).

¿Cómo distinguir el efecto del cambio del umbral de envío de un cambio simultáneo en la calidad del tráfico o la actividad competitiva al utilizar Causal Impact o Synthetic Control?

Respuesta: Es fundamental incluir en el modelo covariables (predictores) que no estén afectadas por la intervención (untreated confounders), pero que estén correlacionadas con la métrica objetivo, como la asistencia al sitio web de los competidores (a través de SimilarWeb o datos de panel), el volumen total del mercado de e-commerce en la región, o la CTR del tráfico orgánico. En la estructura bayesiana BSTS, que subyace a CausalImpact, estas variables ingresan como regresores en el modelo state-space, aislando choques generales. También es necesario probar la causalidad de Granger entre los predictores y el resultado antes de la intervención y utilizar pruebas placebo-in-time, desplazando la fecha de "intervención" a períodos históricos para comprobar la ausencia de falsos positivos.