Analítica de Producto (IT)Analista de Producto

¿Qué método permitirá evaluar cuantitativamente el efecto causal de la implementación del servicio "Compra Ahora Paga Después" (Buy Now Pay Later) sobre el ticket medio y la frecuencia de devoluciones de productos en e-commerce, si el acceso a la función está determinado por una puntuación crediticia con un umbral de aprobación estricto, excluyendo la posibilidad de un clásico A/B testing, y el comportamiento de los usuarios depende en gran medida de los picos estacionales de consumo?

Supere entrevistas con el asistente de IA Hintsage

Respuesta a la pregunta

Contexto histórico. En los últimos años, BNPL (Compra Ahora Paga Después) se ha convertido en el estándar de las integraciones fintech en el retail, permitiendo a los usuarios dividir el pago sin intereses. Los analistas enfrentan un problema fundamental: no se puede llevar a cabo un experimento aleatorizado, ya que denegar la aprobación del crédito por razones éticas y legales es imposible, y los usuarios se auto-seleccionan según su solvencia. Esto crea una endogeneidad clásica, donde la correlación observada entre el uso de BNPL y un alto ticket está determinada por características preexistentes de los clientes solventes, y no por el producto en sí.

Planteamiento del problema. Los principales desafíos incluyen una marcada discontinuidad en las características en la frontera del umbral de aprobación (por ejemplo, 700 puntos), estacionalidad (Black Friday, periodo pre-navideño), canibalización de ventas futuras (sustitución intertemporal) y aumento de devoluciones debido a compras impulsivas. Es necesario aislar el efecto incremental limpio (LATE — Efecto de Tratamiento Promedio Local) para los usuarios en la "frontera" de la aprobación, minimizando la influencia de los confusores.

Solución detallada. El enfoque óptimo es Diseño de Discontinuidad de Regresión (RDD) en el umbral de puntuación con un ancho de banda (bandwidth) de ±30-50 puntos. La metodología se basa en la suposición de aleatoriedad local: los usuarios con 695 y 705 puntos son estadísticamente indistinguibles en características observables y no observables, pero caen en diferentes grupos (control y tratamiento). Se aplica además Diferencias-en-Diferencias (DiD) para rastrear la dinámica antes y después de la implementación dentro de este rango, controlando la estacionalidad. Para evaluar la canibalización se usa un Estudio de Eventos con rezagos (gasto en t-3, t-2 meses antes de usar BNPL). Si hay una herramienta disponible (umbral de aprobación), pero hay incumplimiento (aprobados, pero que no usaron BNPL), se aplica RDD Difusa (Fuzzy RDD) a través de Mínimos Cuadrados en Dos Etapas (2SLS). Es importante verificar el balance de covariables (Pruebas de Balance de Covariables) y la densidad de la distribución (prueba de McCrary) para validar el diseño.

Situación de la vida real

Un marketplace de electrónica integró BNPL de un banco asociado con un umbral de aprobación estricto de 650 puntos en una escala interna. El negocio registró un aumento del 35% en el ticket medio de los usuarios con BNPL, pero sospechaba que se trataba de un efecto de auto-selección de clientes más solventes. Era necesario tomar una decisión sobre la expansión del límite de crédito, pero requería una evaluación del verdadero efecto causal.

Opción 1: Comparación simple "usaron BNPL" vs "no usaron" sin tener en cuenta el umbral. Ventajas: implementación muy simple en SQL, no requiere estadísticas complejas. Desventajas: sesgo crítico de selección (selection bias) — los usuarios aprobados tienen un ingreso y un historial de compras más altos, lo que da una sobreestimación del efecto de hasta +40%, no relacionado con el producto. El resultado no es adecuado para la toma de decisiones.

Opción 2: Análisis Before-After para toda la audiencia sin división en grupos. Ventajas: tiene en cuenta las tendencias generales de crecimiento de la plataforma y es fácil de interpretar. Desventajas: imposible separar el efecto de BNPL del aumento estacional (ventas navideñas) y campañas de marketing concurrentes. La evaluación resulta sesgada debido a choques temporales de demanda.

Opción 3: Diseño de Discontinuidad de Regresión (RDD) en el umbral de 650 puntos con un ancho de banda de ±40 puntos. Ventajas: utiliza un marcado salto en la probabilidad de aprobación como experimento natural, evaluando el efecto para usuarios "marginales" que "justo" pasaron o no pasaron el umbral. Controla características no medibles en el vecindario local. Desventajas: evalúa solo el efecto local (LATE), que no se puede extrapolar sin reservas a todos los usuarios con alta puntuación; requiere una gran muestra en el vecindario del umbral para una potencia estadística.

Solución elegida: combinación de RDD Aguda para usuarios en la banda de 610-690 puntos con Emparejamiento por Puntuación de Propensión según gastos históricos y categorías de compras, complementada con Diferencias-en-Diferencias para rastrear la dinámica durante 90 días después de la compra. Para controlar la estacionalidad se introdujeron efectos fijos por semanas (Efectos Fijos Semanales). Esto permitió aislar el efecto limpio del producto de las características del prestatario.

Resultado final: se identificó un aumento estadísticamente significativo en el ticket medio del 17% (ITT — Intent-to-Treat) para usuarios marginales, pero un aumento del 11% en la tasa de devoluciones debido a compras impulsivas. El efecto resultó ser heterogéneo: alto para electrónica (+24%), nulo para productos de limpieza. Basándose en los datos, se ajustó el umbral de aprobación para categorías de productos de riesgo, lo que redujo el nivel de devoluciones en un 4% sin pérdida de ingresos.

Lo que los candidatos suelen pasar por alto

¿Cómo distinguir el efecto de "novedad" (novelty effect) de un cambio de comportamiento sostenido al usar RDD?

Es necesario realizar RDD Dinámico con un análisis del efecto por intervalos temporales (RDD a nivel de cohortes). Se evalúa el efecto por separado para la semana 1-2 (novedad) y los meses 3-6 (comportamiento sostenido). Si los coeficientes difieren significativamente (verificación a través de prueba de Chow), se utiliza solo la ventana a largo plazo o se introduce una interacción del tiempo con el tratamiento. Es importante también verificar pre-trend parallel — la ausencia de una brecha en los resultados (gastos) en los períodos anteriores al cruce del umbral, lo que confirmará la validez del diseño y la ausencia de efectos de anticipación.

¿Cómo evaluar correctamente la canibalización de ventas futuras (sustitución intertemporal) al implementar BNPL?

El RDD estándar evalúa solo el efecto estático en el momento de la compra. Para la canibalización, construimos un Estudio de Eventos con rezagos y liderazgos (leads/lags) respecto al momento del primer uso de BNPL. Analizamos el gasto en los períodos t-3, t-2, t-1 (antes) y t+1, t+2, t+3 (después) de meses. Si la suma de los coeficientes en los liderazgos (periodos previos) es negativa y significativa, esto indica un préstamo del futuro (el usuario planeó la compra y la aceleró gracias a BNPL). Usamos Proyecciones Locales del método Jordà para multiplicadores dinámicos, lo que permite evaluar el efecto incremental limpio durante un período prolongado.

¿Por qué en este caso no se puede utilizar un emparejamiento de propensión simple (Propensity Score Matching) sin RDD, y qué suposiciones se violan?

PSM requiere la suposición de Inconfundibilidad (Ignorabilidad), lo que es imposible debido a la presencia de características no medibles que afectan la aprobación (por ejemplo, "disciplina financiera", fuentes de ingresos informales que no se incluyen en la puntuación). Estas variables latentes correlacionan tanto con la aprobación como con el gasto, creando sesgo. RDD relaja este requisito a una aleatoriedad local alrededor del umbral (Aleatorización Local), donde las características no medibles se distribuyen aleatoriamente. Los candidatos a menudo ignoran la necesidad de verificar la densidad de la distribución de puntuaciones (prueba de McCrary) y el balance de covariables (pruebas de balance de covariables) en el vecindario del umbral, lo que es crítico para la validez de las conclusiones.