Respuesta a la pregunta

Contexto histórico

En productos fintech, la verificación de identidad (KYC) es un requisito regulatorio que crea una fricción significativa en la experiencia del usuario. Los métodos clásicos de evaluación de efectividad requieren control aleatorio, lo cual es imposible por razones legales y éticas en una implementación masiva. Históricamente, los analistas se han apoyado en informes de cohortes simples que no toman en cuenta la endogeneidad de la selección y los choques externos del mercado.

Planteamiento del problema

Es necesario aislar el efecto limpio del paso por KYC de la pérdida natural de usuarios, fluctuaciones estacionales de actividad y diferencias en las características básicas entre aquellos que pasan la verificación el primer día y los que posponen el procedimiento. El problema se complica debido a que los adoptantes tardíos pueden diferir sistemáticamente en motivación y comportamiento financiero, lo que crea sesgo de supervivencia.

Solución detallada

Aplicar una combinación de Difference-in-Differences (DiD) con Propensity Score Matching (PSM) para construir un grupo de control comparable de usuarios con verificación retrasada. Utilizar Synthetic Control Method como chequeo de robustez, creando una combinación ponderada de segmentos no afectados (por ejemplo, usuarios de regiones con requisitos regulatorios retrasados). Para tener en cuenta la estacionalidad, incluir efectos fijos temporales (month-of-year fixed effects) y aplicar Event Study Design con tiempo relativo para validar la suposición de tendencias paralelas.

Situación de la vida real

La compañía lanzó un control de doble factor obligatorio con documentos para todos los usuarios mayores de 18 años en marzo, lo que coincidió con la temporada de impuestos. El negocio notó una caída de actividad, pero no pudo disociar el efecto KYC de la caída estacional y el envío masivo de notificaciones push por parte de competidores. Los analistas necesitaban evaluar el impacto neto en la retención a 30 días y ARPU a los 60 días después de la implementación.

Opción 1: Comparación simple de métricas antes y después (Pre-Post Analysis)

Los analistas calculan la retención promedio por mes antes de KYC y la comparan con los indicadores posteriores. Los pros de este enfoque residen en su máxima simplicidad y rapidez de respuesta sin necesidad de modelos complejos. Los contras incluyen la ignorancia de estacionalidad (marzo vs abril), actividades competitivas externas y la tendencia natural de crecimiento o caída de la base, lo que lleva a un sesgo de estimación de hasta el 40%.

Opción 2: DiD ingenuo usando jóvenes (16-17 años) como control

El equipo sugiere comparar los cambios en el grupo objetivo (18+) con los cambios en un grupo no expuesto a KYC. Los pros consisten en tener en cuenta las tendencias del mercado en general y la estacionalidad. Los contras son críticos: adolescentes y adultos tienen comportamientos financieros fundamentalmente diferentes, lo que rompe la suposición de tendencias paralelas; además, diferentes cohortes están sujetas a diferentes efectos de ciclo de vida.

Opción 3: Control sintético con retraso temporal

Se crea un grupo de control artificial como una combinación ponderada de usuarios de regiones piloto donde KYC aún no se ha implementado, ajustando los pesos según la actividad de los 6 meses previos. Los pros incluyen la minimización de la dependencia de un solo grupo de control y el ajuste automático a patrones estacionales a través de una larga historia. Los contras son los altos requisitos de volumen de datos, la complejidad de la interpretación de pesos y la sensibilidad a los valores atípicos en períodos históricos.

Solución seleccionada y justificación

Se eligió un enfoque híbrido: PSM-DiD utilizando usuarios que por razones técnicas pospusieron KYC durante 2-3 semanas como grupo de control, más Synthetic Control para validación. Esta solución permitió equilibrar las características observables (edad, dispositivo, actividad histórica) a través de PSM, mientras que DiD capturó los efectos temporales. El control sintético confirmó que los resultados no son sensibles a la elección de un grupo de control específico.

Resultado final

El análisis mostró que KYC reduce la retención a 7 días en un 18% durante la primera semana, pero aumenta el ticket promedio en un 22% al excluir las transacciones fraudulentas. El efecto neto sobre el LTV a 90 días resultó ser neutral (-2%, estadísticamente no significativo). Con base en estos datos, el equipo de producto dividió el proceso de verificación en tres micro-pasos, lo que redujo la fricción en un 35% sin perder efectividad antifraude.

Lo que los candidatos a menudo pasan por alto

¿Cómo tratar correctamente la censura a la derecha (right censoring) de los datos al analizar el efecto a largo plazo de KYC, si la ventana de observación está limitada y las cohortes pasan la verificación de forma asincrónica?

Los candidatos a menudo ignoran que los usuarios que pasan KYC más tarde tienen menos tiempo para exhibir comportamiento en la ventana de observación, lo que crea sesgo. Es necesario aplicar métodos de análisis de supervivencia (Survival Analysis), como el modelo de riesgos proporcionales de Cox o el estimador de Kaplan-Meier, que consideran las observaciones censuradas. Alternativamente, para métricas como LTV, se puede utilizar regresión Tobit o modelos de datos censurados. También es importante aplicar staggered adoption design en DiD con un tratamiento adecuado de las cohortes "limpias" (clean controls), ya que el estándar de DiD de dos períodos dará estimaciones sesgadas con la implementación escalonada.

¿Por qué el método estándar de puntuaciones de propensidad (PSM) puede dar estimaciones sesgadas en el contexto de la verificación obligatoria y qué modificaciones son necesarias para tener en cuenta la dinámica temporal?

El PSM estándar ignora la dependencia temporal y los factores ocultos, como la motivación del usuario o el volumen de transacciones esperado. En el contexto de KYC, es crítico utilizar Time-Dependent Propensity Score Matching, donde las puntuaciones se calculan para cada período por separado, o Inverse Probability of Treatment Weighting (IPTW) con covariables variables en el tiempo. También es necesario verificar la condición de soporte común (overlap condition) para evitar la extrapolación más allá de los datos observados, y utilizar Coarsened Exact Matching (CEM) para aumentar la robustez en muestras pequeñas.

¿Cómo distinguir el efecto real de pasar por KYC del efecto de anticipación (anticipation effect) y verificar el cumplimiento de la suposición de tendencias paralelas?

Para separar los efectos, se debe aplicar Event Study Design con variables dummy sobre el tiempo relativo (relative time) antes y después del evento. Si los coeficientes de las variables lead (períodos anteriores a KYC) difieren significativamente de cero, esto indica un efecto de anticipación o una violación de las tendencias paralelas. Para verificar la robustez, se deben utilizar pruebas placebo moviendo la fecha de implementación a períodos anteriores o pruebas de falsificación en variables de resultado que no deberían haber cambiado. En caso de violación de tendencias, se puede aplicar Synthetic Difference-in-Differences (SDiD), que corrige la descoordinación de tendencias mediante revaloración.