Respuesta a la pregunta

Históricamente, la evaluación de la implementación de medidas de seguridad con fricción, como el 2FA, ha evolucionado desde comparaciones ingenuas de "antes/después" hacia la aplicación de métodos cuasi-experimentales. Cuando la clásica prueba A/B no es posible debido a limitaciones técnicas en la arquitectura de autenticación o consideraciones éticas de seguridad, los analistas recurren a métodos de diferencias en diferencias (Difference-in-Differences, DiD), que permiten separar el efecto de la intervención de las tendencias temporales. La principal dificultad radica en que los usuarios dispuestos a aceptar la fricción adicional que representa el 2FA se diferencian sistemáticamente de los demás por su alta motivación o paranoia, lo que crea endogeneidad de auto-selección y distorsiona las simples estimaciones de correlación.

El planteamiento del problema requiere la aislación del verdadero efecto de la autenticación obligatoria de los confundidores: picos estacionales de actividad (por ejemplo, ventas previas a las festividades), degradación natural de la retención de nuevas cohortes y diferencias en las características básicas de los usuarios que adoptan medidas de seguridad. Sin una estrategia correcta de identificación, el negocio puede erróneamente interpretar una caída estacional natural de la actividad como un efecto negativo del 2FA, o, por el contrario, confundir el efecto de auto-selección con el éxito de la función, lo que llevaría a una expansión injustificada de medidas de fricción a toda la audiencia.

La solución detallada implica la aplicación de Staggered Difference-in-Differences (DiD) con un enfoque orientado a cohortes, donde diferentes grupos de usuarios (cohortes) reciben el 2FA obligatorio en diferentes momentos. Para cada cohorte, el grupo de control consiste en los usuarios que se registraron justo antes de la implementación de la medida (límite de ruptura de regresión) o en cohortes que aún no han sido intervenidas. Para corregir la auto-selección, se aplica el Inverse Probability Weighting (IPW): se construyen pesos de observación basados en el comportamiento previo (historial de uso de biometría, frecuencia de cambio de contraseñas) para equilibrar las características de los grupos. La estacionalidad se tiene en cuenta a través de efectos fijos de tiempo (variables dummy semanales o mensuales). Se utilizan Synthetic Control Method (control sintético, que pondera cohortes no tratadas para simular la tendencia de las tratadas) y Event Study (para visualizar la dinámica del efecto antes y después de la implementación y verificar la suposición de tendencias paralelas) como verificaciones robustas.

Situación de la vida real

En un banco móvil se decidió implementar el 2FA obligatorio a través de SMS y aplicaciones TOTP para todos los accesos, renunciando a la opcionalidad debido al aumento del fraude. El rollout se organizó por cohortes de la fecha de registro: los usuarios registrados antes del 1 de marzo permanecieron sin cambios (control), y cada semana posterior de nuevos registros recibió el 2FA obligatorio (tratamiento). Dos semanas después del inicio, las métricas mostraron una caída catastrófica del 30% en la retención a 30 días entre las cohortes “tratadas”, lo que provocó pánico en el departamento de producto y propuestas para revertir el cambio.

La primera opción considerada fue una simple comparación de la tasa de retención de usuarios con 2FA y sin ella durante el mismo periodo de observación. Las ventajas del enfoque radican en su instantaneidad y claridad; las desventajas residen en un error metodológico fatal: los usuarios que activamente optaron por incluir el 2FA antes de su implementación obligatoria eran hiperarctivos o paranoicos, y su retención natural era un 40% más alta, lo que hacía que tal comparación fuera incorrecta.

La segunda opción fue el análisis de las curvas de retención por cohortes (Cohort Retention Curves) sin control temporal, simplemente comparando visualmente las curvas de usuarios "marzianos" y "febrilmente". Las ventajas incluyen la consideración de diferentes puntos de partida en el ciclo de vida; las desventajas son la ignorancia de la estacionalidad (marzo es un período de pagos de impuestos con un pico de actividad seguido de una caída natural) y la incapacidad de separar el efecto de la tendencia general de la disminución de la calidad del tráfico de nuevos canales publicitarios lanzados en marzo.

La tercera opción fue la aplicación de Staggered DiD utilizando el método Callaway-Sant'Anna para evaluar efectos grupales y temporales (Group-Time ATT) y emparejamiento por propensidad (Propensity Score Matching) dentro de cada cohorte. Las ventajas son el manejo correcto de diferentes tiempos de tratamiento, la exclusión del uso de “ya tratados” como control para “recién tratados”, y el control de la estacionalidad a través de efectos fijos; las desventajas son la complejidad de la interpretación, la necesidad de verificar tendencias paralelas y la sensibilidad a outliers en cohorts pequeñas.

Se eligió la tercera solución, ya que las dos primeras mostraban escenarios que eran o demasiado optimistas (auto-selección) o catastróficamente pesimistas (estacionalidad). El análisis mostró que el verdadero efecto causal sobre la retención a 30 días fue del -8% (y no del -25%), compensado por un crecimiento del +20% en el ticket medio debido a la mayor confianza en cuentas seguras. El resultado final fue que el equipo de producto mantuvo el 2FA obligatorio, pero añadió la opción de “Dispositivo de confianza por 30 días”, lo que redujo la fricción y devolvió la retención a su nivel base en 60 días, manteniendo al mismo tiempo una reducción del 60% en las operaciones fraudulentas.

Lo que los candidatos a menudo pasan por alto

¿Por qué el estimador estándar de efectos fijos bidireccional (TWFE) en la regresión lineal con efectos fijos de usuario y tiempo puede dar estimaciones sesgadas o incluso de signo opuesto en un diseño de implementación escalonada de 2FA, y qué estimador moderno se debe utilizar en su lugar?

En el enfoque estándar de TWFE, los usuarios que ya han sido tratados (2FA) en una cohorte temprana se utilizan automáticamente como grupo de control para los usuarios de cohortes posteriores que aún no han recibido tratamiento. Si el efecto del 2FA cambia con el tiempo (por ejemplo, los usuarios se adaptan y la fricción disminuye) o varía entre cohortes (adoptantes tempranos vs tardíos), las unidades tratadas anteriormente son un “mal” contrafactual, lo que lleva al problema de los “pesos negativos” (negative weights) y sesgos en las estimaciones. En lugar de TWFE, se debe aplicar el estimador Callaway-Sant'Anna, que calcula el efecto promedio del tratamiento (ATT) por separado para cada grupo y período, utilizando como control solo unidades nunca tratadas o aún no tratadas, excluyendo a las ya tratadas del pool de control, garantizando así una identificación correcta. Para los principiantes: imaginen que están comparando el efecto de una nueva regla para una clase que la recibió en septiembre, usando como control una clase que recibió la regla en octubre. Si para octubre la primera clase ya se ha acostumbrado, mientras que la segunda solo está experimentando el shock, obtendrán una imagen distorsionada: los métodos modernos comparan solo con aquellos que no han recibido la norma en absoluto.

¿Cómo manejar correctamente la situación de “contaminación” o “fugas” de tratamiento, cuando los usuarios que están sujetos al 2FA obligatorio en dispositivos móviles comienzan a usar activamente la versión web de la aplicación (donde el 2FA aún no se ha implementado) para eludir las restricciones, y por qué la simple exclusión de tales usuarios de la muestra crea sesgo?

La simple exclusión de “fugitivos” crea un sesgo de truncamiento (truncation bias) o sesgo de selección, ya que los usuarios que permanecen en la muestra son aquellos que son menos motivados para evitar la fricción o menos técnicamente competentes, distorsionando así la estimación del efecto en la población objetivo. El enfoque correcto es el análisis de Intent-to-Treat (ITT), donde todos los usuarios se analizan en el grupo al que fueron asignados originalmente (la aplicación móvil con 2FA), independientemente del comportamiento real (cambio a la web). Para evaluar el efecto del propio mecanismo (Treatment-on-Treated, TOT), se utiliza el método de Two-Stage Least Squares (2SLS), donde el uso real de 2FA se instrumentaliza a través de la pertenencia a la cohorte de implementación, lo que permite limpiar la estimación de la “insubordinación” (non-compliance). Para los principiantes: esto es análogo a un ensayo clínico donde los pacientes del grupo de tratamiento dejan de tomar el medicamento. Si los eliminan, perderán la información sobre si el medicamento “rechaza” a cierto tipo de pacientes y sobreestiman la eficacia. ITT analiza la “asignación”, no la “administración real”, manteniendo la aleatorización.

¿Cómo distinguir el efecto puro de la fricción (la necesidad de introducir el código) del efecto de “señalización” o “signposting” (la sensación de mayor seguridad generada por la mera existencia del 2FA), y por qué es importante realizar un análisis de mediación al evaluar el impacto en la monetización?

La importancia de la separación radica en que estos efectos tienen direcciones opuestas en su influencia en el comportamiento: la fricción reduce la conversión y la frecuencia de accesos, mientras que la señal de seguridad aumenta la disposición a realizar transacciones grandes y la confianza en la plataforma. Para la separación se utiliza el Causal Mediation Analysis (por ejemplo, el enfoque Imai-Keele-Tingley), donde el efecto total (Total Effect) se descompone en directo (fricción) e indirecto a través de la percepción de seguridad (mediador). Alternativamente, se crea un grupo placebo que recibe un banner sobre “aumento de seguridad” y un ícono de 2FA, pero sin el requisito real de introducir un código; la comparación entre [Completo 2FA] vs [Banner sin 2FA] vs [Control] permite aislar los componentes. Si el aumento en el ticket medio se observa también en el grupo placebo, predomina el efecto señal; si solo en el grupo completo, el efecto se debe a la misma procedimiento de autenticación. Para los principiantes: imaginen que hay un guardia en la puerta de un restaurante. La gente puede gastar más al sentirse segura (señal), pero alguien puede no querer entrar por no querer pasar el control (fricción). Para entender si deben mantener al guardia, hay que separar estos efectos, de lo contrario, no entenderán si deben contratar a un guardia más amigable o si basta con poner un cartel que diga “Seguridad garantizada”.