Respuesta a la pregunta

La evolución de la paginación a desplazamiento infinito en la década de 2010, popularizada por Facebook y Twitter, cambió radicalmente los patrones de consumo de contenido. Los primeros analistas de producto confiaban en comparaciones ingenuas de "antes y después", sin tener en cuenta las tendencias estacionales y la auto-selección de los usuarios. El problema se complicó con el desarrollo de un ecosistema multiplataforma, donde los usuarios migran sin problemas entre dispositivos con diferentes versiones de interfaz.

Es necesario aislar el efecto causal de la implementación de desplazamiento infinito en las métricas de profundidad de desplazamiento y monetización publicitaria. Los confusores críticos incluyen el gradual despliegue geográfico, que crea un tratamiento escalonado, y la migración entre dispositivos de los usuarios, lo que lleva a la contaminación de grupos. La simple comparación de regiones no es válida debido a las diferencias estructurales en el comportamiento de la audiencia. El análisis a nivel de sesiones individuales ignora los efectos de arrastre entre dispositivos y distorsiona la estimación de retención.

Aplicamos diferencia en diferencias escalonadas con corrección por efectos heterogéneos a través de estimadores Callaway-Sant'Anna o Sun-Abraham, que manejan correctamente la implementación por etapas. Para combatir la contaminación cruzada entre dispositivos, agrupamos errores estándar a nivel de usuario e incluimos efectos fijos de usuario, tratando el uso real de la función como tratamiento, y el calendario de despliegue regional como variable instrumental (IV). Al analizar los ingresos, realizamos un análisis de mediación para separar el efecto directo del cambio de diseño en la visibilidad de los anuncios y el efecto indirecto a través del aumento del compromiso. Validamos tendencias paralelas en los datos previos al despliegue utilizando CausalImpact para construir un control sintético.

Situación de la vida real

En una aplicación de medios con 5 millones de MAU, se planeaba reemplazar la paginación clásica por desplazamiento infinito para aumentar el tiempo en la aplicación. El problema de medición residía en el despliegue gradual: primero Moscú y San Petersburgo, luego las regiones un mes después. Además, los usuarios cambiaban activamente entre la aplicación móvil (donde estaba la nueva función) y la tablet (versión antigua), creando una fuerte contaminación entre grupos.

La primera opción fue una simple comparación de métricas antes y después del lanzamiento en una región. Ventajas: alta velocidad de cálculo y mínimos requisitos de datos. Desventajas: imposible separar el efecto de la función de la estacionalidad del ciclo de noticias y el crecimiento natural de la base; las cifras obtenidas resultaron sesgadas en un +40% debido al tráfico de Año Nuevo.

La segunda opción fue una prueba A/B geográfica pura de Moscú contra el resto de las regiones. Ventajas: clara división de grupos en el momento del corte. Desventajas: diferencias estructurales en el comportamiento (los moscovitas leen más noticias de negocios), además la migración de usuarios entre regiones y dispositivos creaba una fuga de hasta el 15% en el grupo de control, lo que hacía que las estimaciones no fueran válidas.

La solución elegida fue DiD escalonado con efectos fijos de usuario y agrupación de errores a nivel regional. Utilizamos el momento de la primera entrada del usuario en la aplicación con la nueva versión como inicio del tratamiento, y el calendario de despliegue regional como instrumento para la evaluación IV. Esto permitió tener en cuenta la contaminación cruzada entre dispositivos como una coincidencia parcial entre tratamiento y control, proporcionando una estimación no sesgada.

Resultado final: el aumento neto de la profundidad de desplazamiento fue del +22% (en lugar del +35% en la evaluación ingenua), pero el RPM cayó un 8% debido a la reducción en la visibilidad de los espacios publicitarios. Se decidió implementar un modo híbrido de "cargar más" con un bloque publicitario obligatorio cada 10 tarjetas. Esto resultó en un +18% en la profundidad de visualización manteniendo la monetización al nivel de base.

Lo que los candidatos a menudo pasan por alto

¿Cómo manejar correctamente la correlación espacial de errores en un despliegue geográfico?

Los candidatos a menudo agrupan los errores estándar solo a nivel de usuario, ignorando que los choques regionales (clima, noticias locales) correlacionan errores dentro de la geografía. Es necesario utilizar doble agrupación (usuario + región) o errores estándar espaciales de Conley, si se tienen coordenadas precisas. Sin esto, los intervalos de confianza serán demasiado estrechos, lo que llevará a falsos positivos al verificar la significancia del efecto.

¿Cómo combatir la endogeneidad de la velocidad de actualización de la aplicación, si los usuarios activos reciben el desplazamiento infinito antes que los pasivos?

Este es un problema de auto-selección en la adopción escalonada. El intento de tratar (ITT) por región da una estimación conservadora, pero Tratamiento sobre los Tratados (TOT) requiere un instrumento. Use la asignación de región/tiempo como IV (variable instrumental) para el uso real de la función, o aplique ponderación por probabilidad inversa (IPW) con una puntuación de propensidad basada en la actividad histórica. De lo contrario, la estimación estará sesgada hacia los usuarios activos con un alto compromiso base.

¿Cómo separar el efecto de la mejora de UX del cambio técnico en la visibilidad de los bloques publicitarios al analizar los ingresos?

Se requiere un análisis de mediación o mínimos cuadrados en dos etapas (2SLS). En la primera etapa, evaluamos el efecto del desplazamiento infinito en la profundidad de desplazamiento (UX puro), en la segunda, el efecto de la profundidad en las impresiones de anuncios. El efecto directo del diseño (menos anuncios en pantalla) se evalúa por separado a través de do-cálculo o control artificial con espacios publicitarios ficticios. Sin esta separación, se puede rechazar erróneamente una función exitosa debido a una aparente caída en la monetización que en realidad fue causada por un cambio en el diseño.