El contexto histórico de tales cambios se remonta a 2017, cuando Netflix abandonó la escala de cinco estrellas a favor de «pulgares arriba/abajo», y YouTube siguió su ejemplo al ocultar los 'no me gusta'. Estos cambios fueron motivados por el hecho de que las calificaciones de cinco estrellas mostraban inflación «asiática» (concentración alrededor de 4-5 estrellas) y correlacionaban mal con el consumo real de contenido. El problema radica en la separación del efecto puro del cambio en el mecanismo de recolección de retroalimentación de los factores de confusión: estacionalidad de las categorías, auto-selección de usuarios activos y la degradación temporal de los modelos de Filtrado Colaborativo debido a la esparsidad de nuevas señales.
Para resolver esto se emplea Staggered Difference-in-Differences (DiD) con categorías de contenido, donde las categorías tratadas (treatment) se comparan con las que aún no se han traducido (control), considerando el tiempo variable de implementación. Para categorías sin analogías directas, se utiliza el Método de Control Sintético, que crea una combinación ponderada de categorías de control que imitan lo contrafactual. La endogeneidad en la auto-selección de usuarios calificadores se corrige mediante Heckman Correction o Propensity Score Matching basado en el historial de visualización y tenure. Para evaluar la calidad de las recomendaciones se aplica Evaluación Contrafactual con métricas de NDCG y MAP en muestras hold-out, excluyendo el período de quemado (burn-in) de 2 a 4 semanas para estabilizar la matriz de factores.
El servicio de streaming «CinemaFlow» planeó reemplazar su obsoleto sistema de cinco estrellas por uno binario para aumentar la participación. El problema clave era que el equipo sospechaba que se perdería el poder predictivo de las recomendaciones debido a la disminución de la granularidad de la señal, además de temer una caída abrupta en la actividad de los usuarios, acostumbrados a la escala detallada. Era necesario encontrar un método de evaluación que tuviera en cuenta el despliegue gradual por géneros (primero documentales, luego comedias) y los efectos en red, donde la visibilidad de las calificaciones existentes influía en el deseo de nuevos usuarios de votar.
Se consideraba la opción de test A/B clásico con la división de usuarios a nivel de user_id. Las ventajas del enfoque incluían la pureza del experimento y la simplicidad de la interpretación del efecto causal. Las desventajas eran críticas: el algoritmo de Filtrado Colaborativo perdía integridad debido a la mezcla de dos tipos de señales en una misma matriz, lo que creaba artefactos en las recomendaciones para ambos grupos; existía el riesgo de contaminación cruzada a través de funciones sociales (los usuarios veían las calificaciones de amigos de otro grupo); el negocio temía una reacción negativa ante una UX fragmentada dentro de un solo producto.
Una alternativa fue el análisis antes/después comparando métricas antes y después de la transición para cada categoría por separado. Las ventajas incluían la simplicidad técnica y la falta de necesidad de mantener el antiguo sistema para parte de los usuarios. Las desventajas incluían la incapacidad de separar el efecto de la intervención de las fluctuaciones estacionales de las visualizaciones (por ejemplo, las películas navideñas se evalúan de manera diferente en diciembre), ignorando el efecto del comportamiento gregario y la auto-selección de los primeros adoptantes del nuevo sistema, lo que daba una evaluación sesgada.
Se eligió un enfoque híbrido de Staggered DiD con Control Sintético y Variables Instrumentales. Este método permitió usar categorías que aún no habían pasado al sistema binario como control para las que ya lo habían hecho, corrigiendo tendencias temporales. El Control Sintético compensó la heterogeneidad entre géneros, y el enfoque de IV usando la hora del día de la publicación del contenido (cuando hay menos usuarios en línea y el efecto de deslizamiento es más débil) como instrumento ayudó a aislar la influencia pura de la interfaz de calificación. La elección se debió a la necesidad de mantener la operatividad del sistema de recomendación durante la transición y obtener estimaciones no sesgadas con disponibilidad parcial de datos.
El resultado final mostró que el volumen de calificaciones aumentó en un 220% debido a la reducción de la carga cognitiva, pero la precisión de las recomendaciones (medida en NDCG@10) cayó un 12% en las primeras tres semanas. Este período coincidió con el sobreajuste del modelo de Matrix Factorization, después del cual las métricas se recuperaron hacia el baseline gracias al aumento de la densidad de la matriz. Con base en estos datos, el equipo de producto decidió una implementación total con un presupuesto adicional para el arranque en frío de nuevos usuarios.
¿Cómo considerar correctamente el período de degradación de la calidad de las recomendaciones durante el sobreajuste del modelo y separar esto del verdadero efecto del nuevo sistema?
Respuesta: Es necesario formalizar el concepto de «período de quemado» (burn-in period), generalmente de 2 a 4 semanas, durante el cual las métricas de calidad de las recomendaciones se excluyen del análisis causal principal. Utilice Evaluación Contrafactual en conjuntos históricos hold-out, comparando métricas offline (NDCG, MAP, Precision@K) antes y después de la transición, pero estratificadas por nivel de actividad de los usuarios. Es importante rastrear las métricas de cobertura y diversidad por separado de la precisión, ya que las señales binarias pueden aumentar el sesgo de popularidad (popularity bias) con una regularización insuficiente.
¿Cómo manejar la endogeneidad de la auto-selección de los usuarios dispuestos a dejar calificaciones bajo el nuevo sistema y distinguir su comportamiento del efecto de la propia interfaz?
Respuesta: Los usuarios que evalúan contenido bajo el sistema binario se diferencian sistemáticamente de los calificadores de «estrellas» (tendentes a preferencias extremas). Utilice Heckman Correction (modelo de dos etapas con ecuación de selección) o Inverse Probability Weighting basado en scores de propensidad calculados a partir de características observables (historial de visualización, tenure, tiempo de sesión). Como Variable Instrumental, utilice variaciones aleatorias en la interfaz (orden de los botones de like/dislike) o pruebas A/B sobre la visibilidad de calificaciones agregadas para aislar el efecto puro del mecanismo de recolección de datos.
¿Cómo evaluar cuantitativamente el efecto del comportamiento gregario (herding) y separarlo de la verdadera preferencia del usuario al analizar el volumen de calificaciones?
Respuesta: Divida a los usuarios en «pioneros» (first-movers), que ven un contador de calificaciones vacío, y «seguidores», que ven un número no cero de votos. Aplique Regression Discontinuity Design (RDD) alrededor de los umbrales de visibilidad de la calificación (por ejemplo, cuando el contenido entra en el top-10 de la categoría). Compare la probabilidad de calificación de los usuarios que ven el resultado agregado con aquellos que ven «sé el primero». Para ajustes dinámicos, utilice Thompson Sampling o métodos bayesianos para evaluar la verdadera calidad del contenido, filtrando los efectos en red a través de los rezagos temporales entre la publicación y la calificación.