Le contexte historique de tels changements remonte à 2017, lorsque Netflix a abandonné l'échelle de notation à cinq étoiles en faveur des pouces « haut/bas », et YouTube a suivi cet exemple en cachant les « dislikés ». Ces changements ont été motivés par le fait que les évaluations à cinq étoiles démontraient une inflation « asiatique » (concentration autour de 4-5 étoiles) et corrélaient mal avec la consommation effective de contenu. Le problème réside dans l'isolation de l'effet pur du changement de mécanisme de collecte de feedback des facteurs confondants : saisonnalité des catégories, auto-sélection des utilisateurs actifs et dégradation temporelle des modèles de Collaborative Filtering en raison de la rareté des nouveaux signaux.
Pour résoudre ce problème, on utilise Staggered Difference-in-Differences (DiD) avec des catégories de contenu, où les catégories traitées (treatment) sont comparées à celles qui n'ont pas encore été transférées (control), en tenant compte des différents temps d'implémentation. Pour les catégories sans analogues directs, on utilise la Synthetic Control Method, qui crée une combinaison pondérée de catégories de contrôle, imitant un contre-factuel. L'endogénéité de l'auto-sélection des utilisateurs évaluateurs est corrigée grâce à la Heckman Correction ou au Propensity Score Matching basé sur l'historique des visualisations et de l'ancienneté. Pour évaluer la qualité des recommandations, la Counterfactual Evaluation est appliquée avec des métriques NDCG et MAP sur des échantillons de validation, en excluant la période de combustion (burn-in) d'une durée de 2-4 semaines pour stabiliser la matrice des facteurs.
Le service de streaming « CinemaFlow » prévoyait de remplacer son ancien système de notation à cinq étoiles par un système binaire pour stimuler l'engagement. Le principal problème était que l'équipe craignait une perte de puissance prédictive des recommandations en raison de la réduction de la granularité du signal, et s'inquiétait également d'une chute brutale de l'activité des utilisateurs habitués à l'échelle détaillée. Il était nécessaire de trouver une méthode d'évaluation qui prenne en compte le déploiement progressif par genres (d'abord les documentaires, puis les comédies) et les effets réseau, où la visibilité des évaluations existantes influençait la volonté des nouveaux utilisateurs à voter.
L'option d'un test A/B classique avec division des utilisateurs au niveau de l'user_id a été envisagée. Les avantages de l'approche incluaient la pureté de l'expérience et la simplicité d'interprétation de l'effet causal. Les inconvénients étaient critiques : l'algorithme de Collaborative Filtering perdait son intégrité à cause du mélange de deux types de signaux dans une seule matrice, ce qui créait des artefacts dans les recommandations pour les deux groupes ; il y avait un risque de contamination croisée via des fonctionnalités sociales (les utilisateurs voyaient les évaluations d'amis d'un autre groupe) ; l'entreprise craignait une réaction négative à l'UX fragmenté au sein d'un même produit.
Une alternative était l'analyse avant/après comparant les métriques avant et après la transition pour chaque catégorie séparément. Les avantages résidaient dans la simplicité technique et l'absence de besoin de maintenir l'ancien système pour une partie des utilisateurs. Les inconvénients incluaient l'incapacité à séparer l'effet de l'intervention des fluctuations saisonnières des visionnages (par exemple, les films de Noël sont évalués différemment en décembre), l'ignorance de l'effet de comportement de groupe et l'auto-sélection des premiers adoptants du nouveau système, ce qui donnait une estimation biaisée.
Un approche hybride Staggered DiD avec Synthetic Controls et Instrumental Variables a été choisie. Cette méthode a permis d'utiliser les catégories qui n'étaient pas encore passées au système binaire comme contrôles pour celles qui l'étaient déjà, en corrigeant les tendances temporelles. Le Synthetic Control a compensé l'hétérogénéité entre les genres, tandis que l'approche IV utilisant le moment de la journée de publication du contenu (lorsqu'il y a moins d'utilisateurs en ligne et un comportement de groupe plus faible) comme instrument a aidé à isoler l'influence pure de l'interface d'évaluation. Ce choix était dicté par la nécessité de maintenir la fonctionnalité du système de recommandation durant la transition et d'obtenir des évaluations non biaisées lors de l'accessibilité partielle des données.
Le résultat final a montré que le volume des évaluations avait augmenté de 220 % grâce à la réduction de la charge cognitive, mais la précision des recommandations (mesurée par NDCG@10) avait chuté de 12 % dans les trois premières semaines. Cette période correspondait à la sur-formation du modèle de Matrix Factorization, après quoi les métriques avaient récupéré leur niveau de référence grâce à l'augmentation de la densité de la matrice. Sur la base de ces données, l'équipe produit a décidé d'un déploiement complet avec un budget supplémentaire pour un démarrage à froid pour les nouveaux utilisateurs.
Comment prendre correctement en compte la période de dégradation de la qualité des recommandations durant la ré-formation du modèle et la séparer de l'effet réel du nouveau système ?
Réponse : Il est nécessaire de formaliser le concept de « période de combustion » (burn-in period), généralement de 2-4 semaines, durant laquelle les métriques de qualité des recommandations sont exclues de l'analyse causale principale. Utilisez Counterfactual Evaluation sur des ensembles historiques de validation, en comparant des métriques hors ligne (NDCG, MAP, Precision@K) avant et après la transition, mais stratifiées par niveau d'activité des utilisateurs. Il est important de surveiller les métriques de coverage et de diversity séparément de l'accuracy, car les signaux binaires peuvent augmenter le biais de popularité (popularity bias) en cas de régularisation insuffisante.
Comment traiter l'endogénéité de l'auto-sélection des utilisateurs prêts à évaluer sous le nouveau système, et distinguer leur comportement de celui de l'interface elle-même ?
Réponse : Les utilisateurs qui évaluent le contenu sous le système binaire se différencient systématiquement des évaluateurs « étoilés » (tendant vers des préférences extrêmes). Appliquez la Heckman Correction (modèle à deux étapes avec une équation de sélection) ou le Inverse Probability Weighting sur la base des scores de propension calculés selon des caractéristiques observables (historique de visionnage, ancienneté, durée de session). Comme Instrumental Variable, utilisez des variations aléatoires de l'interface (l'ordre des boutons j'aime / je n'aime pas) ou des tests A/B sur la visibilité des notations agrégées pour isoler l'effet pur du mécanisme de collecte des données.
Comment évaluer quantitativement l'effet de comportement de groupe (herding) et le séparer de la réelle préférence de l'utilisateur lors de l'analyse du volume des évaluations ?
Réponse : Divisez les utilisateurs en « pionniers » (first-movers), voyant un compteur d'évaluations vide, et en « suiveurs », voyant un nombre non nul de votes. Appliquez le Regression Discontinuity Design (RDD) autour des seuils de visibilité des notations (par exemple, lorsque le contenu entre dans le top 10 d'une catégorie). Comparez la probabilité d'évaluation des utilisateurs voyant le résultat agrégé à ceux qui voient « soyez le premier ». Pour des ajustements dynamiques, utilisez le Thompson Sampling ou des méthodes bayésiennes pour évaluer la qualité véritable du contenu, en filtrant les effets réseau à l'aide de décalages temporels entre la publication et l'évaluation.