Réponse à la question

L'évolution de la pagination vers le défilement infini dans les années 2010, popularisée par Facebook et Twitter, a radicalement modifié les schémas de consommation de contenu. Les premiers analystes de produits s'appuyaient sur des comparaisons naïves "avant et après", sans tenir compte des tendances saisonnières et de l'auto-sélection des utilisateurs. La situation s'est compliquée avec le développement d'un écosystème inter-plateformes, où l'utilisateur migre sans couture entre des appareils avec différentes versions d'interface.

Il est nécessaire d'isoler l'effet causal de l'implémentation du défilement infini sur les métriques de profondeur de défilement et de monétisation publicitaire. Les principaux facteurs de confusion incluent le déploiement géographique progressif, créant un traitement à timing échelonné, et la migration inter-appareils des utilisateurs, entraînant une contamination des groupes. Une simple comparaison des régions est invalide en raison des différences structurelles dans le comportement de l'audience. L'analyse au niveau des sessions individuelles ignore les effets de carryover entre les appareils et fausse l'évaluation de la rétention.

Nous appliquons différences échelonnées en différences avec correction pour des effets hétérogènes via les estimateurs Callaway-Sant'Anna ou Sun-Abraham, qui traitent correctement l'implémentation par étapes. Pour lutter contre la contamination inter-appareils, nous regroupons les erreurs standards au niveau de l'utilisateur et incluons les effets fixes des utilisateurs, traitant l'utilisation réelle de la fonctionnalité comme un traitement, et le calendrier de déploiement régional comme une variable instrumentale (IV). Lors de l'analyse des revenus, nous effectuons une analyse de médiation pour séparer l'effet direct du changement de layout sur la visibilité des publicités et l'effet indirect via l'augmentation de l'engagement. La validation des tendances parallèles est effectuée sur les données pré-déploiement en utilisant CausalImpact pour construire un contrôle synthétique.

Situation réelle

Dans une application média avec 5 millions d'utilisateurs actifs mensuels (MAU), un passage de la pagination classique au défilement infini était prévu pour augmenter le temps passé dans l'application. Le problème de mesure était dû au déploiement progressif : d'abord Moscou et Saint-Pétersbourg, puis les régions un mois plus tard. De plus, les utilisateurs migraient activement entre l'application mobile (où la nouvelle fonctionnalité était présente) et la tablette (ancienne version), créant une forte contamination entre les groupes.

La première option était une simple comparaison des métriques avant et après le lancement dans une seule région. Avantages : rapidité de calcul et exigences minimales en matière de données. Inconvénients : il était impossible de séparer l'effet de la fonctionnalité de la saisonnalité du cycle d'actualités et de la croissance naturelle de la base ; les chiffres obtenus avaient été biaisés de +40 % en raison du trafic de Noël.

La deuxième option était un A/B test géographique pur entre Moscou et les autres régions. Avantages : séparation claire des groupes au moment de la coupe. Inconvénients : différences structurelles dans le comportement (les Moscovites lisent plus d'actualités économiques), et la migration des utilisateurs entre les régions et les appareils créait une fuite de jusqu'à 15 % dans le groupe de contrôle, rendant les évaluations invalides.

La solution choisie — DiD échelonné avec des effets fixes des utilisateurs et une agrégation des erreurs au niveau régional. Nous avons utilisé le moment d'entrée de l'utilisateur dans l'application avec la nouvelle version comme début du traitement, et le calendrier de déploiement régional comme outil pour l'évaluation IV. Cela a permis de tenir compte de la contamination croisée entre les dispositifs comme correspondance partielle du traitement et du contrôle, fournissant une évaluation non biaisée.

Le résultat final : l'augmentation nette de la profondeur de défilement était de +22 % (contre +35 % dans l'évaluation naïve), mais le RPM a chuté de 8 % en raison de la réduction de la visibilité des espaces publicitaires. La décision a été prise d'implémenter un mode hybride de "charger plus" avec un bloc de publicité forcé toutes les 10 cartes. Cela a donné +18 % à la profondeur de visionnage tout en maintenant la monétisation au niveau de base.

Ce que les candidats oublient souvent

Comment gérer correctement la corrélation spatiale des erreurs lors d'un déploiement géographique ?

Les candidats agrègent souvent les erreurs standards uniquement au niveau de l'utilisateur, ignorant que les chocs régionaux (météo, nouvelles locales) corrèlent les erreurs au sein de la géographie. Il est nécessaire d'utiliser une double agrégation (utilisateur + région) ou erreurs standards spatiales de Conley, s'il existe des coordonnées précises. Sans cela, les intervalles de confiance seront trop étroits, entraînant des faux positifs lors de la vérification de l'importance de l'effet.

Comment lutter contre l'endogénéité de la vitesse de mise à jour de l'application si les utilisateurs actifs bénéficient du défilement infini avant les utilisateurs passifs ?

C'est un problème de self-selection dans l'adoption échelonnée. L'intention de traiter (ITT) par région donne une estimation conservatrice, mais le Traitement sur les traités (TOT) nécessite un instrument. Utilisez l'attribution de région/temps comme IV (variable instrumentale) pour l'utilisation réelle de la fonctionnalité, ou appliquez le pondération par probabilité inverse (IPW) avec un score de propension basé sur l'activité historique. Sinon, l'estimation sera biaisée en faveur des power users avec un engagement de base élevé.

Comment séparer l'effet de l'amélioration de l'expérience utilisateur de l'effet technique sur la visibilité des blocs publicitaires lors de l'analyse des revenus ?

Une analyse de médiation ou une régression en deux étapes (2SLS) est nécessaire. Dans la première étape, nous évaluons l'effet du défilement infini sur la profondeur de défilement (expérience utilisateur pure), et dans la seconde, l'effet de la profondeur sur les impressions publicitaires. L'effet direct du layout (moins de publicités à l'écran) est évalué séparément via do-calculus ou un contrôle artificiel avec des espaces publicitaires fictifs. Sans cette séparation, il est possible d'écarter une fonctionnalité réussie en raison d'une baisse apparente de la monétisation, qui est en réalité causée par le changement de layout.