Réponse à la question

Historiquement, les approches pour évaluer les fonctionnalités AR en analyse de produit se basaient sur l'analyse de corrélation ou la simple comparaison des moyennes entre les utilisateurs ayant la technologie et ceux ne l'ayant pas. Ce cadre méthodologique a dominé jusqu'en 2018, lorsque les chercheurs en retail ont commencé à prendre en compte les différences systématiques dans la segmentation de l'audience par catégories de prix des appareils. Les propriétaires de smartphones haut de gamme avec ARKit ou ARCore se distinguent statistiquement par leur niveau de revenu, leur capacité d'adaptation technologique et leur tendance à des achats impulsifs de produits à forte marge.

Par conséquent, la simple comparaison crée un biais de sélection pouvant atteindre 40%, rendant impossible la séparation de l'effet de la fonction des différences préexistantes entre les groupes. Les tests classiques A/B sont également impossibles, car l'activation forcée de AR sur des appareils non compatibles entraîne des dysfonctionnements techniques, des plantages d'application et une expérience utilisateur altérée, violant le principe fondamental de SUTVA (Stable Unit Treatment Value Assumption) et entraînant une réaction négative à l'appel.

La solution optimale nécessite l'application du Regression Discontinuity Design (RDD) autour du seuil des caractéristiques techniques de l'appareil, par exemple, en comparant des utilisateurs d'iPhone X et d'iPhone 8+, qui ont une accessibilité financière similaire sur le marché secondaire et des caractéristiques démographiques comparables, mais diffèrent de manière critique par la présence de la caméra TrueDepth, nécessaire pour AR. Pour prendre en compte le déploiement étape par étape selon les catégories de produits, nous complétons le Difference-in-Differences (DiD) avec des effets fixes catégorie-temps (Two-Way Fixed Effects), en contrôlant pour la saisonnalité et les différences de gamme. Enfin, nous appliquons le Propensity Score Matching (PSM) selon le segment de prix de l'appareil et l'historique d'achats pour ajuster l'hétérogénéité résiduelle au sein de la zone locale du RDD, ce qui permet d'extrapoler l'effet moyen local (LATE) sur la population générale via Inverse Probability Weighting.

Situation réelle

Dans une grande marketplace de mode, à l'automne 2023, ils ont lancé un essai AR pour des lunettes de soleil en utilisant la technologie de suivi facial. La fonction ne fonctionnait qu'avec des iPhone X+ et des Android haut de gamme avec Google ARCore, excluant automatiquement 60% du public ayant des appareils budget. Le rapport d'analyse préliminaire montrait que les utilisateurs ayant accès à AR effectuaient des achats 3,5 fois plus souvent et retournaient le produit 30% moins souvent, mais l'équipe suspectait un fort biais de survie : les propriétaires de téléphones coûteux avaient historiquement montré un panier moyen plus élevé et une meilleure fidélité, indépendamment des nouvelles fonctionnalités.

La première option examinée était la comparaison directe des moyennes à l'aide d'un t-test ou d'un Mann-Whitney U test entre les groupes avec accès à AR sans aucun ajustement. Les avantages de cette approche incluaient un calcul immédiat, des exigences minimales en matière de données et une compréhension intuitive des résultats pour les parties prenantes commerciales. Les inconvénients étaient critiques : l'endogénéité catastrophique liée aux revenus et à la sensibilisation technologique rendait impossible la séparation de l'effet de la fonction des différences préexistantes entre les segments d'utilisateurs.

La deuxième option était une analyse cohortale before-after pour les utilisateurs qui avaient mis à jour leurs appareils de non-compatibles à compatibles avec AR pendant la période d'observation. Les avantages résidaient dans le contrôle de l'hétérogénéité individuelle par la comparaison intra-sujets, ce qui éliminait le biais lié aux caractéristiques non mesurables de l'utilisateur. Les inconvénients incluaient un fort effet de nouveauté (novelty effect), la saisonnalité (la mise à jour des téléphones en pics en décembre et septembre corrèle avec différents schémas d'achats), ainsi qu'une auto-sélection liée à la mise à jour dans le temps (les utilisateurs motivés changent de téléphone plus souvent).

La troisième option consiste à appliquer le Regression Discontinuity Design autour du seuil du modèle iPhone X (puce A11 Bionic), en comparant les utilisateurs d'iPhone 8+ et d'iPhone X, qui sont statistiquement indiscernables par leurs caractéristiques socio-démographiques et leur catégorie de prix sur le marché secondaire, mais diffèrent uniquement par la présence de la caméra TrueDepth. Les avantages de cette méthode incluent la création d'une distribution quasi aléatoire dans la zone locale autour du seuil, ce qui assurait une estimation causale valide (LATE) sans nécessité de randomisation. Les inconvénients résidaient dans la validité externe limitée — les résultats ne sont applicables qu'aux utilisateurs « marginaux », oscillant entre l'achat d'un ancien et d'un nouveau modèle phare, ainsi qu'à la nécessité de vérifier l'hypothèse de continuité des covariables (continuity assumption) et l'absence de manipulation ponctuelle (heap).

Une solution combinée a été choisie : RDD pour évaluer l'effet net de la fonction sur les utilisateurs marginaux au seuil de l'appareil, intégré au Difference-in-Differences avec adoption échelonnée pour tenir compte du déploiement progressif par catégories de produits (d'abord les marques premium, puis le mass market). Pour extrapoler les résultats du seuil à l'ensemble de la population, nous appliquions l'Inverse Probability Weighting (IPW) basé sur la distribution des prix des appareils et des caractéristiques démographiques. Le résultat final a montré que l'effet réel était de +8% sur le taux de conversion et -12% sur les retours, tandis que l'analyse naïve sans ajustements montrait des résultats biaisés de +35% et -28% respectivement, ce qui a fondamentalement modifié la décision commerciale concernant l'extension de la fonction et permis d'éviter des attentes d'investissement exagérées.

Ce que les candidats oublient souvent

Comment traiter correctement les effets de réseau (spillover effects) lorsque les utilisateurs d'AR partagent des photos de l'essayage virtuel sur les réseaux sociaux ou dans des messageries, influençant ainsi les décisions d'achat de leurs contacts qui n'ont pas d'appareils compatibles et appartiennent formellement au groupe de contrôle ?

Les candidats ignorent souvent la violation de SUTVA à travers le graphe social, supposant l'isolement des groupes. En pratique, si un ami voit un essai de lunettes à travers Instagram Stories et effectue un achat, cela pollue le groupe de contrôle. L'approche correcte consiste à appliquer les Two-Stage Least Squares (2SLS) avec une variable instrumentale (la date de sortie d'un modèle de téléphone particulier dans une région donnée) qui n'influence que la présence d'AR chez l'« expéditeur », mais pas directement sur le « receveur ». Alternativement, une exposure mapping est utilisée, où nous modélisons l'intensité des connexions sociales entre les utilisateurs et introduisons dans le modèle l'interaction traitement × exposition, permettant d'évaluer quantitativement l'effet direct d'AR contre l'effet indirect de viralité.

Pourquoi la méthodologie d'Intent-to-Treat (ITT) avec le calcul ultérieur de l'Effet de Traitement Moyen Local (LATE) est-elle préférée aux tentatives de forcer un test A/B, en incluant de force la fonction AR pour la moitié aléatoire de l'audience, même si cela est techniquement possible à travers le rendu cloud ?

Cette question teste la compréhension des considérations éthiques expérimentales et des contraintes de conformité. L'activation forcée de AR via le rendu cloud sur des appareils non compatibles crée une expérience utilisateur artificielle avec une forte latence (latency) et une faible résolution, entraînant une expérience catastrophique et une perte massive d'utilisateurs (churn), violant le principe de « no harm ». Cela crée une selection into non-compliance : les utilisateurs désactiveront rapidement la fonction ou désinstalleront l'application, rendant l'évaluation de l'effet impossible et créant un biais de conformité. L'approche correcte est le design d'encouragement : au lieu de forcer l'activation, nous montrons aléatoirement une bannière proposant d'essayer AR (uniquement aux propriétaires d'appareils compatibles), créant ainsi une analyse ITT où le traitement est l'offre, et non l'utilisation réelle. Ensuite, à travers une IV-régression (variable instrumentale - randomisation de l'offre), nous obtenons le LATE — l'effet uniquement pour ceux qui ont effectivement utilisé la fonction (compliers), ce qui donne une estimation conservatrice, mais proprement causale, sans risque de sabotage technique du produit.

Comment prendre en compte le biais de couverture de catalogue (catalog coverage bias), lorsque les modèles AR ne sont créés que pour 30% des produits, principalement dans le segment premium, ce qui crée un biais dans l'évaluation du panier moyen et du LTV si l'on analyse uniquement les SKU disponibles ?

Les candidats oublient le problème de generalizability et de truncation bias, en comparant le segment premium (où AR est disponible) avec le mass market (où il n'est pas). Si la sélection n'est pas corrigée, nous attribuerons à tort un panier élevé à l'effet de l'AR, alors qu'en réalité, nous mesurons la différence entre les segments de prix. La solution nécessite l'application de Inverse Probability Weighting (IPW) ou de Doubly Robust Estimation : d'abord, nous modélisons le score de propension — la probabilité qu'un produit ait un modèle AR basé sur ses caractéristiques observables (prix, marque, catégorie, saisonnalité). Ensuite, nous pondérons les observations à rebours proportionnellement à cette probabilité afin de rendre l'échantillon avec AR représentatif de l'ensemble du catalogue. De plus, nous utilisons des synthetic control methods pour les catégories sans AR, créant une combinaison linéaire pondérée de catégories avec AR, qui imite le comportement contre-factuel des catégories manquantes, permettant d'évaluer l'effet au niveau de l'ensemble de l'entreprise et non uniquement sur un sous-échantillon de produits premium.