L'évolution du commerce électronique de la recherche textuelle vers une interface multimodale a commencé avec l'apparition des Convolutional Neural Networks (CNN) dans les applications mobiles dans les années 2010. Les approches classiques de test A/B rencontrent ici des problèmes de fragmentation matérielle : le même algorithme de recherche visuelle montre une précision différente sur les appareils haut de gamme et les smartphones économiques.
Des recherches préliminaires ont montré que les utilisateurs avec des appareils low-end ont des schémas de navigation systématiquement différents, ce qui crée une menace pour l'hypothèse d'indépendance de l'erreur par rapport aux covariables dans les modèles économétriques standards. Cela rend une simple comparaison de groupes via un t-test ou une régression basique méthodologiquement invalide.
Une endogénéité fondamentale apparaît en raison de l'auto-sélection au niveau de l'adoption : les utilisateurs techniquement avertis (early adopters) sont à la fois enclins à essayer la nouvelle fonctionnalité et ont une conversion de base élevée. De plus, on observe une cannibalisation structurelle : la recherche visuelle "prend" des requêtes à la recherche textuelle, tout en transformant des requêtes textuelles peu informatives en des embeddings visuels très informatifs.
L'hétérogénéité technique de la qualité de la caméra introduit une couche supplémentaire d'erreur de mesure, corrélée avec le profil SES de l'utilisateur. Les méthodes standard de contrôle du biais de sélection, telles que le Propensity Score Matching, sont ici insuffisantes en raison de l'hétérogénéité non observée en matière de compétence visuelle des utilisateurs.
La stratégie optimale est le Two-Stage Least Squares (2SLS) utilisant les capacités matérielles de la caméra (présence de Telephoto Lens, support du Night Mode) comme variable instrumentale (IV). La restriction d'exclusion est respectée à condition que les spécifications de la caméra n'influent sur la conversion que par la possibilité d'utiliser la recherche visuelle, et non par des caractéristiques corrélées au revenu.
La validité de l'instrument est vérifiée par le Overidentification Test en utilisant la variation exogène dans les lots de caméras. Pour la cannibalisation, l'application du Principal Stratification implique la division des utilisateurs en strates selon un modèle de classe latente, où les classes sont définies par la probabilité de passer de la recherche textuelle.
Les effets de traitement hétérogènes sont évalués par des Causal Forests avec une clustering au niveau du type d'appareil pour tenir compte de la corrélation des erreurs au sein des classes matérielles. De plus, les métadonnées de prise de vue (données EXIF sur l'exposition) sont contrôlées pour isoler l'effet de la reconnaissance, et non des conditions externes.
L'équipe du marketplace «FashionHub» a lancé la recherche visuelle sur 20% du trafic, observant une augmentation de la conversion de 18% parmi les adopters. Cependant, un audit a révélé que 70% des utilisateurs avec iPhone 12+ (avec une caméra de haute qualité) étaient dans le groupe test, tandis que le segment Android économique est resté dans le groupe de contrôle, créant un biais confondant basé sur le matériel. La métrique clé — le nombre moyen de fiches produits consultées avant l'achat — augmentait de manière disproportionnée dans le segment des appareils premium.
Une simple comparaison entre adopters et non-adopters donnerait une estimation de +18% pour la conversion, mais porterait un biais de survie. Les utilisateurs ayant pris une photo du produit démontraient déjà une forte intention d'achat et une tolérance au friction dans l'UX. L'avantage de cette approche est la simplicité d'interprétation et la rapidité d'obtention des résultats. L'inconvénient est l'incapacité à séparer l'effet causal de la fonctionnalité de l'auto-sélection des publics techniquement compétents avec une conversion de base élevée.
Le déploiement géographique avec le Difference-in-Differences impliquait un lancement d'abord à Moscou (où la pénétration des smartphones premium est élevée), puis dans les régions un mois plus tard. L'avantage est la possibilité de tenir compte des tendances temporelles et de la saisonnalité de la mode. L'inconvénient est que les régions différaient par leurs revenus disponibles et leurs valeurs de mode, ce qui violait l'hypothèse des tendances parallèles ; le public moscovite avait une élasticité systématiquement différente à la nouveauté dans les fonctionnalités numériques.
Variables Instrumentales avec Propensity Score Matchingutilisait l'incapacité technique de lancer la recherche visuelle sur des appareils sans Auto-Focus et OIS (Optical Image Stabilization) comme expérimentation naturelle. Les utilisateurs avec des appareils compatibles étaient appariés avec des utilisateurs ayant une démographie et un historique de recherche textuelle similaires, mais avec des appareils non pris en charge. L'avantage ici est l'exogénéité de l'instrument (le matériel précède la décision d'achat). L'inconvénient était que la pertinence de l'instrument était vérifiée par le first-stage F-statistic (qui était de 45, >10 de seuil), et la restriction d'exclusion nécessitait d'être convaincu que la caméra influence l'achat uniquement par la recherche.
Une solution IV a été choisie avec un contrôle supplémentaire des conditions d'éclairage via une API de détermination du moment de la journée et une analyse des métadonnées EXIF des photos (ISO, temps d'exposition). Le résultat final : le Local Average Treatment Effect (LATE) véritable a été de +4,2% à la conversion (tout le reste étant un biais de sélection), cet effet étant concentré dans la catégorie «chaussures» (où la correspondance des couleurs est critique), et inexistant dans les «accessoires» (où la marque domine sur les caractéristiques visuelles).
Pourquoi ne peut-on pas simplement faire un A/B test au niveau utilisateur, si l'infrastructure le permet ?
Les candidats ignorent les effets de réseau dans l'apprentissage du Visual Embeddings Model : lorsque les utilisateurs prennent des photos, ces données pénètrent l'échantillon d'apprentissage du Siamese Network, améliorant la qualité de recherche pour tous les utilisateurs, y compris le groupe de contrôle (effets de débordement). De plus, l'hypothèse SUTVA (Stable Unit Treatment Value Assumption) est violée par la contamination du classement : si la recherche visuelle met en avant des produits pertinents dans le flux de recommandations général, cela influence le comportement du groupe de contrôle.
La solution serait une Cluster Randomization au niveau du type d'appareil ou l'utilisation de Exposure Mapping avec ajustement à l'intensité d'utilisation de la fonctionnalité dans le cluster via le Inverse Probability Weighting.
Comment séparer la cannibalisation de la recherche textuelle de la création d'une nouvelle demande, lorsque l'intention n'est pas latente ?
L'approche standard de comparaison des requêtes totales ignore le volume ajusté par la qualité. Il faut appliquer le Principal Stratification Framework : définir quatre strates (Compliers, Never-takers, Always-takers, Defiers) basées sur les résultats potentiels de l'utilisation de la recherche textuelle en l'absence ou en présence de la recherche visuelle.
Ensuite, évaluer le Complier Average Causal Effect (CACE) pour ceux qui passeraient de la recherche textuelle à la recherche visuelle uniquement si elle est disponible. De plus, utiliser la Distance dans l'Espace d'Embedding entre les requêtes textuelles de l'utilisateur et les catégories de produits : si la recherche visuelle réduit la distance sémantique entre la requête et l'achat, c'est un effet incrémental, et non une substitution.
Quel est le danger de conditionner le nombre de reconnaissances réussies lors de l'analyse de la rétention ?
C'est un exemple classique de Collider Bias (structure M) : conditionner sur la «réussite de la reconnaissance» (qui dépend à la fois de la qualité de la caméra et de la complexité de la requête) ouvre des chemins spuriés entre le matériel et la rétention. Les candidats filtrent souvent les «uploads échoués», créant une sélection sur la variable dépendante.
L'approche correcte serait la Heckman Two-Step Correction ou le Tobit Model pour les résultats zero-inflated, où la décision d'utiliser la fonctionnalité et le résultat conditionnel à l'utilisation sont modélisés conjointement, en tenant compte du Inverse Mills Ratio de la première équation de probit avec des prédicteurs (éclairage, moment de la journée, catégorie de produit).