Réponse à la question
Le contexte historique indique que les interfaces vocales ont évolué de systèmes de commande simples à des solutions NLP complètes basées sur des transformeurs, cependant, la méthodologie d'évaluation reste non triviale en raison de l'hétérogénéité de l'adoption de la technologie. Le problème réside dans le fait que la fonction n'est disponible que sur des dispositifs avec des caractéristiques techniques spécifiques, ce qui crée un biais de sélection systématique, et le déploiement géographique viole le principe de distribution aléatoire. Pour isoler l'effet véritable, il est nécessaire d'utiliser une combinaison de Difference-in-Differences avec des effets fixes par région et par temps, complétée par la Synthetic Control Method pour les régions avec des modèles linguistiques uniques, ainsi que des Instrumental Variables pour corriger l'endogénéité de l'utilisation de la fonction.
Situation de la vie réelle
Dans un marketplace d'électronique, la recherche vocale a été d'abord lancée à Moscou et à Saint-Pétersbourg, avec l'intention d'une diffusion progressive dans d'autres régions. Le problème était que cette fonction ne fonctionnait que sur les iPhones XS et plus récents avec iOS 15+, ainsi que sur les flagships Android avec support pour le ML sur dispositif, ce qui créait un biais en termes de revenus et de connaissance technologique du public. En outre, une saisonnalité évidente a été observée - le lancement a coïncidé avec une hausse saisonnière de la demande, déformant la comparaison directe "avant-après". L'équipe a envisagé trois approches d'évaluation.
La première option consistait à comparer simplement les moyennes des métriques dans les régions avec et sans la fonction pendant une période de temps identique. Les avantages de cette approche sont la simplicité de mise en œuvre et la rapidité d'obtention des résultats. Les inconvénients sont une négligence critique des différences systématiques entre les régions (Moscou montre historiquement un taux de conversion plus élevé) et l'incapacité à séparer l'effet de la fonction de la tendance saisonnière. Cette option a été rejetée en raison d'un risque élevé de faux positifs.
La deuxième option a utilisé le Propensity Score Matching pour créer un groupe témoin d'utilisateurs sans recherche vocale, mais avec des caractéristiques de dispositif et un comportement similaires. Les avantages incluent une tentative d'éliminer le biais basé sur des caractéristiques observables. Les inconvénients incluent l'incapacité à tenir compte de facteurs non observables (par exemple, la propension à adopter les technologies), qui influencent simultanément la possession d'un dispositif moderne et la disposition à effectuer des achats. De plus, le matching perd de son efficacité en présence d'effets fixes des régions.
La troisième option combinait Difference-in-Differences au niveau des régions avec des Instrumental Variables au niveau des utilisateurs. Comme instrument, on a utilisé le signe de la disponibilité technique de la fonction sur le dispositif (qui dépend du modèle de smartphone et de la version du système d'exploitation, mais pas directement des préférences de l'utilisateur) pour prédire l'utilisation réelle via les moindres carrés en deux étapes. Pour les régions avec des dialectes uniques (Kazan, Novossibirsk), la Synthetic Control a été appliquée, en pondérant les régions témoins selon les tendances de conversion antérieures. Les avantages comprennent la séparation de l'effet de la disponibilité de l'effet de l'auto-sélection des utilisateurs et le contrôle des tendances régionales. Les inconvénients incluent la complexité d'interprétation de l'effet de traitement moyen local (LATE) et la rigueur des hypothèses de tendances parallèles. Cette option a été choisie comme la plus robuste.
L'analyse a révélé que la recherche vocale génère un accroissement incrémentiel de 18% de la profondeur de visualisation parmi les utilisateurs avec des dispositifs compatibles, mais aucun effet statistiquement significatif sur la conversion en achat n'a été observé. De plus, dans les catégories contenant des termes techniques (composants informatiques), une baisse de la conversion a été observée en raison d'erreurs de reconnaissance de lexique spécifique. Cela a permis à l'équipe de réajuster la feuille de route : améliorer la reconnaissance des termes techniques avant l'extension et concentrer le marketing sur les catégories de produits "simples" (électroménager) où la recherche vocale a montré les meilleurs résultats.
Ce que les candidats oublient souvent
Comment séparer l'effet à court terme de la nouveauté (novelty effect) d'un changement de comportement durable lors de l'évaluation des interfaces vocales ?
Les candidats ignorent souvent la dynamique temporelle d'adaptation. Il est nécessaire de construire une analyse de cohorte depuis le jour de la première utilisation de la fonction et de suivre le retention usage sur un horizon de 3 à 4 semaines. Si l'intensité d'utilisation diminue selon une courbe de décroissance exponentielle jusqu'à un niveau de base, l'effet est un effet de nouveauté. Pour une évaluation adéquate, il convient d'utiliser uniquement la période établie (steady state) ou de pondérer les observations en fonction de la durée de vie de la cohorte. Il est également important de vérifier l'hétérogénéité de l'effet selon la fréquence d'utilisation - les utilisateurs fréquents peuvent montrer un comportement durable, tandis que les utilisateurs occasionnels sont sujets à l'effet de nouveauté.
Comment traiter correctement les valeurs nulles (zeroes) dans les données, lorsque l'utilisateur a activé la recherche vocale mais n'a pas obtenu de résultats en raison d'erreurs de reconnaissance ?
La régression linéaire standard ou le modèle logistique ne sont pas appropriés ici en raison de la distribution mixte : une masse de zéros (tentatives échouées) et une distribution continue d'issues positives. Il est nécessaire d'appliquer un Two-part model (modèle de hurdle) ou un Zero-Inflated Negative Binomial pour les métriques comptables (nombre de visualisations). La première partie du modèle évalue la probabilité d'une recherche réussie (mixte) et la seconde l'intensité d'utilisation en cas de succès (issue). Ignorer cette structure conduit à une sous-estimation de l'effet, car les tentatives échouées sont faussement classées comme absence d'intérêt, et non comme une barrière technique.
Pourquoi dans ce cas il n'est pas possible d'utiliser une simple comparaison Intent-to-Treat (ITT) de tous les utilisateurs dans la région de déploiement par rapport à la région témoin ?
L'analyse ITT mélange l'effet de l'accessibilité de la fonction avec l'effet de son utilisation réelle, diluant ainsi l'évaluation. Si seulement 10% du public a des dispositifs compatibles et que seulement 20% d'entre eux essaient la fonction, l'ITT montrera un effet de 2% même si la fonction est 100% efficace pour les utilisateurs réels. Pour les décisions commerciales, il est crucial d'évaluer l'effet Treatment-on-Treated (TOT) ou l'effet de traitement moyen local (LATE) obtenu par des variables instrumentales. Les candidats omettent que la compliance (conformité) ici n'est pas de 100%, et il est nécessaire de redimensionner l'évaluation de l'ITT inversement proportionnellement à la part des conformistes pour obtenir l'effet réel sur ceux qui utilisent réellement la fonction.