Réponse à la question

Pour mesurer l'incrémentalité des canaux hors ligne, on utilise la méthodologie des Geo-Lift Testing avec contrôle synthétique (Synthetic Control Method). L'idée clé est de diviser les régions géographiques en groupes test (où la publicité est diffusée) et en groupes de contrôle (où la campagne n'est pas lancée), puis de construire une combinaison pondérée de régions de contrôle imitant le comportement des régions test avant le début de la campagne avec une précision de 95 % de corrélation.

Pour l'analyse des séries temporelles, la bibliothèque Google CausalImpact est utilisée, évaluant l'effet causal en tenant compte des covariables (données météorologiques, indicateurs économiques, activité des concurrents). Les données sont agrégées dans BigQuery, et le prétraitement est effectué en Python en utilisant pandas et scikit-learn pour ajuster les poids optimaux du contrôle synthétique via la méthode des vecteurs de support (SVM) ou la régression Lasso.

Situation de la vie réelle

L'entreprise prévoit une campagne télévisée à grande échelle avec un budget de 50 millions de roubles dans dix grandes villes, mais elle est confrontée à un problème critique de mesure de l'efficacité : les trackers standards comme AppsFlyer ou Adjust ne capturent que les interactions numériques, sans possibilité de suivre le passage de l'écran de télévision à l'installation de l'application. Une complexité supplémentaire surgit en raison de l'activité promotionnelle agressive d'un concurrent et de conditions météorologiques anormales dans les régions cibles, qui peuvent fausser la comparaison directe avec les périodes précédentes.

La première solution envisagée a été une analyse corrélationnelle des séries temporelles utilisant le modèle ARIMA, où les prévisions basées sur les données historiques sont comparées aux chiffres d'installation réels. Les avantages de cette approche incluent un coût d'implémentation faible en Python avec la bibliothèque statsmodels et l'absence de nécessité de répartir le budget publicitaire entre les régions. Les inconvénients résident dans l'incapacité de séparer l'effet de la télévision des chocs externes (actions des concurrents, météo), ce qui entraîne un risque de fausse attribution de la croissance spécifiquement à la publicité télévisée, malgré l'absence de lien de causalité.

La deuxième option était la télévision adressable avec un test A/B classique au niveau des ménages, où la publicité ne serait montrée qu'à une partie de l'audience avec possibilité d'attribution directe via des données de panel. Les avantages incluent une causalité stricte et la possibilité de mesurer le LTV à long terme des cohortes. Les inconvénients incluent la complexité technique de l'intégration avec les fournisseurs de données (GfK, TNS), un coût élevé et des délais préparatoires longs (3-4 mois), ainsi que l'inapplicabilité à la télévision diffusée traditionnelle, qui couvre l'ensemble de la population régionale sans possibilité de ciblage au niveau des utilisateurs individuels.

La troisième approche a été le Geo-Lift Testing avec contrôle synthétique, où la campagne est lancée dans des régions test, et pour les régions de contrôle, une combinaison pondérée de régions similaires est construite pour imiter leur comportement. Les avantages de cette méthode incluent la capacité d'établir une causalité à travers une expérience naturelle et une résistance aux chocs externes généraux, s'ils affectent les deux groupes. Les inconvénients incluent la nécessité d'une sélection minutieuse des régions de contrôle avec une saisonnalité similaire, une sensibilité à la migration des utilisateurs entre les villes et une exigence d'un volume de données historiques d'au moins 12 mois pour établir un contrôle synthétique de qualité.

La troisième solution a été sélectionnée, car l'entreprise disposait de données détaillées sur 40 régions sur 18 mois dans un entrepôt BigQuery, permettant de construire un contrôle synthétique avec un coefficient de corrélation supérieur à 0,95 pour la période pré-campagne. L'analyse a été effectuée dans l'environnement Jupyter en utilisant la bibliothèque pycausalimpact, et le prétraitement des données a été réalisé sous SQL et pandas avec normalisation en fonction de la taille de l'audience.

En conséquence, une augmentation incrémentale statistiquement significative des installations organiques de 23 % a été détectée au cours des 14 jours suivant le début de la campagne, avec un intervalle de confiance à 95 % [15 % ; 31 %], ce qui a été traduit en ROI de 145 % et a permis à l'équipe marketing de justifier une augmentation du budget pour la chaîne télévisée pour le trimestre suivant.

Ce que les candidats oublient souvent

Comment traiter les effets d'adstock (décalage et effet cumulatif) lors de l'analyse des campagnes hors ligne, lorsque l'influence de la publicité ne se manifeste pas immédiatement mais se répartit dans le temps ?

Les candidats utilisent souvent une simple comparaison « jour de diffusion - jour d'installation », ignorant que la publicité télévisée a un effet de demi-vie (half-life). Il est essentiel d'appliquer la transformation d'adstock : $A_t = X_t + \lambda \cdot A_{t-1}$, où $\lambda$ est le coefficient d'atténuation (généralement 0,3 à 0,8 pour la télévision), défini par maximisation de la vraisemblance ou Grid Search dans scikit-learn. Il est également important de prendre en compte l'effet de report des campagnes précédentes, sinon le lift actuel sera surestimé. Pour valider $\lambda$, une validation croisée est utilisée sur les campagnes précédentes avec différents retards.

Pourquoi ne peut-on pas utiliser une simple comparaison des moyennes (test t) entre les régions test et de contrôle dans les tests Geo-Lift, même si les régions sont choisies au hasard ?

Le problème réside dans l'hétérogénéité des variances entre les régions (différente conversion de base, différente taille de population) et la présence de corrélations de grappes (dépendance intra-régionale des observations). Le test t standard suppose l'indépendance des observations et l'égalité des variances, ce qui entraîne une surestimation de la signification statistique (faux positifs). L'approche correcte consiste à utiliser des erreurs standard regroupées au niveau régional ou des modèles bayésiens hiérarchiques dans PyMC3 / Stan, qui tiennent compte de la structure des données. Il est également nécessaire de vérifier l'équilibre des covariables (appariement par score de propension) avant le test, afin de s'assurer que le contrôle synthétique est adéquat.

Quelle est la différence fondamentale entre le Marketing Mix Modeling (MMM) et le Geo-Lift Testing, et quand quelle méthode est-elle préférable ?

MMM (par exemple, via la bibliothèque Robyn de Meta ou LightweightMMM de Google) est un modèle de corrélation évaluant la contribution de tous les canaux simultanément via une régression avec régularisation, mais il est sensible à l'endogénéité et ne peut pas établir de causalité stricte sans variables instrumentales. Geo-Lift est une quasi-expérience établissant la causalité via des variations exogènes (présence/absence de publicité dans la région). MMM est préférable pour l'optimisation du budget entre plusieurs canaux et la planification, tandis que Geo-Lift est nécessaire pour valider des hypothèses spécifiques et calibrer le MMM. La meilleure pratique consiste à utiliser Geo-Lift pour calibrer les priors dans le MMM bayésien, ce qui est réalisé via pymc-marketing.

Comment isoleriez-vous l'effet d'une campagne publicitaire télévisée sur les installations organiques d'une application mobile en l'absence d'attribution directe et avec des différences régionales dans le comportement des utilisateurs ?

Réponse à la question

Situation de la vie réelle

Ce que les candidats oublient souvent