Réponse à la question.
Historiquement, le marketing par email s'est développé dans une paradigme visant à maximiser les points de contact, où l'augmentation de la fréquence des communications était corrélée à une augmentation des revenus jusqu'à saturation. Avec le développement de la théorie de l'engagement fatigue et le renforcement des filtres anti-spam (SpamAssassin, Gmail Promotions Tab), il est devenu nécessaire d'optimiser la fréquence, mais les comparaisons classiques avant/après se sont révélées peu fiables en raison des effets non linéaires de saturation et de chocs externes.
Le problème d'évaluation réside dans l'impossibilité de créer un groupe de contrôle lors d'un déploiement global, de la présence d'un biais d'auto-sélection (les différents segments réagissent différemment à la réduction des points de contact) et des facteurs de confusion (saisonnalité, tendances macroéconomiques, activités marketing parallèles). L'analyse corrélationnelle standard mélange l'effet causal avec des tendances générales de croissance ou de déclin du produit.
La solution optimale nécessite une combinaison de méthodes quasi-expérimentales. Nous appliquons Difference-in-Differences (DiD) avec Propensity Score Matching (PSM) sur les métriques historiques d'engagement (taux d'ouverture, taux de clics, récence). Pour chaque segment, nous construisons un contrôle synthétique via Synthetic Control Method, en utilisant des séries temporelles corrélées (trafic organique, accès directs à l'application) comme covariables. Pour l'inférence, nous utilisons Causal Impact basé sur Bayesian Structural Time Series, ce qui permet de modéliser le contrefactuel avec des intervalles de confiance. De plus, nous appliquons Causal Forests pour évaluer les effets de traitement hétérogènes par segments RFM. La validation est effectuée par des tests placebo sur la période pré-intervention pour vérifier l'hypothèse des tendances parallèles et une analyse de sensibilité pour évaluer la robustesse face aux facteurs de confusion non observés.
Situation de la vie réelle.
Une plateforme EdTech avec 2 millions d'utilisateurs a constaté une augmentation de 40 % du taux de désabonnement au cours du trimestre et a décidé de réduire la fréquence des newsletters éducatives de quotidienne à trois fois par semaine. Le problème résidait dans la nécessité de prouver au CEO que la réduction de la fréquence ne détruirait pas les revenus des power users, d'autant plus que le changement a été lancé le 15 décembre — une semaine avant le pic traditionnel des achats de cours pour les fêtes, ce qui créait un fort facteur de confusion temporelle.
La première approche envisagée a été une simple comparaison des moyennes des tickets de caisse une semaine avant et après via un t-test. Les avantages résidaient dans la rapidité de mise en œuvre et la clarté pour les parties prenantes commerciales. Les inconvénients étaient critiques : l'ignorance totale de la croissance saisonnière des achats en décembre donnait un effet positif erroné de croissance du LTV de 15 %, alors qu'un effet nul ou négatif pouvait effectivement être observé à la suite de la réduction des communications.
La deuxième option supposait une analyse de cohorte avec un décalage de 30 jours, en comparant les cohortes de novembre et décembre. Les avantages comprenaient la prise en compte du cycle de vie de l'utilisateur et des métriques ajustées selon la saisonnalité. Les inconvénients se manifestaient dans le fait que différentes cohortes avaient des conversions de base différentes, et la cohorte de décembre était faussée par les campagnes promotionnelles de fin d'année, ce qui créait un biais de sélection insurmontable et l'impossibilité d'isoler l'effet pur de la fréquence des envois.
La troisième option consistait à construire un contrôle synthétique basé sur des données géographiques, en utilisant des régions de la CEI avec une faible pénétration du canal email (où les utilisateurs se dirigent vers les notifications push et SMS) comme groupe de contrôle pour les régions fortement dépendantes des newsletters par email. Avantages : possibilité de modéliser le contrefactuel "que se serait-il passé sans le changement" au niveau des séries temporelles agrégées. Inconvénients : la supposition des tendances parallèles était violée en raison des différences régionales dans les traditions éducatives pendant les fêtes, et les données au niveau des villes étaient fortement bruitées par la migration des utilisateurs entre les régions pendant les vacances.
La quatrième option (choisie) est Difference-in-Differences avec un appariement exact basé sur l'activité historique (ouvertures, clics, achats sur 90 jours avant le changement). Nous avons utilisé les power users (ayant ouvert >70 % des emails) comme groupe de traitement et les dormants (ayant ouvert <5 % des emails) comme groupe de contrôle, car ces derniers n'ont en fait pas ressenti le changement de fréquence. Avantages : contrôle rigoureux des caractéristiques observables grâce au PSM et possibilité de validation des tendances parallèles sur les données des trimestres précédents. Inconvénients : la supposition d'absence de tendances différentielles entre utilisateurs actifs et inactifs nécessitait une vérification supplémentaire. Pour la robustesse, nous avons appliqué Causal Impact, en utilisant les métriques de l'application mobile (sessions, achats intégrés) comme séries temporelles de contrôle, ne corrélant pas directement avec la fréquence des emails, mais reflétant la tendance globale du produit.
Le résultat final a montré que pour les power users, la réduction de la fréquence a entraîné une diminution statistiquement significative de la rétention à 30 jours de 8 % (p-value < 0.05, 95 % CI [5 %, 11 %]), mais a augmenté la valeur de vie du client de 3 % grâce à une diminution du taux de désabonnement vers les listes de spam. Pour les utilisateurs moyens, l'effet était statistiquement neutre. La recommandation pour l'entreprise : rétablir la fréquence quotidienne uniquement pour les 10 % supérieurs des utilisateurs avec le score d'engagement le plus élevé via segmentation, tandis que pour le reste de la base, conserver trois emails par semaine.
Ce que les candidats oublient souvent.
Comment distinguer l'effet de la fréquence des envois de l'effet de la qualité du contenu, si parallèlement à la réduction de la fréquence, l'équipe a amélioré la rédaction et le design des emails ?
La réponse nécessite l'application de mediation analysis et de variables instrumentales (IV). Il est nécessaire de construire un modèle à deux étapes : d'abord évaluer l'impact du changement de fréquence sur la probabilité d'ouverture de l'email (en contrôlant la qualité du contenu via des métriques de score de lisibilité ou de taux d'engagement pendant la période de contrôle), puis évaluer l'impact de l'ouverture sur la conversion. Les paquets mediation en R ou Python (bibliothèque mediation) sont utilisés pour décomposer l'effet total en effet direct (fréquence) et effet indirect (qualité). Un point critique pour le spécialiste débutant est que si la qualité du contenu est un collider (dépend de la fréquence via les ressources libérées de l'équipe de rédaction), un front-door adjustment de Pearl ou l'utilisation de métriques de qualité retardées (valeur de qualité avec lag=1) comme outil pour isoler l'effet pur de la fréquence est nécessaire.
Comment interpréter correctement les résultats en cas de violation de SUTVA (Stable Unit Treatment Value Assumption), lorsque les utilisateurs échangent des codes promotionnels à partir des emails dans les réseaux sociaux, créant des effets de débordement entre les groupes de traitement et de contrôle ?
Les candidats ignorent souvent l'interférence réseau, supposant l'indépendance des observations. La solution consiste à passer de l'analyse au niveau individuel à une analyse par cluster (erreurs standards robustes par cluster) ou à utiliser des méthodes d'inférence causale sous interférence. Il est nécessaire de définir des clusters via des graphes sociaux (si des données sur les connexions sont disponibles) ou la proximité géographique, puis d'appliquer l'exposition mapping pour les données d'observation. Pour évaluer le débordement, on utilise des définitions de traitement basées sur les quartiers ou des modèles d'exposition sinusoïdaux. Il est important de comprendre qu'en cas de débordements positifs (viralisation des codes promotionnels), les estimations standard sous-estiment l'effet, puisque le groupe de contrôle reçoit partiellement "le traitement" à travers le réseau. Les estimations doivent être corrigées par le biais de pondération par probabilité inverse en tenant compte du degré d'exposition des voisins.
Comment effectuer une analyse de sensibilité pour évaluer la robustesse des résultats face à des facteurs de confusion non observés (unobserved confounding), tels que la campagne publicitaire simultanée sur Facebook ciblant la même audience ?
L'approche standard en analyse de produit consiste à utiliser E-value (VanderWeele & Ding) pour évaluer la force minimale d'association que doit avoir un facteur de confusion non observé pour expliquer l'association observée. L'analyse de bornes (Rosenbaum bounds) est également appliquée pour des tests basés sur le rang. Pour le spécialiste débutant, il est crucial de comprendre la technique des contrôles négatifs — utiliser des résultats qui ne devraient pas être affectés par le traitement (par exemple, le nombre de sessions dans l'application mobile, si nous changeons uniquement le canal email), mais qui sont corrélés avec le facteur de confusion présumé. Si la "réduction des envois d'emails" influence le temps passé dans l'application (ce qui ne devrait pas se produire), cela signale la présence d'un facteur de confusion commun (comme un budget marketing partagé ou la saisonnalité).