Réponse à la question

Historiquement, l'évaluation des programmes de fidélisation était basée sur une simple comparaison des paniers moyens des participants et des non-participants, ce qui conduisait à une surestimation de l'effet en raison du biais de sélection. L'analyse produit moderne nécessite d'isoler le véritable effet causal dans des conditions où les utilisateurs se sélectionnent eux-mêmes dans le programme sur la base de caractéristiques non observables (par exemple, le volume d'achats prévu). Le problème clé réside dans la séparation de l'effet du programme des différences préexistantes entre les groupes, ainsi que dans le traitement correct des décalages temporels entre l'attribution et l'activation des bonus.

Pour résoudre cela, il est nécessaire d'appliquer une combinaison de Propensity Score Matching (PSM) et de Difference-in-Differences (DiD) avec une spécification élargie des effets temporels. Dans un premier temps, un modèle de probabilité d'adhésion au programme est construit sur la base des covariables avant le lancement (historique d'achats, démographie, engagement). Les utilisateurs sont appariés par le voisin le plus proche ou les poids (IPW) pour équilibrer la distribution des caractéristiques observables. Dans un deuxième temps, DiD est appliqué avec des effets fixes par utilisateur et par temps, où les périodes sont divisées en seaux par rapport au moment de l'activation du cashback (conception d'étude d'événements). Cela permet de suivre la dynamique de l'effet, prenant en compte que certains utilisateurs activent les bonus après une semaine, tandis que d'autres le font après un mois. Pour contrôler la cannibalisation (le report d'achats dans le temps), les décalages de la variable dépendante sont inclus et des cohortes avec différents horizons d'observation sont analysées à l'aide de Survival Analysis.

Situation de la vie réelle

Nous avons lancé un cashback cumulatif de 5 % sur un marketplace d'électronique, où les utilisateurs devaient activer l'option dans leur profil. Au bout d'un mois, les métriques indiquaient une augmentation de 40 % de la fréquence des achats parmi les participants, mais l'entreprise doutait de la causalité, car il était supposé que les utilisateurs participant au programme étaient initialement loyaux. Le problème était compliqué par le fait que les bonus ne pouvaient être dépensés qu'après 14 jours d'attribution, créant un pic d'activité artificiel la troisième semaine.

La première option examinée était un test A/B classique avec une randomisation forcée de l'accès au cashback. Avantages : évaluation nette de l'effet causal. Inconvénients : restrictions juridiques (il est impossible d'imposer un programme financier sans consentement) et distorsion des comportements (les utilisateurs, apprenant l'inaccessibilité du cashback, se tournaient vers les concurrents). Cette option a été rejetée en raison de risques éthiques et commerciaux.

La deuxième option consistait en une simple comparaison « participants vs non-participants » via un test t avec correction pour la taille de l'échantillon. Avantages : rapidité de mise en œuvre et simplicité du reporting. Inconvénients : un biais de survie catastrophique (survivorship bias) et l'ignorance de l'endogénéité ; l'analyse a montré que les participants avant l'activation avaient une fréquence d'achats de base 2,3 fois plus élevée, ce qui rendait la comparaison incorrecte.

La troisième option était un Regression Discontinuity Design (RDD) en fonction du seuil du montant du premier achat, donnant automatiquement droit au cashback. Avantages : une randomisation locale autour du seuil fournit une estimation non biaisée pour les utilisateurs marginaux. Inconvénients : l'évaluation est valide uniquement pour un groupe restreint au seuil (effet de traitement moyen local), et non pour l'ensemble de l'audience ; de plus, dans notre cas, il n'y avait pas de seuil rigide — le programme était disponible pour tous immédiatement après l'opt-in.

La solution choisie était une combinaison de Propensity Score Matching pour créer un contrôle synthétique et de Difference-in-Differences basée sur les cohortes en tenant compte des décalages temporels. Nous avons apparié des participants avec des non-participants sur 15 variables (segments RFM, saisonnalité, appareil), puis appliqué le DiD avec des effets fixes par semaine et utilisateur. Pour tenir compte du décalage de 14 jours, nous avons construit une étude d'événements avec des bacs par rapport au moment de l'activation, ce qui a permis de séparer la véritable croissance du report d'achats. Résultat : l'effet incrémental net était de +12 % en fréquence d'achats et de +8 % en panier moyen après prise en compte de la cannibalisation, tandis que les données brutes montraient +40 %. Le programme a été jugé réussi, mais avec des attentes de ROI beaucoup plus modestes.

Ce que les candidats oublient souvent

Comment distinguer correctement l'effet du programme du report temporel d'achats (intertemporal substitution) en présence de décalages entre l'attribution et le retrait des bonus ?

La réponse nécessite une compréhension des Dynamic Treatment Effects. Il faut modéliser non seulement l'effet moyen, mais aussi sa dynamique à travers une spécification d'étude d'événements : Y_it = α_i + γ_t + Σ_k β_k · D_i,t-k + ε_it, où D_i,t-k sont des variables dummy relatives au moment de l'activation. Si les coefficients β_k avant l'activation ne diffèrent pas significativement de zéro (test des tendances parallèles), et qu'après l'activation, ils montrent un pic suivi d'une baisse en dessous du niveau de base — cela indique une cannibalisation (borrowed demand). Pour évaluer l'effet LTV net, il faut intégrer l'effet dans le temps et comparer avec le contrefactuel via la Synthetic Control Method, construit sur des unités donneuses avec une trajectoire préliminaire similaire.

Pourquoi un test A/B standard avec randomisation individuelle peut-il violer l'hypothèse SUTVA dans des systèmes de cashback ?

SUTVA (Hypothèse de valeur de traitement stable des unités) est violée lorsque les bonus d'un utilisateur influencent le comportement des autres à travers le réseau (par exemple, des comptes familiaux ou des achats d'entreprise). Si un mari active le cashback et effectue un achat pour la famille, tandis qu'une femme arrête ses achats séparés, la randomisation individuelle donnera une estimation biaisée. Il est nécessaire d'appliquer une Randomisation par grappes au niveau des ménages ou d'utiliser des méthodes d'analyse de diffusion (Spillover Effects), telles que les Two-Stage Least Squares (2SLS) avec des variables instrumentales (par exemple, des valeurs seuils pour l'activation, variant entre les grappes).

Comment prendre en compte l'hétérogénéité de l'effet selon le cycle de vie de l'utilisateur (étape de vie du client) en présence de saisonnalité ?

Les candidats ignorent souvent que l'effet du cashback est différent pour les nouveaux utilisateurs (effet de motivation initiale) et les utilisateurs mûrs (effet de rétention). Il est nécessaire d'appliquer le Triple Difference (DDD) : effet du programme = (Y_post - Y_pre) pour le traitement - (Y_post - Y_pre) pour le contrôle, différencié par segments de tenure (nouveaux/mûrs). Dans ce cas, la saisonnalité est contrôlée par des effets fixes par mois d'interaction avec le segment. Alternativement — Heterogeneous Treatment Effects via Causal Forests ou Meta-learners (S-learner, T-learner), ce qui permet d'identifier des segments avec un CATE positif (Conditional Average Treatment Effect) et d'optimiser le ciblage du programme sur eux, évitant les dépenses pour les utilisateurs avec un effet nul ou négatif.