Historisch gezien was de evaluatie van loyaliteitsprogramma's gebaseerd op een simpele vergelijking van de gemiddelde bestedingen van deelnemers en niet-deelnemers, wat leidde tot een overschatting van het effect door selectiebias. Moderne productanalyse vereist isolatie van het ware causaal effect in situaties waarin gebruikers zichzelf selecteren voor het programma op basis van niet-observeerbare kenmerken (bijvoorbeeld de geplande aankoopvolume). Het belangrijkste probleem is het scheiden van het effect van het programma van de vooraf bestaande verschillen tussen groepen, evenals het correct omgaan met tijdsvertragingen tussen het toekennen en de activatie van bonussen.
Om dit op te lossen, is een combinatie van Propensity Score Matching (PSM) en Difference-in-Differences (DiD) met een uitgebreide specificatie van tijdseffecten noodzakelijk. In de eerste fase wordt een model gebouwd om de waarschijnlijkheid om toe te treden tot het programma op basis van covariaten voor het moment van lancering (aankoopgeschiedenis, demografie, betrokkenheid). Gebruikers worden gematcht op basis van de dichtstbijzijnde buur of gewichten (IPW) om de verdeling van observeerbare kenmerken in evenwicht te brengen. In de tweede fase wordt DiD toegepast met vaste effecten voor gebruikers en tijd, waarbij de periodes worden opgedeeld in bakken ten opzichte van het moment van activatie van de cashback (event study design). Dit stelt ons in staat om de dynamiek van het effect te volgen, aangezien een deel van de gebruikers bonussen na een week activeert en een ander deel na een maand. Om kannibalisatie (tijdverschuiving van aankopen) te controleren, worden vertragingen van de afhankelijke variabele opgenomen en worden cohorten met verschillende observatiehorizonten geanalyseerd via Survival Analysis.
We lanceerden een spaar-cashback van 5% in een elektronica-marktplaats, waar gebruikers de optie in hun profiel moesten activeren. Na een maand toonden de metrics een stijging van 40% in de aankoofrequentie onder de deelnemers, maar het bedrijf twijfelde aan de causaliteit, aangezien werd aangenomen dat van nature loyale gebruikers het programma betreden. Het probleem werd gecompliceerd doordat de bonussen pas na 14 dagen konden worden besteed, wat een kunstmatige piek in de activiteit op de derde week creëerde.
De eerste overwogen optie — een klassieke A/B-test met gedwongen randomisatie van de toegang tot cashback. Voordelen: duidelijke beoordeling van het causaal effect. Nadelen: juridische beperkingen (je kunt een financieel programma niet opleggen zonder toestemming) en gedragsverstoring (gebruikers die wisten dat cashback niet beschikbaar was, gingen naar concurrenten). Deze optie werd verworpen vanwege ethische en zakelijke risico's.
De tweede optie — een eenvoudige vergelijking van "deelnemers vs niet-deelnemers" via t-test met correctie voor steekproefgrootte. Voordelen: snelheid van implementatie en eenvoud in rapportage. Nadelen: rampzalige overlevingsbias (survivorship bias) en negering van endogeniteit; analyse toonde aan dat deelnemers voor activatie 2,3 keer hogere basisfrequenties van aankopen hadden, wat de vergelijking onjuist maakte.
De derde optie — Regression Discontinuity Design (RDD) op de drempelwaarde van het bedrag van de eerste aankoop, die automatisch recht gaf op cashback. Voordelen: lokale willekeur rond de drempel zorgt voor een ongevoegde beoordeling voor marginale gebruikers. Nadelen: de beoordeling is alleen geldig voor een smalle groep rond de drempel (lokale gemiddelde behandelingseffect), en niet voor het hele publiek; bovendien was er in ons geval geen strikte drempel — het programma was voor iedereen beschikbaar onmiddellijk na opt-in.
De gekozen oplossing — een combinatie van Propensity Score Matching om synthetische controle te creëren en Cohort-based Difference-in-Differences rekening houdend met tijdsvertragingen. We hebben deelnemers gematcht met niet-deelnemers op 15 variabelen (RFM-segmenten, seizoensgebondenheid, apparaat), en vervolgens DiD toegepast met vaste effecten per week en gebruiker. Om rekening te houden met de vertraging van 14 dagen hebben we een Event Study opgebouwd met bins ten opzichte van het activatiemoment, wat ons in staat stelde om echte groei te scheiden van het verschuiven van aankopen. Resultaat: het netto incrementele effect bedroeg +12% op de aankoofrequentie en +8% op het gemiddelde bestelbedrag na correctie voor kannibalisatie, terwijl de ruwe gegevens +40% toonden. Het programma werd als succesvol beschouwd, maar met aanzienlijk bescheidener ROI-verwachtingen.
Hoe het effect van het programma correct te onderscheiden van de tijdverschuiving van aankopen (intertemporal substitution) bij aanwezigheid van vertragingen tussen het toekennen en afschrijven van bonussen?
Het antwoord vereist begrip van Dynamic Treatment Effects. Het is nodig om niet alleen het gemiddelde effect te modelleren, maar ook de dynamiek ervan via Event Study-specificatie: Y_it = α_i + γ_t + Σ_k β_k · D_i,t-k + ε_it, waarbij D_i,t-k dummyvariabelen zijn met betrekking tot het activatiemoment. Als de coëfficiënten β_k voor de activatie significant niet verschillen van nul (parallel trends test), en na activatie een piek vertonen met daaropvolgende daling onder het basisniveau — is dit een teken van kannibalisatie (borrowed demand). Voor het schatten van het netto LTV-effect moet men het effect over de tijd integreren en vergelijken met het contrafactum via Synthetic Control Method, opgebouwd op donor-eenheden met een vergelijkbare eerdere traject.
Waarom kan een standaard A/B-test met individuele randomisatie de SUTVA-aanname in cashback-systemen schenden?
SUTVA (Stable Unit Treatment Value Assumption) wordt geschonden wanneer de bonussen van één gebruiker het gedrag van anderen beïnvloeden via netwerken (bijvoorbeeld gezinsaccounts of zakelijke aankopen). Als een man cashback activeert en een aankoop doet voor het gezin, terwijl zijn vrouw haar afzonderlijke aankopen stopt, zal individuele randomisatie een vertekende beoordeling geven. Het is noodzakelijk om Cluster Randomization op het niveau van huishoudens toe te passen of diffuseringsanalyse-methoden (Spillover Effects) te gebruiken, zoals Two-Stage Least Squares (2SLS) met instrumentele variabelen (bijvoorbeeld drempelwaarden voor activatie, die variëren tussen clusters).
Hoe om te gaan met heterogeniteit van het effect over de levenscyclus van de klant (customer lifetime stage) met seizoenstrends?
Kandidaten negeren vaak dat het effect van cashback verschillend is voor nieuwe gebruikers (effect van initiële motivatie) en voor gevestigde gebruikers (effect van behoud). Het is noodzakelijk om Triple Difference (DDD) toe te passen: effect van het programma = (Y_post - Y_pre) voor behandeling - (Y_post - Y_pre) voor controle, differentieel op basis van segmenten van duur (nieuw/volwassen). Hierbij wordt seizoensgebondenheid gecontroleerd via vaste effecten van de maand van interactie met het segment. Alternatief — Heterogeneous Treatment Effects via Causal Forests of Meta-learners (S-learner, T-learner), wat het mogelijk maakt om segmenten met een positief CATE (Conditional Average Treatment Effect) te identificeren en de targeting van het programma op hen te optimaliseren, terwijl kosten voor gebruikers met een nul of negatief effect worden vermeden.