Historisch gezien werden marketingcampagnes beoordeeld op basis van het gemiddelde effect van de behandeling (ATE), maar de ontwikkeling van Causal ML heeft geleid tot uplift-modellen die het individuele therapeutische effect (ITE) voorspellen. De klassieke A/B-test is hier paradoxaal: om het model te trainen zijn gegevens over treated en control voor alle segmenten nodig, maar om het model te evalueren, moet het worden toegepast, wat de controlegroep vernietigt. Dit creëert een dilemma tussen onderzoek en exploitatie (exploration-exploitation).
Het probleem wordt verergerd door kruiselings vervuiling (contamination), wanneer het gedrag van gebruikers uit de testgroep invloed heeft op controle door netwerk effecten of gemeenschappelijke bronnen (bijvoorbeeld uitputting van kortingscodes). Er is een methode nodig die zowel het model kan trainen als het incrementele effect vergeleken met een uniforme verdeling of het ontbreken van een campagne kan isoleren.
De oplossing is gebaseerd op een Two-Stage Approach. De eerste fase is exploration met randomisatie (20-30% van het verkeer) voor het verzamelen van onbevooroordeelde gegevens, het trainen van het model (X-learner of R-learner) voor het beoordelen van CATE (Conditional Average Treatment Effect). De tweede fase is exploitation met een geleidelijke overgang van verkeer naar het model via Thompson Sampling of Contextual Bandits, wat de spijt (regret) minimaliseert. Voor de isolatie van het effect wordt gebruik gemaakt van Cluster-based Randomization (randomisatie op geografische clusters) of Switchback-testing (tijdelijke randomisatie) met daaropvolgende evaluatie via de Synthetic Control Method (SCM). De kwaliteitsmeter is de Qini-coëfficiënt of de Area Under the Uplift Curve (AUUC), gecorrigeerd door Inverse Propensity Weighting (IPW) om selectie-bias te elimineren.
Het probleem deed zich voor op een marktplaats bij de lancering van een campagne met gepersonaliseerde kortingscodes. De productmanager wilde een uplift-model gebruiken om kortingen alleen te sturen naar "persuadables" (degene die alleen met een kortingscode koopt), en tegelijkertijd "sure things" en "lost causes" te vermijden. Standaard A/B-testen waren niet mogelijk, aangezien voor training gegevens over degenen die geen kortingscode kregen in alle segmenten nodig waren, maar het behoud van 50% van de gebruikers zonder kortingscodes zou de omzet kritisch verlagen.
Optie één — Hold-out Randomization door 10% van de gebruikers volledig in de controle te behouden voor de gehele periode. Voordelen van deze aanpak: schone beoordeling van ATE en mogelijkheid voor correcte modeltraining door contrast. Nadelen: aanzienlijke gemiste inkomsten (opportunity cost), ethische conflicten (prijsdiscriminatie zonder transparante criteria) en trage convergentie van het model vanwege de kleine controlegroep.
Optie twee — Thompson Sampling met een geleidelijke verhoging van het verkeerspercentage. Hier zijn de "handen" van de bandiet de targetstrategieën (uplift-model versus random). Voordelen: optimale verhouding tussen exploration/exploitation, aanpassing aan seizoensgebondenheid en minimalisering van economische verliezen. Nadelen: complexiteit van interpretatie in de vroege fasen, risico op vastlopen in een lokale optimum bij een slechte keuze van contexten en de noodzaak van grote verkeersvolumes voor statistische significantie.
Optie drie — Geo-based Synthetic Control. Randomisatie vond plaats op basis van regio's: in de testgroepen werd het uplift-model gebruikt, in de controlegroepen het oude systeem. Voor de evaluatie werd SCM gebruikt, wat een gewogen combinatie creëert van de controle-regio's die de testgroepen imiteert voordat deze werd geïmplementeerd. Voordelen: isolatie van het effect van individuele randomisatie, werken met geaggregeerde gegevens en afwezigheid van kruiselings vervuiling tussen steden. Nadelen: vereiste stabiliteit van regio's in de tijd, gevoeligheid voor uitbijters in kleine geografische eenheden en de aanname van parallelle trends, die vaak wordt geschonden in periodes van hoge seizoensgebondenheid.
Een gecombineerde oplossing werd gekozen: Geo-cluster Randomization met Synthetic Control voor offline validatie en Thompson Sampling voor online optimalisatie binnen de testclusters. Onderbouwing: geografische randomisatie elimineerde kruiselings vervuiling (gebruikers uit verschillende steden communiceren zelden), en Synthetic Control vermijdde een 50/50 split. Thompson Sampling binnen de testregio's zorgde voor een snelle aanpassing van het model aan lokale voorkeuren.
Resultaat: de ware incrementele effect van het uplift-model werd geïsoleerd met +12% conversie vergeleken met massale verzending, terwijl de uitgaven voor kortingscodes met 35% werden verlaagd. Synthetic Control toonde aan dat zonder het model de trend in de testregio's de dynamiek van de synthetische controle met 94% (RMSPE) zou herhalen, wat de geldigheid van de evaluatie bevestigde.
Waarom kan je niet simpelweg de conversie vergelijken van degenen die een kortingscode volgens het model hebben ontvangen met degenen die dat niet hebben gekregen (observational data), ook al gebruik je Propensity Score Matching?
Antwoord: Self-selection bias en unobserved confounders. Gebruikers met een hoge uplift-score kunnen systematisch verschillen in niet-geobserveerde kenmerken (bijvoorbeeld recente salarisontvangst of het zoeken naar een specifiek product). Propensity Score Matching (PSM) corrigeert alleen voor geobserveerde covariaten, maar als er een verborgen variabele bestaat die invloed heeft op zowel de waarschijnlijkheid van het ontvangen van een kortingscode als op de conversie, zal de schatting bevooroordeeld zijn. Bijvoorbeeld, actieve gebruikers met meerdere sessies kunnen ten onrechte worden geclassificeerd als "persuadables", maar zij zullen ook zonder korting kopen. Voor een beginnende specialist is het cruciaal te begrijpen dat de correlatie tussen de voorspelde uplift en de feitelijke conversie niet gelijk is aan het oorzakelijk-effect — randomisatie of instrumentele variabelen (IV) zijn nodig voor isolatie.
Hoe beïnvloedt tijdsafhankelijkheid (time-varying confounders) de beoordeling van het uplift-model bij een lange trainingsperiode, en hoe ga je hiermee om?
Antwoord: Bij langdurige training ontstaat temporal confounding: het gedrag van gebruikers verandert (seizoensgebondenheid, productupdates), en de gegevens uit de exploratiefase verouderen tegen de tijd van exploitatie. Het klassieke uplift-model gaat uit van stationariteit, wat zelden waar is. De oplossing is het gebruik van adaptive experimentation met decaying weights voor oude gegevens of online learning-algoritmen (bijvoorbeeld Bayesian Updating). Bovendien is monitoring van concept drift noodzakelijk via de Population Stability Index (PSI) voor functies en modelprestaties. Beginnende analisten trainen vaak het model op kwartaalgegevens, maar passen het na zes maanden toe zonder te controleren op gedragsverschuivingen in de doelgroep (bijvoorbeeld als gevolg van concurrentie), wat leidt tot negative uplift in productie.
Waarom kan de meting AUUC (Area Under Uplift Curve) misleidend zijn bij het vergelijken van twee verschillende uplift-modellen, en welke alternatieven zijn er te gebruiken?
Antwoord: AUUC is afhankelijk van de verdeling van de voorspelde uplift in de populatie en is niet schaal-invariant. Als het ene model conservatief een lage uplift voorspelt voor iedereen, terwijl het andere model agressief een hoge spreiding voorspelt, zullen hun curves elkaar kruisen en kan AUUC een dubbelzinnig resultaat geven. Bovendien negeert AUUC zakelijke beperkingen (budget voor kortingscodes). Een alternatief is de cost-sensitive Qini coefficient of Expected Response bij een vast budget. Voor een beginnende specialist is het belangrijk te begrijpen dat een goed model volgens AUUC ≠ een goede zakelijke metriek is. Het is noodzakelijk om Policy Evaluation te gebruiken met simulatie van strategieën: rangschik gebruikers op basis van de voorspelde uplift, neem de top-K% (volgens het budget), en vergelijk de feitelijke groei met het contrafactische scenario via Doubly Robust Estimation of Inverse Probability Weighting (IPW).