Antwoord op de vraag

Historische context

Vroege retentionstrategieën maakten gebruik van massale kortingscampagnes voor alle gebruikers met afnemende activiteit. Dit leidde tot ongerichte uitgaven van marketingbudgetten en het ontstaan van het gedragspatroon van het ‘verwachten van kortingen’. Met de opkomst van Uplift Modeling en Propensity Score-methoden in de jaren 2010 begonnen bedrijven zich alleen te richten op gebruikers met een hoge kans op churn. Dit veroorzaakte echter fundamentele evaluatieproblemen, omdat de behandelgroep door het model zelfselecteert, waardoor de randomisatiehypothese, die noodzakelijk is voor oorzakelijke conclusies, werd geschonden.

Probleemstelling

De belangrijkste uitdaging ligt in het vaststellen van een geldige contrafactische scenario voor gebruikers die door het churn voorspellingsmodel als hoog-risico zijn gemarkeerd. Deze gebruikers verschillen systematisch van de algemene populatie — ze hebben een lagere betrokkenheid, recente negatieve ervaringen of specifieke gedragingen. Een simpele vergelijking van hun retention met laag-risico gebruikers of met hun eigen geschiedenis vóór de interventie zou het behandel-effect vermengen met inherente verschillen. Bovendien creëert het afzien van retention-aanbiedingen voor gebruikers met het hoogste churnrisico (controlegroep) een onacceptabel zakelijk risico en verlies van inkomsten, waardoor klassiek A/B-testen politiek onmogelijk wordt.

Gedetailleerde oplossing

Pas Regression Discontinuity Design (RDD) toe rond de drempelwaarde van de risico-score (bijvoorbeeld 0,7) die de interventie activeert. Gebruikers net boven en net onder de drempel zijn statistisch vergelijkbaar, met uitzondering van de toewijzing van de behandeling. Dit geeft een lokale gemiddelde behandelingseffect (LATE) voor marginale gebruikers. Om te generaliseren naar de hele hoog-risicopopulatie, combineer RDD met Inverse Probability Weighting (IPW), waarbij gebruik wordt gemaakt van propensity scores die zijn geschat op gegevens vóór de interventie. Voor gebruikers ver boven de drempel, gebruik Doubly Robust Estimation of Causal Forests om heterogene effecten te modelleren. Om te gaan met datavervuiling van eerdere campagnes tijdens training, implementeer een «shadow mode», waar het model voorspellingen genereert zonder triggers voor een kleine held-out (5-10%), waardoor een instrument wordt gecreëerd voor de analyse van Two-Stage Least Squares (2SLS). Houd ten slotte rekening met de verzadiging van communicatiekanalen door Difference-in-Differences (DiD) te gebruiken om temporele trends tussen risicosegmenten te vergelijken.

Levenssituatie

Een mobiele abonnementsdienst (meditatie-app) implementeerde ChurnGuard — een ML-systeem dat gepersonaliseerde push-notificaties met 30% korting activeert voor gebruikers met een voorspelde kans op churn van meer dan 0,75 in 7 dagen.

Optie 1: Eenvoudige vergelijking van retention tussen gebruikers die korting ontvingen (hoog risico) en degenen die dat niet deden (laag risico)

Voordelen: Onmiddellijke berekening met bestaande BI-tools; vereist geen experimentele infrastructuur. Nadelen: Sterke zelfselectiebias — hoog-risico gebruikers vertrekken van nature vaker; de vergelijking onderschat het effect of toont zelfs een negatieve correlatie (behandelde gebruikers vertrekken nog steeds vaker dan onbehandelde laag-risico gebruikers).

Optie 2: Gerandomiseerde gecontroleerde experimentele opzet, waarin 50% van de hoog-risico gebruikers willekeurig worden uitgesloten van het retention aanbod

Voordelen: Ongebiasde oorzakelijke schatting; heldere interpretatie van het gemiddelde behandelingseffect (ATE). Nadelen: Zakelijke belanghebbenden verwierpen vanwege de vrees om waardevolle gebruikers te verliezen; ethische problemen rond de opzettelijke aanname van churn bij een interventie; steekproefgrootteproblemen voor het hoog-risico segment.

Optie 3: Regression Discontinuity Design met gebruik van de 0,75 drempel van het model plus de Synthetic Control Method voor validatie van tijdreeksgegevens

Voordelen: Ethisch aanvaardbaar — gebruikers net onder de drempel krijgen een standaardervaring; exploiteert de bestaande algoritmische drempel als natuurlijke experiment; kan retrospectief worden uitgevoerd op historische gegevens. Nadelen: Evalueert alleen het lokale effect (voor gebruikers bij de drempel); vereist zorgvuldige verificatie van de continuïteitsveronderstellingen (afwezigheid van manipulaties met scores); minder nauwkeurig dan RCT vanwege een kleinere effectieve steekproefgrootte in de toegangsband.

Geselecteerde oplossing en rechtvaardiging

Optie 3 met een toegangsband van 0,05 rond de drempel, aangevuld met Cohort Analysis die gebruikers vergelijkt in de week voor en na de implementatie van het model, gecorrigeerd voor seizoensgebondenheid met behulp van Propensity Score Matching op gedragskenmerken. Reden voor de keuze: Balans tussen statistische strengheid en zakelijke beperkingen; stelde in staat om effect te meten zonder expliciet hoog-risico gebruikers af te zonderen van behandeling.

Eindresultaat

Er werd een relatieve afname van 18% in churn binnen 7 dagen voor gebruikers aan de grens (risico-score 0,75-0,80) vastgesteld. Er werd echter geconstateerd dat voor gebruikers met een risico >0,90 de terugkeer afnam door ‘vermoeidheid van alarmering’ van meerdere retention-pushes. De frequentiegrens werd geoptimaliseerd tot maximaal 2 pushes per week. Het netto-effect op LTV bedroeg +$1,2 miljoen in 3 maanden met een ROI van 340% op kortingskosten.

Wat kandidaten vaak missen

Waarom vergelijken van de retention rate tussen gebruikers die een retention campagne hebben ontvangen en degenen die dat niet hebben ontvangen (zelfs binnen het hoog-risico segment) de werkelijke effectiviteit van de interventie kan overschatten of onderschatten?

Zelfs binnen het hoog-risico segment is het moment waarop een gebruiker dat segment bereikt cruciaal. Gebruikers die eerder in hun levenscyclus de risicodrempel bereiken, verschillen principieel van degenen die deze later bereiken. Zonder rekening te houden met Time-Varying Confounders (zoals recente storingen van de app of seizoensgebonden gebeurtenissen die zowel het risico verhogen als kortingen effectiever/minder effectief maken), worden simpele vergelijkingen aangetast door Survivorship Bias en Simpson's Paradox. De juiste aanpak vereist het gebruik van Marginal Structural Models (MSM) met gewichten op basis van de inverse kans op behandeling om tijdsafhankelijke covariabelen te verwerken.

Hoe verstoort het probleem 'data leakage' in de trainingsset van het churn-model de beoordeling van de effectiviteit van het churn-preventiesysteem zelf?

Als het churn-model is getraind op historische gegevens waarbij een deel van de gebruikers al retention campagnes heeft ontvangen, dan zijn de labels van de doelvariabele vervuild. Het model leert ‘gebruikers te identificeren die zijn gered door eerdere campagnes’, in plaats van ‘gebruikers die van nature zouden zijn vertrokken’. Dit creëert een Feedback Loop, waarbij het model kunstmatig goed presteert bij validatie (voorspelling van een lage churn voor behandelde gebruikers), maar niet in staat is om werkelijk risicovolle gebruikers in productie te identificeren. Om dit op te lossen, moet alleen data vóór de interventie worden gebruikt voor training of Importance Sampling worden toegepast om trainingdata opnieuw te wegen op basis van de inverse kans op eerdere behandelingen, wat effectief het ontbreken van campagnes in het verleden simuleert.

Waarom is standaard A/B-testen met randomisatie op gebruikersniveau misschien niet toepasbaar voor het evalueren van churn-preventiesystemen, en welke alternatieve experimentele ontwerpen moeten worden gebruikt?

Standaard A/B-testen zijn vaak niet toepasbaar omdat het afzien van behandeling in de controlegroep het principe van Individual Equipoise (opzettelijke aanname van schade bij een interventie) schendt en lijdt onder Spillover Effects (behandelde gebruikers kunnen kortingscodes delen met de controle). In plaats daarvan, gebruik Cluster Randomization (randomisatie op geografische gebieden of tijdsperioden via Switchback Experiments) of Encouragement Designs, waarbij het instrument recht op deelname aan het model is, en niet de behandeling zelf. Een andere benadering is Partial Population Experiments, waarbij het model werkt in “shadow mode” voor de controlegroep (voorspellingen worden gedaan, maar er worden geen acties ondernomen), waardoor het mogelijk wordt om de voorspelde en werkelijke churn te vergelijken met behulp van Calibration Analysis om het werkelijke lift te meten.