De historische context gaat terug naar de evolutie van freemium modellen van statische limieten (vaste 5GB in de cloud) naar dynamische, aanpassingslimieten op basis van Machine Learning. Klassieke benaderingen voor het beoordelen van de effectiviteit van dergelijke interventies worden geconfronteerd met fundamentele endogeniteit: het systeem beperkt opzettelijk gebruikers met een hoge voorspelde kans op conversie, wat een sterke selectieve verschuiving creëert. Vroege correlatieve analysemethoden gaven vertekende schattingen, omdat ze confounding by indication negeerden, wat leidde tot een overschatting van het effect met 200-300%.
De probleemstelling vereist het meten van Local Average Treatment Effect (LATE) onder omstandigheden waarin de toewijzing van de limiet correleert met de latente motivatie van de gebruiker. Het model voorspelt de conversiekans $P(conv|X)$ en wijst een limiet toe wanneer $P > \tau$, wat de groepen niet vergelijkbaar maakt op zowel waarneembare als niet-waargenomen kenmerken. Directe vergelijking van gebruikers met en zonder limiet leidt tot overestimation, omdat de behandelde groep aanvankelijk "heet" is en bereid is te betalen.
Een gedetailleerde oplossing is gebaseerd op Regression Discontinuity Design (RDD) bij de drempel $\tau$ van het scoringsmodel. In de buurt van de drempel (bandbreedte $h$) is de toewijzing van de limiet quazi-toevallig, aangezien gebruikers met $P = \tau - \epsilon$ en $P = \tau + \epsilon$ statistisch niet van elkaar te onderscheiden zijn. Er wordt eencontinue regressie van de uitkomst op de scoringsscore gebouwd met schatting van de sprongetje (jump) op het punt $\tau$. Voor het verbeteren van de nauwkeurigheid wordt Causal Forest toegepast om de heterogeniteit van het effect te schatten, en bij gefaseerde implementatie wordt Difference-in-Discontinuities gebruikt om temporele trends te controleren. Alternatief kan Inverse Propensity Weighting (IPW) worden toegepast met schatting van de propensity score via Random Forest, maar dit vereist de voorwaarde van unconfoundedness, die zelden volledig wordt vervuld.
Probleem
In een B2B SaaS product voor taakbeheer werden dynamische limieten ingevoerd op het aantal actieve projecten voor gratis accounts. Het ML-model analyseerde 50+ gedragskenmerken en blokkeerde de creatie van nieuwe projecten wanneer de voorspelde conversiekans boven 0.75 lag. Het productteam zag een groei van 40% in conversie onder "gelimiteerde" gebruikers, maar kon het effect van de beperking niet scheiden van de zelfselectie van gemotiveerde gebruikers. Bovendien was een volledige verbod op limieten voor de test niet mogelijk, omdat dit zou betekenen dat $200K MRR per maand experiment verloren ging.
Optie 1: Eenvoudige vergelijking met historische gegevens
Vergelijk de conversie van huidige gebruikers met limiet met die van een cohort van twee maanden geleden, vóór de implementatie van de functie. Voordelen: vereist minimale investeringen in infrastructuur, snelle beoordeling zonder technische wijzigingen. Nadelen: negeert volledig seizoensgebondenheid (de kerst-dip in activiteit), de algemene trend van groeiende conversie (het product werd volwassener) en het nieuwheidseffect; geeft een vertekende schatting met een overschatting van 35-40% door selectievooroordeel.
Optie 2: Klassieke A/B-test met uitschakeling van het ML-model
Schakel willekeurig de toewijzing van limieten uit voor 15% van de gebruikers, zodat ze het product onbeperkt kunnen gebruiken, ongeacht de scoring. Voordelen: gouden standaard voor causaliteit, directe meting van Average Treatment Effect (ATE). Nadelen: categorisch verworpen door C-level vanwege het risico van verlies van "hete" gebruikers, die in de controlegroep geen trigger tot conversie krijgen; creëert aanzienlijke opportunity costs en ethische conflicten (waarom krijgen de een alles en de ander niet).
Optie 3: Regression Discontinuity Design met hybride aanpak
Gebruik de natuurlijke scoringsdrempel (0.75) als breekpunt, vergelijking van gebruikers met een conversiekans van 0.74 en 0.76 als lokaal gerandomiseerde groepen (~5000 gebruikers in het venster ±0.05). Vul aan met de Synthetic Control Method voor regio's waar de implementatie een maand is uitgesteld. Voordelen: behoudt de bedrijfslogica voor 95% van de gebruikers; geeft een ongeverschatte schatting van het lokale effect (LATE) voor "grens" gebruikers; stelt natuurlijke variatie in staat zonder de omzet aan te tasten. Nadelen: vereist een grote steekproef rond de drempel (>2000 waarnemingen); de schatting is alleen toepasbaar op de subgroep met $P(conv) \approx 0.75$, en niet op de hele populatie; is gevoelig voor manipulatie van de drempel (requires McCrary test op de dichtheid van de verdeling).
Gekozen oplossing en resultaat
Er werd gekozen voor RDD met een optimale bandbreedte volgens de Calonico-Cattaneo-Titiunik (CCT bandwidth) methode, aangevuld met Causal Forest voor het zoeken naar subpopulaties met negatieve effecten. De analyse onthulde dat een strikte limiet +12% conversie geeft voor "gemiddelde" gebruikers (dichtbij de drempel), maar -8% retentie voor power users (hoge betrokkenheid, maar scoring net onder de drempel). Op basis hiervan werd een hybride modus geïmplementeerd: zachte limieten (alleen waarschuwing) voor power users, strikte (hard cap) voor gemiddelde gebruikers. Het uiteindelijke resultaat: een groei van 8% in conversie bij behoud van 30-daagse retentie op 96% van de basis, wat resulteerde in $450K extra ARR in een kwartaal zonder verlies van sleutelgebruikers.
Hoe het effect van de beperking zelf te onderscheiden van het "herinneringseffect" (reminder effect) met betrekking tot de betaalde versie?
Kandidaten interpreteren vaak de groei van de conversie slechts als een resultaat van de financiële beperking, negerend dat de mededeling over de limiet fungeert als een marketingpunt. Voor isolatie is een extra controlegroep met "zachte" mededeling nodig (alleen informatie over premium zonder blokkering van de functie) of analyse van de tijd tussen het tonen van de limiet en de conversie. Als de conversie onmiddellijk plaatsvindt (binnen een uur) — is dit waarschijnlijk een reminder effect, als het gebeurt na 3-7 dagen na verschillende pogingen om de limiet te overschrijden — is dit het echte effect van de beperking. Gebruik ook een instrumentele variabele in de vorm van technische latentie van het tonen van de melding als willekeurige variatie in de intensiteit van het herinneren, toegepast via 2SLS regressie.
Hoe netwerk effecten in teamproducten (Notion, Figma) te verdisconteren, waarbij de beperking van één gebruiker invloed heeft op de samenwerking van collega's?
In B2B SaaS creëert de beperking van één teamlid spillover effecten: collega's kunnen ofwel middelen bij elkaar brengen in één account, of naar de concurrentie migreren. Klassiek RDD negeert deze externe effecten, waardoor de SUTVA (Stable Unit Treatment Value Assumption) wordt geschonden. Oplossing — cluster-RDD op team- of werkruimte-niveau, waar de behandeling wordt bepaald door het aandeel van "gelimiteerde" gebruikers in het team, of gebruik van two-stage least squares (2SLS) met het aantal beperkte buren in het netwerk als instrument. Het is belangrijk om schendingen te meten via analyse van de netwerkinactiviteit (network adjacency matrix) tussen gebruikers met verschillende limietenstatussen, waarbij de hypothese over homophily binnen teams wordt gecontroleerd.
Hoe het echte effect van het beperken van een specifieke functie te scheiden van de verschuiving in gebruik naar minder waardevolle functies (substitution bias)?
Gebruikers, geconfronteerd met een limiet op functie A, kunnen overstappen naar functie B (bijvoorbeeld van tabellen naar tekstdocumenten), wat de illusie van hoge retentie creëert, maar feitelijk de product stickiness en feature adoption depth degradeert. Voor meting is analyse van Shannon entropy van functiegebruik (meting van gebruiksdiversiteit) of compositional data analysis (CODA) nodig. Als de entropie daalt na de beperking, is er sprake van kannibalisatie binnen het product. Het optimale beleid moet niet alleen conversie maximaliseren, maar ook de verwachte LTV rekening houdend met veranderende gebruikspatronen, wat modellering via Markov Decision Process (MDP) of contextual bandit vereist met een rewardfunctie die rekening houdt met de diepte van feature-adoptie en engagement velocity, en niet alleen met het feit van conversie.