Business analyseProductanalist

Welke methode stelt ons in staat om het causaal effect van de implementatie van de "Uitgestelde Betaling" service (Buy Now Pay Later) op de gemiddelde besteding en de frequentie van retourzendingen in e-commerce kwantitatief te beoordelen, als de toegang tot de functie wordt bepaald door kredietbeoordeling met een strikte goedkeuringsdrempel, waardoor klassieke A/B-testen niet mogelijk zijn, en het gedrag van gebruikers sterk afhankelijk is van seizoensgebonden consumptiepiek?

Slaag voor sollicitatiegesprekken met de Hintsage AI-assistent

Antwoord op de vraag

Historische context. In de afgelopen jaren is BNPL (Buy Now Pay Later) de standaard geworden voor fintech-integraties in de detailhandel, waardoor gebruikers betalingen rentevrij kunnen spreiden. Analisten worden geconfronteerd met een fundamenteel probleem: het is niet mogelijk om een gerandomiseerd experiment uit te voeren, omdat het weigeren van krediet goedkeuring om ethische en juridische redenen niet mogelijk is, en gebruikers zichzelf zich selecteren op kredietwaardigheid. Dit creëert een klassieke endogeniteit, waarbij de waargenomen correlatie tussen het gebruik van BNPL en een hoge besteding wordt veroorzaakt door bestaande kenmerken van kredietwaardige klanten, en niet door het product zelf.

Probleemstelling. De belangrijkste uitdagingen omvatten een scherpe kloof in kenmerken op de grens van de goedkeuringsdrempel (bijvoorbeeld 700 punten), seizoensgebondenheid (Black Friday, de periode voor de feestdagen), kannibalisatie van toekomstige verkopen (intertemporele substitutie) en een toename van retouren vanwege impulsieve aankopen. Het is nodig om het netto incrementele effect (LATE — Local Average Treatment Effect) voor gebruikers op de "grens" van goedkeuring te isoleren, waarbij de invloed van confounders wordt geminimaliseerd.

Gedetailleerde oplossing. De optimale benadering is Sharp Regression Discontinuity Design (RDD) op de scoregrens met een bandwidth van ±30-50 punten. De methodologie is gebaseerd op de veronderstelling van lokale willekeurigheid: gebruikers met 695 en 705 punten zijn statistisch niet te onderscheiden op basis van waargenomen en niet-waargenomen kenmerken, maar vallen in verschillende groepen (controle en behandeling). Daarnaast wordt Difference-in-Differences (DiD) toegepast om de dynamiek voor en na de implementatie binnen deze bandbreedte te volgen, wat seizoensgebondenheid controleert. Voor de evaluatie van kannibalisatie wordt een Event Study met vertragingen (bestedingen in t-3, t-2 maanden voor het gebruik van BNPL) gebruikt. Als er een instrument beschikbaar is (de goedkeuringsdrempel), maar er zijn niet-conforme gevallen (goedgekeurde klanten die BNPL niet hebben gebruikt), wordt Fuzzy RDD toegepast via Two-Stage Least Squares (2SLS). Het is belangrijk om de balans van covariaten (Covariate Balance Tests) en de dichtheid van de verdeling (McCrary test) te controleren voor de validatie van het ontwerp.

Levenssituatie

Een elektronica-marktplaats heeft BNPL van een partnerbank geïntegreerd met een strikte goedkeuringsdrempel van 650 punten op de interne schaal. Het bedrijf registreerde een groei van de gemiddelde besteding met 35% bij gebruikers met BNPL, maar vermoedde dat dit effect van zelfselectie van rijkere klanten was. Er moest een beslissing worden genomen over het uitbreiden van het kredietlimiet, maar er was een evaluatie van het ware causaal effect nodig.

Optie 1: Eenvoudige vergelijking "gebruikte BNPL" vs "niet gebruikt" zonder rekening te houden met de drempel. Voordelen: maximale eenvoudige implementatie in SQL, vereist geen complexe statistiek. Nadelen: kritieke keuze-bias (selection bias) — goedgekeurde gebruikers hebben een hoger inkomen en aankoopgeschiedenis, wat leidt tot een overschatting van het effect met +40%, niet gerelateerd aan het product. Het resultaat is ongeschikt voor besluitvorming.

Optie 2: Before-After analyse voor het gehele publiek zonder splitsing in groepen. Voordelen: houdt rekening met algemene groeitrends van het platform en is eenvoudig te interpreteren. Nadelen: het is onmogelijk om het effect van BNPL te scheiden van seizoensgebonden pieken (feestdagverkopen) en gelijktijdige marketingcampagnes. De evaluatie is bevooroordeeld door tijdelijke schokken in de vraag.

Optie 3: Regression Discontinuity Design (RDD) op de drempel van 650 punten met een bandbreedte van ±40 punten. Voordelen: maakt gebruik van de scherpe kloof in de waarschijnlijkheid van goedkeuring als natuurlijke experiment, evalueert het effect voor "marginale" gebruikers die "nipt" de drempel hebben gehaald of niet. Controleert voor niet-meetbare kenmerken in de lokale omgeving. Nadelen: evalueert alleen het lokale effect (LATE), dat niet zonder voorbehoud kan worden geëxtrapoleerd naar alle gebruikers met een hoge score; vereist een grote steekproef in de buurt van de drempel voor statistische kracht.

Gekozen oplossing: combinatie van Sharp RDD voor gebruikers in de bandbreedte van 610-690 punten met Propensity Score Matching op historische uitgaven en productcategorieën, aangevuld met Difference-in-Differences om de dynamiek over een periode van 90 dagen na de aankoop te volgen. Voor de controle van seizoensgebondenheid zijn er vaste effecten per week toegevoegd (Week Fixed Effects). Dit zorgde voor isolatie van het netto effect van het product ten opzichte van de kenmerken van de kredietnemer.

Eindresultaat: een statistisch significante stijging van de gemiddelde besteding van 17% (ITT — Intent-to-Treat) voor marginale gebruikers, maar een toename van het retourpercentage met 11% vanwege impulsieve aankopen. Het effect bleek heterogeen: hoog voor elektronica (+24%), nul voor huishoudelijke producten. Op basis van deze gegevens werd de goedkeuringsdrempel voor risicovolle productcategorieën aangepast, wat het retourpercentage met 4% verlaagde zonder omzetverlies.

Wat kandidaten vaak over het hoofd zien

Hoe het effect van "nieuwheid" (novelty effect) te onderscheiden van duurzame gedragsverandering bij het gebruik van RDD?

Er moet een Dynamic RDD worden uitgevoerd met analyse van het effect over tijdsintervallen (cohort-level RDD). Het effect wordt afzonderlijk beoordeeld voor week 1-2 (nieuwheid) en maanden 3-6 (duurzaam gedrag). Als de coëfficiënten significant verschillen (controle via Chow test), gebruiken we alleen het langetermijnvenster of introduceren we een interactie met tijd en behandeling. Het is ook belangrijk om pre-trend parallel te controleren — afwezigheid van een kloof in de uitkomsten (bestedingen) in de periodes vóór het moment van het oversteken van de drempel, wat de validiteit van het ontwerp bevestigt en het ontbreken van anticipatie-effecten.

Hoe kannibalisatie van toekomstige verkopen (intertemporele substitutie) correct te beoordelen bij de implementatie van BNPL?

Standaard RDD evalueert alleen het statische effect op het moment van aankoop. Voor kannibalisatie bouwen we een Event Study met vertragingen en leads (leads/lags) ten opzichte van het moment van het eerste gebruik van BNPL. We analyseren de bestedingen in de periodes t-3, t-2, t-1 (voor) en t+1, t+2, t+3 (na) maanden. Als de som van de coëfficiënten op de leads (pre-periods) negatief en significant is, duidt dit op het lenen uit de toekomst (de gebruiker had de aankoop gepland en versnelde deze dankzij BNPL). We gebruiken Local Projections van de Jordà-methode voor dynamische multipliers, wat het mogelijk maakt om het netto incrementele effect over een langere periode te beoordelen.

Waarom in dit geval eenvoudige matching op neiging (Propensity Score Matching) zonder RDD niet kan worden gebruikt, en welke aannamen worden geschonden?

PSM vereist de aanname van Unconfoundedness (Ignorability), wat onmogelijk is bij het bestaan van onmeetbare kenmerken die de goedkeuring beïnvloeden (bijvoorbeeld "financiële discipline", informele inkomstenbronnen die niet in de scoring voorkomen). Deze latente variabelen correleren zowel met goedkeuring als met uitgaven, wat bias creëert. RDD verzwakt deze vereiste tot lokale willekeurigheid rond de drempel (Local Randomization), waar onmeetbare kenmerken willekeurig zijn verdeeld. Kandidaten negeren vaak de noodzaak om de dichtheid van de verdeling van scores te controleren (McCrary test) en de balans van covariaten (Covariate balance tests) in de buurt van de drempel, wat cruciaal is voor de validiteit van de conclusies.