Antwoord op de vraag

Historische context

De evolutie van e-commerce heeft geleid tot de ontwikkeling van omnichannel-logistiek, waarbij Click&Collect en afhaalpunten (Pickup Points, Punten van Verkooppunt) instrumenten zijn geworden om de kosten van de laatste mijl van levering te verlagen. Echter, in tegenstelling tot digitale functies, hebben deze veranderingen een geografisch discrete aard en zijn ze onderhevig aan het self-selection effect — klanten met een hoge waarde voor tijd negeren afhaalpunten, terwijl zuinige gebruikers overstappen van bezorging. Klassieke user-level A/B-tests zijn hier onmogelijk vanwege het ontbreken van randomisering op het niveau van de locatie en de aanwezigheid van netwerkeffecten binnen buurten.

Probleemstelling

De analyse staat voor drie belangrijke uitdagingen. Ten eerste, endogeniteit van plaatsing: punten worden geopend in gebieden met een hoge bestedingsdichtheid, wat een omgekeerde causale relatie creëert (hoge vraag → opening van afhaalpunten). Ten tweede, kanibalisatie: een deel van de gebruikers verandert gewoon de wijze van ontvangst van bezorging naar afhalen zonder toename van de totale besteding. Ten derde, SUTVA schending (Stable Unit Treatment Value Assumption): een gebruiker ziet de opening van een punt dicht bij huis en beïnvloedt buren via sociale media, wat een kruisbesmetting creëert tussen ‘behandelde’ en ‘controlegroepen’ buurten.

Gedetailleerde oplossing

Een gelaagde strategie van quasi-experimentele evaluatie wordt aanbevolen. Op macroniveau (steden) wordt de Synthetic Control Method toegepast — we creëren een gewogen combinatie van ‘donorsteden’ zonder afhaalpunten, die de dynamiek van de metrics van de teststad vóór de interventie zo goed mogelijk imiteert. De gewichten worden geselecteerd via convex optimalisatie op pre-interventiegegevens (12-18 maanden), inclusief seizoensgebondenheid, macro-economische indicatoren en categorieënstructuren.

Op microniveau (gebruikers) gebruiken we Difference-in-Differences met propensity scoring (Propensity Score Matching) voor het controleren van waargenomen kenmerken, maar de sleutel is de invoering van Instrumental Variables (IV). De kortste afstand van het huis van de gebruiker tot het dichtstbijzijnde afhaalpunt, berekend via het wegennet, fungeert als instrument. Deze variabele correleert met de keuze voor afhalen (de eerste fase van de twee-staps OLS), maar correleert niet met de latente neiging om te kopen, waardoor het zuivere Local Average Treatment Effect (LATE) wordt geïsoleerd.

Terwijl hybride bestellingen (tussenopslag) worden meegenomen, bouwen we CausalForest-modellen op die het effect scheiden in subpopulaties: onmiddellijk adopters, uitgestelde gebruikers en nooit-nekers. Ten slotte corrigeren we voor standaardfouten door clustering op buurt niveau (clustered standard errors) en controleren we de gevoeligheid voor spillover-effecten door analyse van concentratie binnen een straal van 500 meter.

Praktijkvoorbeeld

Context: Een grote fashion-marktplaats plande de lancering van een netwerk van 120 Pickup Points in 15 teststeden van gemiddelde grootte (500-800k bevolking) met als doel de logistieke kosten met 25% te verlagen. Het management eiste een evaluatie of de aanwezigheid van afhaalpunten de aankoopfrequentie (purchase frequency) onder bestaande klanten verhoogt of alleen het verkeer van bezorgdiensten omleidt.

Optie 1: Eenvoudige vergelijking “stad met afhaalpunt vs stad zonder afhaalpunt” Voordelen: Maximale eenvoud in implementatie, vereist geen historische gegevens, snelle reactie voor het bedrijf. Nadelen: Steden met afhaalpunten zijn vanuit de start rijker en actiever (selection bias), verschillen in seizoensgebondenheid en concurrentiële omgeving kunnen een bias tot 40% in de effectbeoordeling veroorzaken. Het resultaat is onbetrouwbaar voor opschaling.

Optie 2: Before-After analyse alleen in teststeden Voordelen: Beheert interstadsverschillen, focust op verandering van de trend. Nadelen: Negeert algemene markttrends in e-commerce groei (in het jaar van de pandemie kon de basis trend +30% jaar op jaar zijn), het eindpunt kan samenvallen met lokale feestdagen of acties, waardoor het beeld vervormd wordt.

Optie 3: Synthetic Control op stadsniveau + IV op gebruikersniveau Voordelen: Synthetic Control creëert een contrafactisch scenario “wat zou er gebeurd zijn zonder afhaalpunten”, corrigerend voor macrotrends, en Instrumental Variables (afstand tot het punt als een toevallige schok voor ‘lui’ gebruikers) isoleert het causale effect van simpele correlatie. Nadelen: Vereist minimaal 12 maanden pre-interventie gegevens voor elke stad, de complexiteit van de interpretatie van LATE voor niet-technische stakeholders, en is rekentechnisch kostbaar.

Gekozen oplossing en onderbouwing We kozen een combinatie van Synthetic Control voor interstadsvalidatie en Two-Stage Least Squares (2SLS) met geografisch instrument voor de gebruikersmetric. Dit hielp om het effect van aanwezigheid van infrastructuur (structureel effect) te scheiden van het effect van bewuste keuze (gedragszelfselectie). Het was kritiek te bewijzen dat zelfs ‘luie’ gebruikers die 200 meter van een nieuw punt wonen, vaker beginnen te kopen, zonder hun economische kenmerken te veranderen.

Eindresultaat De evaluatie toonde een echte incrementele toename van de aankoopfrequentie van 12% onder gebruikers die zich in de nabijheid van het afhaalpunt bevonden (ITT), terwijl de kanibalisatie van bezorging 18% bedroeg, wat werd gecompenseerd door een stijging van de gemiddelde besteding met 8% door het ontbreken van verzendkosten. Het effect bleek echter heterogeen: alleen voor de categorieën ‘schoenen’ en ‘accessoires’, terwijl voor ‘huishoudelijke apparaten’ geen significante invloed werd vastgesteld. Dit stelde ons in staat de strategie voor het openen van punten bij te stellen, met focus op mode-malls en het afzien van punten in woonwijken met een dominantie van apparatuur.

Wat kandidaten vaak missen

Hoe het effect van de opening van afhaalpunten te onderscheiden van het effect van een marketingcampagne die deze punten aankondigt, als de campagne gelijktijdig met de opening wordt gestart?

Antwoord: Een veelvoorkomende fout is het negeren van treatment contamination via het marketingkanaal. Het is noodzakelijk om de Difference-in-Difference-in-Differences (DDD) methode te gebruiken of de steekproef op te splitsen in twee controlegroepen: steden met campagne (mediaondersteuning) maar zonder fysieke afhaalpunten (alleen aankondiging ‘coming soon’) en steden met volledige invoering. Als het effect alleen in de tweede groep waarneembaar is, bewijst dit de causale rol van logistiek en niet van communicatie. Het is ook belangrijk om brand search als controlevariabele te volgen — als deze in beide groepen gelijkelijk stijgt, is de omzetgroei in de testgroep veroorzaakt door het gemak van de service en niet door bekendheid.

Waarom kan een eenvoudige vergelijking van gebruikers op basis van afstand tot afhaalpunten (dichterbij 500m vs verder 2km) niet worden gebruikt als proxy voor test en controle, zelfs niet wanneer demografie wordt gecontroleerd?

Antwoord: Dit schendt de positivity assumption en selection on unobservables. Gebruikers die ervoor kiezen in de buurt van winkelcentra (waar meestal afhaalpunten zijn) te wonen, onderscheiden zich systematisch in inkomen, werkgelegenheid en levensstijl van inwoners van de randgebieden. Zelfs met Propensity Score Matching blijft er hidden bias van unobserved confounders (bijvoorbeeld het plannen van het gezinsbudget). De correcte aanpak is het gebruik van Regression Discontinuity Design (RDD), waarbij de grenzen van afleverzones of administratieve grenzen van wijken als een toevallige drempel worden beschouwd, waarbij aan de ene kant van de straat huizen zich op 300 meter (treatment) bevinden en aan de andere kant op 900 meter (controle), maar de sociaal-economische kenmerken identiek zijn.

Hoe de tijdsvertraging tussen de opening van afhaalpunten en de ontwikkeling van koopgedrag (habit formation) correct in rekening te brengen, als de standaard toeschrijvingsvensters (7-30 dagen) de langetermijneffecten onderschatten?

Antwoord: Een klassieke fout is het gebruik van een vaste post-periode. Het is nodig om Event Study Design toe te passen met dynamische vertragingen, waarbij het effect afzonderlijk voor maand 1, 3, 6 na de opening wordt gemodelleerd. Dit maakt het mogelijk om treatment effect heterogeneity over time vast te stellen — vaak neemt het effect toe naarmate de gewoonte zich ontwikkelt (learning curve), waarna het plateauert. Het is ook belangrijk om Cox Proportional Hazards-modellen te gebruiken voor de tijd tot het eerste gebruik van het afhaalpunt, rekening houdend met competing risks (de gebruiker kan churn'en vóór de aanpassing). Bovendien moet survivorship bias worden gecorrigeerd — gebruikers die beginnen met het gebruik van afhaalpunten, kunnen per definitie een laag churn-percentage hebben, en ze moeten worden vergeleken met de controlegroep met vergelijkbare overlevingspatronen, en niet met de gehele database.