Antwoord op de vraag

Historisch gezien zijn maaltijdbezorgdiensten geëvolueerd van het '60 minuten bezorgmodel' naar hyperlokale logistiek met nauwkeurige tijdslots. Deze overgang creëert een methodologische uitdaging: restaurants met aanvankelijk hoge operationele efficiëntie (korte bereidingstijd, nabijheid van gebieden met hoge orderdichtheid) selecteren zichzelf in de eerste golf van implementatie, terwijl problematische locaties later of nooit aansluiten. Een directe vergelijking van conversie vóór en na de implementatie leidt tot een overschatting van het effect, omdat de systematische verschillen tussen early-adopters en laggards worden genegeerd.

Het probleem wordt verergerd door geografische clustering: restaurants in het stadscentrum, waar de vraag hoog en stabiel is, krijgen vaker eerder toegang tot de functie dan perifere locaties met volatiele vraag. Seizoensgebonden fluctuaties (bijvoorbeeld feestdagen of de zomerperiode) vervormen verder de waargenomen trends, waardoor eenvoudig gebruik van schatkistvergelijkingen niet haalbaar is.

Om het werkelijke effect te isoleren, moet een combinatie van Difference-in-Differences (DiD) met vaste restaurant- en tijdseffecten worden toegepast, aangevuld met Propensity Score Matching (PSM) om zelfselectie-bias te elimineren. In de eerste fase wordt een model van de waarschijnlijkheid van aansluiting op het systeem met tijdslots gebouwd op basis van covarianten (historische levertijden, ratings, dichtheid van bezorgers in de omgeving), waarna aan elk behandeld restaurant een controlegroep wordt toegewezen uit de nog niet aangesloten locaties. Vervolgens wordt de dubbele verschuiving in conversiedynamiek tussen deze paren geëvalueerd, wat controleert voor niet-waargenomen constante kenmerken (bijvoorbeeld de kwaliteit van de keuken). Om rekening te houden met ruimtelijke correlatie wordt standaardfouten geclusterd op het niveau van geografische cellen of wordt de Synthetic Control Method gebruikt, die een gewogen combinatie van niet-aangesloten restaurants creëert die het contrafactische scenario voor de behandelde eenheden imiteert.

Situatie uit het leven

In de grootste nationale maaltijdbezorgaggregator werd de implementatie van de functie 'Levering in een gekozen 15-minuteninterval' voor premiumrestaurants gepland. De pilot ging van start in drie steden, waar als eerste 15% van de partners met historisch lage bereidingstijden en hoge ratings zich aanmeldden. Na een maand registreerden analisten een conversie-stijging van 22% bij aangesloten restaurants, maar het bedrijf twijfelde of dit effect het gevolg was van de functie of gewoon de weerspiegeling van de aanvankelijk hoge kwaliteit van deze locaties.

Er werden drie benaderingen voor evaluatie overwogen. De eerste optie - een eenvoudige vergelijking van gemiddelde bestellingen en conversie vóór en na aansluiting - werd onmiddellijk verworpen: het negeerde de trendmatige groei van de markt en seizoensgebonden vraagstijging tijdens de feestdagen, wat resulteerde in een overschatting van +22%, maar hield daarentegen geen rekening met het feit dat deze restaurants zonder de nieuwe functie ook sneller groeiden dan de markt met 8-10%.

De tweede optie - cohortanalyse waarbij gebruikers die een nauwkeurige levertijd zagen werden vergeleken met degenen die de standaard '40-50 minuten' zagen - bleek ook problematisch: gebruikers in gebieden met premiumrestaurants hadden aanvankelijk een hogere gemiddelde bestelling en loyaliteit, wat keuze-bias (selection bias) creëerde. Pogingen om de steekproef op basis van geografie te beperken zouden leiden tot een verlies van 40% van de data en een afname van de testkracht.

De derde optie, die werd gekozen, omvatte het bouwen van een Synthetic Control voor elk aangesloten restaurant op basis van 50 niet-aangesloten 'donors' met een vergelijkbare verkoopgeschiedenis, geografische ligging en seizoensgebondenheid. De DiD-methodologie werd toegepast op deze gewogen synthetische groepen, met extra controle over weersomstandigheden (die de vraag naar bezorging beïnvloedden) en weekdagen. Dit maakte het mogelijk om het zuivere effect van +9,3% op conversie en +14% op de herhaalde bestellingsfrequentie te isoleren, waarbij ook heterogeniteit aan het licht kwam: het effect was alleen significant voor restaurants met een bereidingstijd van minder dan 12 minuten, terwijl voor langzame keukens het nauwkeurige tijdslot geen statistisch significante toename gaf, aangezien de bottleneck niet in de logistiek lag, maar in de productie.

Wat kandidaten vaak over het hoofd zien

Hoe het naleven van de veronderstelling van parallelle trends (parallel trends) in DiD te controleren, wanneer vroege adopters systematisch verschillen van de controlegroep?

Kandidaten beweren vaak DiD toe te passen zonder de cruciale veronderstelling te controleren: vóór de implementatie moeten de trends in de metrics in de treatment- en controle-groepen parallel zijn. In geval van zelfselectie is deze veronderstelling meestal geschonden. Het is noodzakelijk om een event study (dynamische DiD) met indicatoren van leidende periodes (lead indicators) enkele weken vóór de implementatie uit te voeren. Als de coëfficiënten bij deze indicatoren statistisch significant en verschillend van nul zijn, zijn de trends niet parallel en is het nodig om Augmented DiD of het toevoegen van trendinteracties (interactions with time trends) voor de controle van differentiële trends toe te passen. Ook kan een Change-in-Changes-model worden gebruikt, dat minder gevoelig is voor het schenden van de paralleliteit, maar monotoniciteit van de uitkomsten vereist.

Hoe rekening te houden met ruimtelijke spillover-effecten (spillover effects), wanneer de implementatie van nauwkeurige levering in één wijk het gedrag van gebruikers in aangrenzende wijken zonder de functie beïnvloedt?

Analisten negeren vaak dat gebruikers tussen wijken kunnen migreren of hun voorkeuren kunnen veranderen, nadat zij over de functie van vrienden hebben gehoord. Dit creëert een positieve bias in de controlegroep (SUTVA violation). Voor diagnostiek is het nodig om een Spatial DiD te bouwen, waarbij de ruimtelijke vertragingen (spatial lags) van de concentratie van aangesloten restaurants binnen een straal van 1-2 km van elk punt in het model worden opgenomen. Als de coëfficiënt van de ruimtelijke vertraging significant is, zijn er netwerkeffecten. In dat geval geeft klassieke DiD-schatting een verlaagde effectschatting (attenuation bias) en is het nodig om Two-Stage Least Squares (2SLS) te gebruiken met instrumenten op het niveau van administratieve grenzen (bijvoorbeeld de technische gereedheid van een specifiek magazijn voor sortering op tijdslots), die invloed heeft op de aansluiting van het restaurant, maar niet rechtstreeks correleert met de vraag in aangrenzende wijken.

Waarom kan eenvoudig Propensity Score Matching niet worden gebruikt zonder daaropvolgende DiD, en welke fouten ontstaan bij het inschatten van long-term effecten (dynamic treatment effects)?

Beginner-specialisten passen vaak PSM toe als een zelfstandige methode, waardoor ze vergelijkbare groepen op tijd t0 verkrijgen, maar deze vervolgens vergelijken met eenvoudige gemiddelden op tijd t1. Dit negeert de tijdstructuur van de data en mogelijke tijdschokken. De juiste benadering is PSM-DiD, waarbij matching alleen wordt gebruikt voor het kiezen van de controlegroep, en de effectschatting gebeurt via het verschil van verschillen. Bovendien negeren kandidaten het probleem van dynamische effecten: het effect van nauwkeurige levering kan in de loop van de tijd toenemen (gebruikers wennen aan de functie) of juist verdwijnen (nieuwheidseffect). Hiervoor is het noodzakelijk om een staggered DiD met meerdere implementatieperiodes te bouwen en moderne correcties te gebruiken om bias te elimineren die optreedt bij heterogene effecten in de tijd (bijvoorbeeld de Callaway & Sant'Anna-methode of Sun & Abraham voor juiste aggregatie van cohort-effecten), aangezien de standaard tweeperiode DiD in dat geval een vervormde schatting van het gemiddelde effect op de behandelde (ATT) oplevert.