Antwoord op de vraag

Historische Context

De evolutie van e-commerce van impulsieve aankopen naar geplande consumptie begon met de introductie van Amazon Subscribe & Save in 2008, toen retailers zich realiseerden dat het behouden van klanten door het verminderen van cognitieve belasting bij herhaalaankopen effectiever was dan agressieve kortingen. Tegen 2015 verschenen slimme lijsten met Machine Learning-voorspelling voor aanvulling, die de intervallen tussen aankopen van melk of luiers analyseerden. Vroegere evaluaties van effectiviteit stuitten echter op een fundamenteel probleem: gebruikers die lijsten maken, toonden van meet af aan een grotere discipline in planning en loyaliteit, waardoor directe vergelijkingen met een 'koude' doelgroep ongepast waren vanuit het oogpunt van causaal verband.

Probleemstelling

De belangrijkste complexiteit ligt in de endogeniteit van zelfselectie: het maken van een lijst is geen willekeurige interventie, maar een gevolg van de bewuste intentie van de gebruiker om hun uitgaven te optimaliseren. Dit leidt tot een selectieve bias waarbij de 'behandeling' (aanwezigheid van een lijst) correleert met onopgemerkte kenmerken (organisatie, gezinsgrootte, regelmaat van consumptie). Daarnaast komt de tijdelijke dynamiek in het spel: het effect van lijsten voor bederfelijke goederen (wekelijkse aanvulling) verschilt van het effect voor seizoensgebonden goederen (kerstversieringen), en ML-aanbevelingen kunnen kanibalisatie van spontane toevoegingen aan de winkelwagentjes veroorzaken, wat de totale analyse van de omzet vertekent.

Gedetailleerde Oplossing

De optimale aanpak is een combinatie van Difference-in-Differences (DiD) met Propensity Score Matching (PSM) en Fixed Effects om seizoensgebondenheid te beheersen. In de eerste fase gebruiken we Causal Forest om de heterogeniteit van het effect over productcategorieën te beoordelen, waarmee we segmenten identificeren waar lijsten daadwerkelijk de frequentie verhogen en niet alleen bestaand gedrag bevestigen. Om het causaal verband te isoleren, passen we Regression Discontinuity Design (RDD) toe op de drempel van het aantal eerdere bestellingen, waarbij de functie 'Opgeslagen lijsten' beschikbaar wordt (bijvoorbeeld na de derde bestelling), waardoor quasi-experimentele voorwaarden voor lokale randomisatie ontstaan. Alternatief, bij geleidelijke implementatie per regio, gebruiken we de Synthetic Control Method, waarbij we een gewogen combinatie van controle-regio's construeren die de dynamiek van de testregio vóór de implementatie nabootst. Om kanibalisatie rekening te houden, analyseren we niet alleen de statistieken van gebruikers met lijsten, maar ook de Diversion Ratio — het percentage bestellingen die van spontane sessies naar geplande via lijsten stromen.

Reëel Voorbeeld

Context: De hypermarkt 'EtenAltijd' lanceerde de functie 'Slimme Koelkast' — automatische aanvullinglijsten op basis van AI-analyse van aankoopgeschiedenis en houdbaarheid. Het doel was om de frequentie van bestellingen met 20% te verhogen door de wrijving bij herhaalaankopen van huishoudelijke artikelen en voedsel te verminderen.

Oplossingsalternatief 1: Directe vergelijking van gebruikers met en zonder lijsten (Before-After)

Het analytische team stelde voor om de gemiddelde besteding en bestelfrequentie van 10.000 gebruikers die in de eerste week lijsten hebben gemaakt te vergelijken met een controlegroep van willekeurige gebruikers zonder lijsten. De voordelen van deze benadering zijn maximale eenvoud van implementatie en snelheid van resultaten. Nadelen zijn de catastrofale selectieve bias: lijstmakers bleken gezinnen met kinderen te zijn die wekelijks bestellingen plaatsten, terwijl de controlegroep willekeurige bezoekers met eenmalige bestellingen omvatte. De waargenomen groei van 35% bleek een artefact van zelfselectie en geen effect van de functie.

Oplossingsalternatief 2: Dwingende A/B-test met zichtbaarheid van de knop

Het productteam stelde voor om 50% van de gebruikers de knop 'Maak lijst' felgroen te tonen, terwijl de andere 50% deze grijs en verborgen in het menu kregen, waardoor er een verschil in opname ontstond. Voordelen — de mogelijkheid om het zuivere effect van de beschikbaarheid van de functie te beoordelen. Nadelen — ethische en UX-risico's: het verbergen van een nuttige functie voor loyale gebruikers verminderde hun interactie-ervaring, en de lage conversie naar het maken van een lijst (2% vs 15% in de test) leidde tot onvoldoende statistische testkracht en het onvermogen om het langetermijneffect van gewoontes te beoordelen.

Oplossingsalternatief 3: Regression Discontinuity Design aan de hand van activiteitseisen (Gekozen Oplossing)

Analisten kozen voor de methode van discontinuïteitsregressie, waarbij de drempel werd ingesteld op 3 bestellingen binnen 60 dagen: gebruikers die deze drempel bereikten, kregen automatisch toegang tot de 'Slimme Koelkast' met ML-aanbevelingen, terwijl gebruikers met 2 bestellingen dat niet kregen. Dit creëerde quasi-experimentele voorwaarden voor lokale randomisatie nabij de drempel. Voordelen — minimalisatie van de zelfselectiebias in een smalle strook rond de cut-off (gebruikers met 2 en 3 bestellingen zijn statistisch niet te onderscheiden op basis van waargenomen kenmerken). Nadelen — beperkte generaliseerbaarheid van de resultaten alleen op 'grensgebruikers', en niet op de hele basis; de noodzaak om de continuïteit van de covariantenverdeling rond de drempel te controleren.

Eindresultaat: De analyse toonde een werkelijke toename van de bestelfrequentie met 12% (in plaats van de schijnbare 35%) en een groei van de gemiddelde besteding met 8% alleen voor de categorie 'Huishoudelijke chemicaliën en papieren producten'. Voor bederfelijke goederen was het effect statistisch niet significant vanwege fysieke beperkingen van de houdbaarheid. Er werd vastgesteld dat 30% van de omzetstijging uit kanibalisatie van spontane aankopen kwam die overgingen naar geplande aankopen. Op basis van de gegevens corrigeerde het bedrijf het ML-model door impulsieve categorieën (zoetigheden, snacks) uit de aanbevelingen te verwijderen, wat de totale omzetstijging behield, maar de tevredenheid van gebruikers verhoogde, aangezien de 'Slimme Koelkast' niet langer 'ongezonde gewoontes' suggereerde.

Wat kandidaten vaak over het hoofd zien

Waarom kan je niet gewoon de statistieken van gebruikers met en zonder lijsten vergelijken via een gewone t-test of lineaire regressie?

Het antwoord ligt in het fundamentele probleem van endogeniteit en zelfselectiebias. Gebruikers die tijd besteden aan het maken van gestructureerde lijsten verschillen systematisch van willekeurige bezoekers op onopgemerkte kenmerken: zij hebben een hoger gepland verbruik, een groter gezin en meer voorspelbaarheid in hun levensschema. OLS-regressie, zelfs met controle voor demografie, kan de 'planningscultuur' als latente variabele niet vastleggen. Dit leidt tot een overschatting van het effect van de functie, aangezien hoge statistieken niet door de lijsten zelf worden verklaard, maar door de aanvankelijke hoge betrokkenheid van de gebruikers. Voor een correcte evaluatie is het noodzakelijk om instrumentele variabelen (IV), quasi-experimentele ontwerpen (RDD, DiD) of methoden voor dubbele verschillen met matching (PSM-DiD) te gebruiken, die de variatie isoleren die niet afhankelijk is van individuele voorkeuren.

Hoe kan je het effect van een 'planenschappelijk' type gebruiker scheiden van het werkelijke effect van de functie van de lijsten bij de analyse van intensieve en extensieve effecten?

Het is noodzakelijk om de intensive margin (verhoging van de frequentie onder diegenen die al van plan waren aankopen) en de extensive margin (aantrekken van impulsieve kopers naar planning) te scheiden. Hiervoor worden Causal Forest of Heterogeneous Treatment Effects analyses toegepast, waarmee het effect over subgroepen kan worden geëvalueerd. De sleutelinzichten zijn het gebruik van ordinale logistische regressie met dummyvariabelen voor het aantal gemaakte lijsten. Als de functie werkt, zullen we een aanzienlijke toename van de statistieken zien bij de overgang van 0 naar 1 lijst (extensieve margin), maar niet significante veranderingen bij de overgang van 5 naar 6 lijsten (intensieve margin, waar zelfselectie overheerst). Het is ook belangrijk om time-to-event (tijd tot de volgende bestelling) te analyseren via het Cox Proportional Hazards Model, waarbij we rekening houden met het basisrisico van afname, wat ons in staat stelt om 'natuurlijke' regelmaat van 'artificiële' systeemaanbevelingen te scheiden.

Hoe kan je correct kanibalisatie tussen geplande aankopen via lijsten en spontane toevoegingen in de winkelwagentjes in rekening brengen, wanneer lijsten gewoon de opbrengst van het ene kanaal naar het andere kunnen trekken zonder de totale GMV te verhogen?

Kandidaten negeren vaak de noodzaak om de diversion ratio en de samenstelling van het winkelwagentje te analyseren. Het is noodzakelijk om een triple-difference model (DiD met een extra meting) op te stellen, waarbij veranderingen in de samenstelling van het winkelwagentje van gebruikers met lijsten voor en na de implementatie vergeleken worden met een controlegroep. Het is belangrijk om de statistiek 'share of wallet' — het percentage categorieën die traditioneel spontaan worden gekocht (zoals zoetigheden, snacks) — in de totale besteding bij te houden. Als het aandeel impulsieve categorieën daalt bij gebruikers met lijsten, maar stijgt in de controle, is dit een teken van kanibalisatie. Voor een kwantitatieve evaluatie wordt het Almost Ideal Demand System (AIDS) of het Rotterdam Model gebruikt, die de vervangingselasticiteit tussen aankoopkanalen evalueren. Zonder deze analyse kan het bedrijf ten onrechte investeren in de ontwikkeling van de functie van lijsten, met een nul incrementieel effect op bedrijfsniveau, ondanks een groei van de statistieken in het segment van 'lijst' gebruikers.