Antwoord op de vraag

Historische context. In klassieke online retail werd het ontbreken van een product in een bestelling (out-of-stock) traditioneel opgelost door het annuleren van de positie of een handmatige oproep van een manager, wat de conversie en de tevredenheid aanzienlijk verminderde. Met de ontwikkeling van ML-aanbevelingssystemen werd het mogelijk om vervangingen in real-time voor te stellen op basis van semantische nabijheid, prijspariteit en vervanggeschiedenis. Echter, een eenvoudige vergelijking van bestellingen met en zonder vervangingen geeft een vertekende beoordeling, omdat het feit dat een vervanging aanwezig is correleert met het oorspronkelijke tekort aan het product, en gebruikers die akkoord gaan met automatische vervangingen systematisch verschillen van degenen die deze verbieden.

Probleemstelling. De belangrijkste moeilijkheid ligt in de endogeniteit van zelfselectie: loyale gebruikers staan vaker automatische vervangingen toe, terwijl toevallige tekorten de steekproef ongelijkmatig beïnvloeden per categorie (bederfelijk vs techniek). Bovendien vindt de implementatie plaats op het niveau van magazijnen, waardoor klassiek A/B-testen op gebruikersniveau uitgesloten is door contaminatie via de gezamenlijke inventaris. Het is noodzakelijk om het pure effect van de kwaliteit van de ML-vervanging te isoleren van de basisnegativiteit van het ontbreken van het product en de heterogeniteit per categorie in overweging te nemen.

Gedetailleerde oplossing. De optimale benadering is een combinatie van Difference-in-Differences (DiD) op het niveau van magazijnen en Causal Forest voor het beoordelen van de heterogeniteit van het effect. Voor magazijnen met de implementatie van ML-vervangen (treatment) wordt een controlegroep geselecteerd via de Synthetic Control Method, met gebruik van magazijnen zonder automatische vervangingen met een vergelijkbare vraagstructuur en seizoen. Voor gebruikers binnen treatment-magazijnen wordt Propensity Score Matching toegepast om diegenen die vervangingen accepteren en afwijzen te koppelen op basis van historische kenmerken (bestelfrequentie, gemiddelde orderwaarde, categorische voorkeuren). Het effect wordt beoordeeld als Conditional Average Treatment Effect (CATE) met uitsplitsing per vervangingscategorie (hoog/midden/laag), wat het mogelijk maakt om het technologische effect van de selectie te scheiden.

Praktijksituatie

Het bedrijf ‘ProductPlus’ implementeerde een slimme vervangingssysteem voor ontbrekende posities in online bestellingen. Het probleem was dat 15% van de bestellingen out-of-stock posities bevatte, wat leidde tot een uitstroom van gebruikers. Analisten moesten meten of ML-vervangen echt het negatieve effect van de tekortkomingen verlaagden of simpelweg problemen in de inkoop maskeerden.

Eerste optie — klassieke A/B-testen op gebruikers met een splitsing in de groep ‘automatische vervanging ingeschakeld’ en ‘uitgeschakeld’. Voordelen: eenvoudige interpretatie en directe vergelijkbaarheid van conversiemetrieken. Nadelen: niet praktisch, aangezien één magazijn beide groepen bedient, en als een product op is, kan het niet “teruggegeven” worden aan de controlegroep, wat leidt tot een logistieke chaos en contaminatie.

Tweede optie — vergelijking ‘voor en na’ in dezelfde magazijnen zonder controlegroep. Voordelen: eenvoud van berekening en geen noodzaak voor synchronisatie met andere magazijnen. Nadelen: seizoensgebonden vraag naar producten en veranderingen in het assortiment vervormen het resultaat, wat het onmogelijk maakt om het effect van de functie van de algemene groei van de basis te scheiden.

Derde optie — quasi-experimenteel ontwerp Difference-in-Differences met gebruik van stadsmicro-magazijnen als randomisatiemiddelen, waar treatment-magazijnen het ML-model ontvingen, en de controlegroepen bleven op handmatige afstemming. Voordelen: elimineert systematische trends en seizoensinvloeden, maakt gebruik van statistisch significante conclusies mogelijk. Nadelen: vereist strikte veronderstelling van parallelle trends en voldoende homogeniteit van magazijnen voor de constructie van synthetische controle.

Gekozen oplossing: het team koos voor de derde optie met aanvullende toepassing van Causal Forest voor de segmentatie van gebruikers op basis van hun neiging om vervangingen te accepteren. Dit stelde hen in staat om het effect voor ‘conservatieven’ en ‘vroege volgelingen’ afzonderlijk te isoleren, corrigerend op de eerdere bestelhistorie via Propensity Score Matching.

Het uiteindelijke resultaat: er kon worden vastgesteld dat ML-vervangen de retentie met 12% verhoogt, alleen voor categorieën met een hoge vervangbaarheid (zuivel, kruidenierswaren), maar de tevredenheid met 8% verlaagt voor niche-producten (ambachtelijk bier, biologisch), waar vervangingen als opdringerig worden ervaren. Het bedrijf beperkte automatische vervangingen tot categorieën met een hoge correlatie van voorkeuren, wat leidde tot een stijging van de NPS met 0,4 punten en een verlaging van de operationele kosten voor handmatige herindeling met 23%.

Wat kandidaten vaak over het hoofd zien

Hoe kan het effect van de technologie zelf van het effect van de kwaliteit van een specifiek ML-model worden onderscheiden en kan overlevingsbias worden vermeden?

Antwoord. Kandidaten verwarren vaak het technologische effect (de mogelijkheid van vervanging als zodanig) met de kwaliteit (de nauwkeurigheid van het selecteren van een alternatief). Voor differentiatie is het noodzakelijk om een dosis-verantwoordingsfunctie (dose-response function) op te bouwen, waar ‘dosis’ de waarschijnlijkheid van relevantie van de vervanging is volgens de modelmetric (NDCG@1). Door gebruik te maken van Fuzzy Regression Discontinuity rondom de drempel van de acceptatiegraad van het model (bijvoorbeeld vervangingen met confidence > 0,8 vs 0,6), kan het pure effect van de kwaliteit van het effect van de functie worden geïsoleerd. Het is belangrijk om rekening te houden met overlevingsbias: gebruikers die slechte vervangingen hebben ontvangen in hun eerste bestelling, kunnen de functie voor altijd uitschakelen, wat de steekproef ten gunste van succesvolle gevallen vertekent. Voor correctie kan het Heckman-selectiemodel worden toegepast, dat het selectie-vergelijking (de waarschijnlijkheid van het blijven in de steekproef na de eerste ervaring) en het resultaat (tevredenheid) samen modelleert.

Hoe kan kruisbesmetting (spillover) tussen categorieën worden overwogen, wanneer een mislukte vervanging in één categorie de perceptie van de hele bestelling en de annulering van andere posities beïnvloedt?

Antwoord. De standaardbenadering evalueert het effect van de categorie geïsoleerd, negerend negatieve spillover op de winkelwagentjes. Voor het rekening houden met inter-categorie effecten is het noodzakelijk om de bestelling als een systeem van onderling afhankelijke goederen te modelleren, gebruikmakend van Graph Causal Models of Structural Equation Modeling (SEM). Concreet: er wordt een grafiek van afhankelijkheden tussen categorieën gebouwd (bijvoorbeeld het vervangen van yoghurt beïnvloedt de perceptie van muesli), en het effect wordt beoordeeld via Total Treatment Effect met controle op de covariaten van aangrenzende posities. Alternatief, wordt Mediation Analysis toegepast, waar de mediator de “teleurstellingsvlag” is (het verwijderen van andere producten uit de winkelwagentjes na het tonen van de vervangingen). Dit maakt het mogelijk om het totale effect te decomponeren in een direct (in de categorie) en indirect (via de verandering van de winkelwagentjes), waarbij overwaardering van de voordelen van vervangingen wordt vermeden.

Hoe de resultaten correct te interpreteren als het ML-model dynamisch leren (learning effects) vertoont en de kwaliteit van de vervangingen in de loop van de tijd verbetert, wat een tijdelijke trend in de treatment-groep creëert?

Antwoord. Startende analisten negeren non-stationarity van het effect, ervan uitgaande dat de ATE constant is over de gehele observatieperiode. Bij dynamisch leren van het model verschilt het effect “vandaag” systematisch van het effect “een maand geleden”, wat de aanname van de Stable Unit Treatment Value Assumption (SUTVA) over tijdsconstantie schendt. De oplossing is het toepassen van Time-Varying Coefficient Models of Bayesian Structural Time Series (BSTS) met modellering van de effecttrend als een latente variabele. Binnen DiD moet de interactie van tijd en treatment worden opgenomen (event study design), waarbij de hypothese van parallelle trends voor elke tijdsnede wordt gecontroleerd. Als het effect toeneemt, is het belangrijk om het learning curve van het model (verbetering van het algoritme) te onderscheiden van de user adaptation (het wennen van gebruikers aan de functie), met gebruik van verschillende gebruikerscohorten en cohorten van modelversies voor de decompositie.