Personalisatie van content is een integraal onderdeel geworden van moderne e-commerce platforms sinds het midden van de jaren 2010, toen Amazon en Netflix de economische levensvatbaarheid van investeringen in aanbevelingssystemen bewezen. Traditionele methoden voor het beoordelen van effectiviteit vereisen het uitvoeren van gecontroleerde experimenten, maar in de realiteit komen vaak technische beperkingen voor die standaard A/B-testen onmogelijk maken zonder prestatieverlies.
De taak van de analist is om het ware effect van de implementatie van een ML-aanbevelingssysteem op belangrijke productmatrices te isoleren in afwezigheid van een controlegroep. Hierbij moeten drie vertekenende factoren in overweging worden genomen: tijdsvertraging in het trainen van het model voor koude gebruikers (cold start problem), een kortstondige piek in activiteit door interfacewijzigingen (novelty effect), en systematische verschillen tussen cohorten van nieuwe en terugkerende gebruikers, wat resulteert in selection bias.
De optimale aanpak is een combinatie van de verschillen-in-verschillen methode (Difference-in-Differences, DiD) en de synthetische controle methode (Synthetic Control Method). De controlegroep bestaat uit een cohort nieuwe gebruikers die zich na de implementatie van de wijziging hebben geregistreerd, gecorrigeerd voor de verschillen in basiskenmerken via propensity scoring. Om rekening te houden met cold start wordt de analyse gestratificeerd op basis van de tenure van gebruikers met aparte modellering van de learning curve van het algoritme. Het nieuwheidseffect wordt geïsoleerd door de dynamiek van de metrics in de eerste 14 dagen na de release te analyseren in vergelijking met een stationaire periode. Bovendien wordt een triple difference approach toegepast, waarbij geografische gebieden met verschillende invoersnelheden als een natuurlijk experiment worden gebruikt.
In een groot fashion-marktplaats was de vervanging van de statische homepage met handmatig geselecteerde trends door een dynamische feed, gegenereerd door een ML-model op basis van collaboratieve filtering, gepland. Het technische team meldde dat vanwege de Edge Cache-instellingen op Cloudflare het niet mogelijk was om het verkeer op gebruikersniveau te splitsen zonder aanzienlijke prestatieverlies van het systeem en schending van de SLA voor responsetijd. De release moest gelijktijdig plaatsvinden voor alle gebruikers in het piekseizoen (november), wat de beoordeling verder compliceren als gevolg van Black Friday en de feestelijke drukte, die de historische gedragingen vervormden.
De eerste benadering omvatte het gebruik van een eenvoudige before-after analyse met correctie voor de seizoensgebondenheid van voorgaande jaren via indexen. Deze methode had een hoge operationele eenvoud en vereiste geen complexe datainfrastructuur, maar leed ernstig onder de aanname van onveranderlijkheid van de basis-trend tussen perioden. Onder de omstandigheden van een groeiende e-commerce markt leidde dit tot een overschatting van het effect met 40-60% als gevolg van macro-economische factoren en vraaginflatie.
De tweede optie omvatte het bouwen van een synthetische controle op basis van het gebruikersgedrag van de mobiele applicatie, waar personalisatie eerder was geïmplementeerd en stabiel werkte. Deze methode maakte het mogelijk om rekening te houden met de specificiteit van productmetrics en seizoensgebonden fluctuaties door een gewogen combinatie van historische gegevens. Echter, het vereiste een sterke aanname over parallelle trends tussen web en mobiel, die niet werd voldaan vanwege verschillende demografieën en verschillen in gebruiksscenario's (web werd gebruikt voor diepgaand zoeken, de app voor snelle aankopen).
De derde aanpak stelde voor om een quasi-experimentele differente model (DiD) te gebruiken, waarbij de dynamiek van de metrics tussen gebruikers met een rijke geschiedenis en nieuwkomers die cold start ervaren, werden vergeleken. Deze methode maakte het mogelijk om het effect van het aanbevelingssysteem zelf te isoleren van het effect van het modeltraining, door de interactie tussen tijd en type gebruiker als bron van variatie te gebruiken. Een belangrijke beperking was de noodzaak van de aanname van afwezigheid van systematische schokken die beide groepen op verschillende manieren beïnvloeden, wat zorgvuldige controle van de parallel trends in de pre-interventieperiode vereiste.
Er werd gekozen voor een hybride aanpak die DiD combineert met post-stratificatie op cohorten en correctie voor de learning curve van het algoritme. Deze oplossing maakte het mogelijk om zowel individuele heterogeniteiten tussen gebruikerssegmenten als tijdstrends op de marktniveau te controleren. Een sleutelfactor was de mogelijkheid om gebruik te maken van natuurlijke variatie in de snelheid van aanpassing: ervaren gebruikers kregen onmiddellijk relevante aanbevelingen, terwijl nieuwkomers 5-7 sessies nodig hadden om signalen op te bouwen, wat een "natuurlijk controle" creëerde voor de evaluatie van het pure effect van het systeem zonder vertekening door het novelty effect.
De analyse toonde aan dat het ware effect van personalisatie +8.3% naar de conversie naar aankoop en +12% naar de gemiddelde besteding bedraagt, maar pas vanaf de 21ste dag na het eerste bezoek van de gebruiker. In de eerste twee weken was er een paradoxale daling van de conversie met 3% bij nieuwe gebruikers als gevolg van de cold start-model, wat werd gecompenseerd door een piek in activiteit van vaste klanten (+15%). Zonder rekening te houden met de temporele structuur van de gegevens had het bedrijf mogelijk ten onrechte de wijziging teruggedraaid zonder te wachten op stabilisatie van de metrics, wat zou leiden tot een verlies van voorspelde jaarlijkse omzet van 240 miljoen roebel.
Hoe rekening te houden met de leercurve van het model in afwezigheid van een duidelijke splitsing tussen trainings- en testset in productie?
Kandidaten negeren vaak dat ML-modellen in productie zich in een toestand van continue online leren bevinden (online learning), waarbij hyperparameters zich aanpassen aan stroomgegevens in realtime. De juiste aanpak omvat het modelleren van de learning curve door de kwaliteit van aanbevelingen te beoordelen (NDCG, MAP) als een intermediaire mediatorvariabele. Het is noodzakelijk om een tweeledige model op te bouwen, waarbij eerst het effect van tijd op de kwaliteit van de aanbevelingen wordt beoordeeld, en vervolgens het effect van de kwaliteit op de zakelijke metrics, gebruikmakend van instrumentele variabelen om het endogeniteitsprobleem op te lossen. Zonder dit zou de analist het effect van het verbeteren van het algoritme verwarren met het effect van de accumulatie van gegevens over de gebruiker, wat zou leiden tot onjuiste conclusies over de optimale beoordelingshorizon.
Waarom is het kritisch belangrijk om de aanname over parallelle trends (parallel trends) te controleren in quasi-experimenten met personalisatie, niet alleen vóór maar ook na de interventie?
De standaardpraktijk voor het controleren van de parallel trends assumption in DiD is beperkt tot de pre-interventieperiode, echter in systemen met personalisatie bestaat het risico van divergerende trends na implementatie door verschillen in vraagelasticiteit tussen segmenten. Bijvoorbeeld, high-value gebruikers kunnen hun aankopen versnellen onder invloed van personalisatie, terwijl churned gebruikers een lineaire afname van activiteit blijven vertonen. Kandidaten zouden de event study-methode met dynamische effecten (dynamic DiD) moeten gebruiken om afwijkingen in de trends in de post-periode te visualiseren en correcties voor heterogeneous treatment effects toe te passen via modellen met vaste effecten van gebruikers en tijd.
Hoe de Simpson-paradox te vermijden bij het aggregeren van resultaten over segmenten met verschillende basisconversiepercentages en verschillende niveaus van gevoeligheid voor personalisatie?
Een typische fout is het berekenen van een gewogen gemiddelde effect over de gehele populatie zonder rekening te houden met compositionele verschuivingen in de verkeerstructuur. Indien personalisatie wordt geïmplementeerd in een periode van groei in het aandeel nieuwe gebruikers (met een lage basisconversie en hoge relatieve groei door aanbevelingen), kan het geaggregeerde effect negatief zijn, zelfs bij een positief effect in elk segment. Het is noodzakelijk om stratification toe te passen met daaropvolgend gestandaardiseerd middelen (standardized mean treatment effect) of om doubly robust estimation te gebruiken, die de propensity scoring model combineert met het uitkomstmodel, wat zorgt voor robuustheid tegen specificatiefouten.