Het probleem van het evalueren van de kwaliteit van zoekresultaten gaat gepaard met het fundamentele paradox van waarnemingen: we zien klikken alleen op die posities die de gebruiker heeft gezien, maar de kans op weergave daalt exponentieel met de rang. Klassieke werken van Joachims et al. over position bias en Richardson over de examination hypothesis hebben de basis gelegd voor het begrip dat een klik niet gelijk is aan relevantie. In de context van productanalyse leidt dit tot de noodzaak om de ware voorkeur van de gebruiker te scheiden van interface-artifacten, vooral wanneer de wijziging van het ranking-algoritme de hele gebruikersbasis gelijktijdig raakt.
Bij een wereldwijde update van de zoekmachine veranderen de waargenomen metrics (CTR, diepte van weergave, conversie) onder invloed van twee confounders: de wijziging van de volgorde van documenten zelf en de wijziging van de waarschijnlijkheid van hun weergave. Zonder de mogelijkheid om gebruikers in een controlegroep en een testgroep te splitsen, is klassiek A/B-testen niet mogelijk, en seizoensgebonden fluctuaties creëren tijdstrends die correleren met het moment van de release. De taak van de analist is het isoleren van het pure ranking effect van deze ruis bij beperkte gegevens.
De optimale aanpak combineert quasi-experimenten met correcties voor biases. In de eerste fase wordt Difference-in-Differences toegepast met een synthetische controle: er wordt een gewogen combinatie van historische periodes of productsegmenten opgebouwd, die de pre-treatment fout in de voorspelling van metrics minimaliseert. Voor de correctie van position bias wordt Inverse Propensity Weighting (IPW) gebruikt, waarbij propensity scores worden geschat op basis van de waarschijnlijkheid van het bekijken van een positie op basis van eerdere gerandomiseerde logs of via het Expectation-Maximization algoritme met de aanname van het Examination-Cascade Model. Daarnaast worden voor niet-lineaire effecten Causal Forests toegepast, die de heterogeniteit van het effect over productcategorieën en segmenten van gebruikers kunnen modelleren.
In een elektronica-marktplaats verving het zoekteam BM25 door een op neurale netwerken gebaseerde BERT-ranker, geoptimaliseerd voor marge. Twee weken na de release steeg de metric GMV per zoeksessie met 18%, maar daalde de diepte van weergave met 25%. Het bedrijf twijfelde of de groei met het algoritme verband hield of met de start van de uitverkoop, die samenviel met de release, en maakte zich ook zorgen over de degradatie van de gebruikerservaring bij lange staarten van zoekopdrachten.
De eerste optie was een eenvoudige vergelijking van de metrics voor en na de release via een t-test. Het voordeel was de snelheid en de afwezigheid van noodzaak voor complexe infrastructuur. Maar de nadelen zijn duidelijk: de onmogelijkheid om het seizoenseffect van de uitverkoop van het algoritme-effect te scheiden, het negeren van position bias (het nieuwe algoritme kon dure producten hoger tonen gewoon omdat ze meer geld opleveren, niet omdat ze relevanter zijn), en het ontbreken van rekening houden met de algemene inflatie van de vraag tijdens acties.
De tweede optie was een Interrupted Time Series (ITS) analyse met seizoensdecompositie via Prophet of SARIMA. Dit zou trends en seizoensgebondenheid hebben meegenomen door een contrafactuele voorspellingswaarde van metrics zonder release op te bouwen. Voordelen omvatten statistische strengheid en de mogelijkheid om autocorrelaties te modelleren. Nadelen waren de gevoeligheid voor het breekpunt (als de release geleidelijk was), de complexiteit van het interpreteren van de coëfficiënten voor het bedrijf, en de aanname van lineariteit van de trends, die vaak wordt geschonden in e-commerce tijdens massale promotiecampagnes.
De derde optie werd de ontwikkeling van de Synthetic Control Method op het niveau van productcategorieën: het creëren van een gewogen mand uit onaangetaste zoekopdrachten of categorieën, waar het algoritme niet was veranderd (bijvoorbeeld vanwege technische beperkingen op bepaalde locaties), als controlegroep voor vergelijking. De voordelen waren visuele duidelijkheid en intuïtiviteit voor belanghebbenden, evenals een kleinere gevoeligheid voor aannames over de vorm van de foutverdeling. Nadelen waren de noodzaak om geschikte controle-eenheden te identificeren met een vergelijkbare dynamiek (wat moeilijk is bij een wereldwijde release) en het risico van overfitting bij het afstemmen van gewichten.
Uiteindelijk werd gekozen voor een hybride methodologie: Diff-in-Diff met synthetische controle op het niveau van productcategorieën, gecombineerd met IPW-correctie voor de weergavepositie. Dit maakte het mogelijk om het effect van de wijziging in ranking van seizoensgebonden fluctuaties te scheiden en de vertekening te corrigeren, die werd geproduceerd door het feit dat dure producten nu vaker op hogere posities werden getoond. De keuze werd bepaald door de noodzaak om tegelijkertijd de tijdsstructuur van de gegevens en de structurele vertekeningen in de blootstelling in overweging te nemen.
Het resultaat was de vaststelling dat 14% van de 18% groei in GMV precies werd verklaard door het algoritme, terwijl de resterende 4% seizoensgebondenheid was. Daarbij werd vastgesteld dat de conversie op head-zoekopdrachten (top 20% op frequentie) met 22% steeg, terwijl deze op tail-zoekopdrachten met 15% daalde, wat werd gecompenseerd door de stijging van de gemiddelde besteding. Dit leidde tot de beslissing om een hybride schema in te voeren: een neurale ranker voor populaire zoekopdrachten en klassieke voor zeldzame, wat de metrics in evenwicht bracht.
Hoe position bias correct in aanmerking te nemen bij afwezigheid van een gerandomiseerd experiment?
Zonder speciale gerandomiseerde weergaven kan propensity worden geëvalueerd via het Expectation-Maximization algoritme, ervan uitgaande dat klik = examination × relevantie. Kandidaten stellen vaak gewoon voor om de positie als functie in de regressie toe te voegen, maar dit negeert de niet-lineaire interactie tussen positie en relevantie. De juiste aanpak is het gebruik van Click Models (Cascade Model of DBN — Dependent Click Model) voor de schatting van de examination probability, en vervolgens de waarnemingen te wegen omgekeerd evenredig aan deze waarschijnlijkheid (IPW). Zonder dit zal de evaluatie van het ranking effect worden vertekeningen in de richting van top-heavy resultaten.
Waarom levert een eenvoudige vergelijking van klikken voor en na de wijziging van het algoritme een vertekende evaluatie op, zelfs met inachtneming van seizoensgebondenheid?
Naast position bias, is er het effect van exploration vs exploitation en user learning. Het nieuwe algoritme kan minder onderzoeken (explore), doordat het meer voorspelbare resultaten biedt, wat de engagement op korte termijn verlaagt. Of, omgekeerd, gebruikers kunnen zich aanpassen aan de nieuwe structuur van de resultaten, waardoor ze hun scrollpatronen (scrolling behavior) wijzigen, wat de stationariteit van de aannames van time-series analyses verstoort. Kandidaten vergeten de noodzaak van het controleren van de parallel trends assumption in Diff-in-Diff op pre-period data en het belang van vertragingen in de aggregatie (het is niet mogelijk om dag tot dag te vergelijken vanwege day-of-week effecten; er is minimaal wekelijkse aggregatie nodig).
Hoe het effect van verbetering van de matching van zoekopdracht-product te onderscheiden van het effect van wijziging van de samenstelling van de top resultaten?
Dit onderscheid is van cruciaal belang voor het begrijpen van de langdurige impact op LTV. Als het nieuwe algoritme gewoon de resultaten verschuift naar duurdere producten (assortment shift), en niet beter het intentie van de gebruiker begrijpt (relevance improvement), kan de groei van conversie op korte termijn zijn door het effect van nieuwheid. Voor de splitsing moet men Causal Forests of Meta-learners (S-Learner, T-Learner) met vaste producteffecten gebruiken, om dezelfde product in verschillende posities voor en na de wijziging te vergelijken. Als het effect alleen te zien is door de wijziging van de samenstelling van de producten in de top (bijvoorbeeld het verdwijnen van budgetopties), vereist dit een andere productreactie dan wanneer de CTR op vaste posities voor dat product is verbeterd.