Antwoord op de vraag.

Historisch gezien heeft de ontwikkeling van e-commerce de weg afgelegd van geïsoleerde productpagina's naar complexe besluitvormingsondersteunende tools. In de jaren 2010 werd de introductie van functies voor het vergelijken van specificaties een reactie op de groei van het assortiment en de cognitieve overbelasting van gebruikers; echter, klassieke correlatiemetrieken tussen het gebruik van vergelijking en hoge bestedingen zijn altijd tegen de endogeniteit aangelopen: de functie wordt gebruikt door al gemotiveerde kopers met een hoge koopintentie.

Het probleem van meting bestaat uit een drievoudige complexiteit: zelfselectie op basis van betrokkenheid (selection bias), gefaseerde rollout per categorie, die de synchroniteit verstoort (staggered adoption), en netwerkeffecten binnen de categorie, waarbij vergelijking de vraag van de ene SKU naar de andere verlegt. Zonder controle van deze factoren zal de analist een vertekende schatting krijgen die het effect voor actieve gebruikers overschat en externe effecten voor niet-gebruikers negeert.

Een gedetailleerde oplossing vereist een combinatie van Instrumental Variables (IV) en Difference-in-Differences (DiD). Als instrument wordt een quasi-toevallige zichtbaarheid van de vergelijkingsknop gebruikt, bijvoorbeeld via A/B-tests op de plaatsing van de UI-elementen of exogene factoren zoals schermresolutie die invloed hebben op de weergave. Dit maakt het mogelijk om variatie te isoleren die niet afhankelijk is van de intenties van de gebruiker. Voor de controle van tijdtrends wordt DiD met verschillende aanvangsdata (staggered DiD) toegepast, waarbij categorieën, waar de functie al is gelanceerd, worden vergeleken met nog niet aangetaste, met correctie voor cohort fixed effects. De sleutelmeetwaarde wordt Local Average Treatment Effect (LATE) — het effect voor 'overeenkomende' (compliers), degenen die pas met de vergelijking zijn begonnen dankzij de zichtbaarheid van de knop, wat een conservatieve maar oorzakelijk schone schatting geeft.

Levensituatie

Context: een groot elektronica-marktplaats heeft de functie 'Vergelijken op specificaties' gelanceerd voor smartphones en laptops. Na een maand toonde de analyse aan dat gebruikers die de vergelijking openden, een gemiddelde besteding hadden die 40% hoger was, maar tegelijkertijd 4 keer zoveel pagina's bekeken voordat ze kochten.

Oplossing 1: Directe groepsvergelijking (t-test). De analist vergelijkt gewoon de gemiddelde metrics van gebruikers met de vlag 'gebruikte vergelijking' versus 'gebruikte niet' in SQL. Voordelen: vereist één query, resultaat binnen enkele minuten. Nadelen: volledige negering van zelfselectie; hoge betrokkenheid gaat vooraf aan het gebruik van de functie, en volgt er niet uit; de schatting is naar boven vertekend.

Oplossing 2: Voor/Nadat-tijdanalyse. Vergelijking van metrics van het hele platform vóór en na de lancering van de functie. Voordelen: eenvoudige interpretatie, algemene trend is zichtbaar. Nadelen: seizoensgebondenheid (de lancering viel samen met de presentatie van nieuwe iPhones), marketingcampagnes en de algemene groei van het bedrijf maskeren volledig het ware effect; het is onmogelijk om de invloed van de functie van externe schokken te scheiden.

Oplossing 3: Regression Discontinuity (RD). Gebruik van een drempelregel: de vergelijkingsknop verschijnt pas na het bekijken van 3 producten in dezelfde categorie. Voordelen: een scherpe discontinuïteit (cutoff) creëert een quasi-experimentele variatie rond de drempel. Nadelen: gebruikers manipuleren hun gedrag door lege tabbladen te openen om de drempel te bereiken; 'vervaging' van de grens (fuzziness) verstoort de aannames van RD.

Oplossing 4: Instrumental Variables met UI-test. Een onafhankelijke A/B-test wordt uitgevoerd op de zichtbaarheid van de knop (helderheid, grootte), die de functionaliteit niet verandert, maar de klikkans beïnvloedt. Deze test fungeert als instrument voor de Two-Stage Least Squares (2SLS) regressie. Voordelen: randomisatie zorgt voor de exogeniteit van het instrument; het effect wordt specifiek gemeten voor degenen die 'gedwongen' zijn de zichtbaarheid van de knop te vergelijken. Nadelen: vereist een grote steekproef voor de kracht van het instrument (first-stage F-statistic > 10); moeilijkheid om LATE voor het bedrijf te interpreteren.

Gekozen oplossing en onderbouwing: combinatie van Oplossing 4 (hoofd) en Oplossing 2 (robustheid check). IV-schatting geeft een oorzakelijk effect voor marginale gebruikers, en DiD bevestigt de afwezigheid van wereldwijde vertekeningen per categorie. Deze aanpak maakt het mogelijk om het effect van de functie te scheiden van de aangeboren activiteit van gebruikers.

Eindresultaat: Het ware incrementele effect op AOV was +8% (in plaats van de waargenomen +40%), en de tijd voor de beslissing veranderde statistisch significant niet. De functie bleef behouden, maar het aanbevelingsalgoritme werd aangepast om de vergelijkingsknop niet te tonen aan gebruikers met lage historische betrokkenheid, waar het effect dicht bij nul ligt, wat de druk op de servers verlaagde zonder verlies van omzet.

Wat kandidaten vaak missen

Hoe de correlatie van fouten binnen een sessie correct te verwerken bij de analyse van de keuze uit meerdere alternatieven?

Wanneer een gebruiker producten vergelijkt, zijn zijn beslissingen over elke SKU gecorreleerd binnen één sessie, wat de aanname van onafhankelijkheid van observaties (i.i.d.) verstoort. Standaardfouten van de schattingen zullen te laag blijken te zijn, wat zal leiden tot vals-positieve conclusies over de betekenis van het effect. Voor correctie is het nodig om geclusterd standaardfouten op het niveau van de gebruiker of sessie te gebruiken, of hiërarchisch lineaire modellering (HLM) toe te passen. Dit is vooral kritiek bij het werken met paneldata, waarbij één gebruiker veel vergelijkingen genereert, en het negeren van de clustering de t-statistiek met 2-3 keer kan overdrijven.

Hoe een negatief extern effect (negative spillover) op producten te meten die niet in de vergelijkingslijst zijn opgenomen?

De vergelijkingsfunctie kan de verkopen van producten kanibaliseren die niet op de vergelijkingslijst zijn geplaatst, maar wel nauwe vervangingen zijn. Kandidaten kijken vaak alleen naar het SKU-niveau binnen de winkelwagentjes en negeren de algemene evenwichting binnen de categorie. Om dergelijke effecten te beoordelen, moeten geaggregeerde metrics op het niveau van de categorie (category-level DiD) worden geanalyseerd en moeten de voorraadniveaus (inventory levels) worden gecontroleerd. Als de vergelijking de vraag naar specifieke modellen afleidt, wat leidt tot schaarste, kan de waargenomen verkoopstijging van concurrenten in de vergelijkingsset een artefact zijn van stock-out, en niet een voorkeur van de gebruiker.

Hoe het effect van de implementatie van de functie te scheiden van het leereffect van de gebruikers (learning-by-doing) en het nieuwigheidseffect (novelty effect)?

Gebruikers die de nieuwe functie ontdekken, verzamelen tegelijkertijd ervaring met het platform, wat afzonderlijk invloed heeft op de conversie. Beginnende analisten interpreteren vaak de groei van metrics bij vroege adopters als een zuiver effect van het product. Om deze effecten te scheiden, is het noodzakelijk om user tenure fixed effects op te nemen of de steekproef te beperken tot gebruikers met een gelijk aantal historische sessies. Alternatief kan cohort-analyse worden gebruikt, waarbij nieuwe gebruikers, voor wie de functie vanaf de eerste dag beschikbaar is, worden vergeleken met cohorts 'voor de lancering', met aanpassing voor de kalender tijd, wat het mogelijk maakt om de invloed van ervaring van de invloed van de vergelijkingsfunctie te isoleren.