Antwoord op de vraag

Historisch gezien werd het probleem van laadsnelheid uitsluitend als een technische metriek beschouwd, maar met de invoering van Core Web Vitals in zoekalgoritmes en de groei van mobiel verkeer werd het duidelijk dat prestaties een producteigenschap zijn. Traditionele benaderingen voor het beoordelen van de impact van snelheid worden geconfronteerd met fundamentele endogeniteit: gebruikers met snelle apparaten en een stabiele internetverbinding converteren beter, ongeacht de optimalisatie van de site, wat resulteert in een spurious correlatie.

Het probleem wordt verergerd bij het gebruik van Edge Computing en moderne CDN-architecturen, waar het niet mogelijk is om consistente segmentatie van het verkeer in groepen te garanderen vanwege agressieve caching op randservers. Bovendien is er een zelfselectie-effect: gebruikers met een langzame verbinding verlaten de site vaker voor de laadtijd, wat de verdeling in de steekproef vervormt en een zuivere A/B-vergelijken onmogelijk maakt.

De optimale oplossing combineert Regression Discontinuity Design (RDD) op de grens van de 'goede' prestatie (bijvoorbeeld, LCP = 2,5 seconden) met instrumentele variabelen (IV) als instrument. De instrumentele variabele is de geografische nabijheid van de gebruiker tot de dichtstbijzijnde edge-server of het type verbinding (3G vs. 4G), wat toevallig de snelheid beïnvloedt, maar niet direct correleert met de intentie om een aankoop te doen. Voor de cohortanalyse wordt de synthetic control method toegepast, waarbij de controlegroep wordt geconstrueerd uit historische gegevens van gebruikers met een vergelijkbare apparaatsamenstelling en geografische locaties, zodat het pure effect van optimalisatie van seizoensinvloeden en macrotrends kan worden geïsoleerd.

Levenssituatie

In een groot e-commerceproject heeft het frontendteam een revolutie doorgemaakt: ze hebben afbeeldingen omgezet naar moderne formaten (WebP, AVIF) met lazy-loading en geoptimaliseerd voor de kritieke renderpad, waardoor de LCP is verlaagd van 4,2 seconden naar 1,8 seconden voor gebruikers met een goede verbinding. Het productteam heeft een conversiestijging van 12% geregistreerd in de snede ‘na de release’, maar er waren twijfels over de causaal-effectrelatie, omdat er gelijktijdig een seizoensgebonden reclamecampagne was gelanceerd en de productcatalogus was vernieuwd.

Variant 1: Eenvoudige vergelijking van cohorten voor en na

Analisten stelden voor om de conversie van gebruikers in de week voor de optimalisatie te vergelijken met de week erna, gesegmenteerd op regio. Voordelen: eenvoud van uitvoering en geen noodzaak voor complexe infrastructuur. Nadelen: volledige negeren van seizoensinvloeden (de aanloopweek), verschillen in samenstelling van het publiek (nieuwe gebruikers kwamen vanaf de reclame met een andere intentie) en overlevingsbias (survivorship bias) — langzame gebruikers “verdwenen” uit de na-steekproef, wat de illusie van groei creëert.

Variant 2: Correlatieanalyse van snelheid vs. conversie

De tweede benadering betrof het opbouwen van een regressie, waarbij de onafhankelijke variabele de werkelijke LCP van de gebruiker was en de afhankelijke de conversie. Voordelen: benutting van alle beschikbare gegevens en granulariteit tot sessie-niveau. Nadelen: fatale endogeniteit: gebruikers met dure vlaggenschipapparaten en snel internet zijn van nature rijker en gemotiveerder om aankopen te doen, terwijl gebruikers met goedkope apparaten op 3G een lage intentie tot kopen hebben, ongeacht de snelheid van de site, wat leidt tot een opwaartse bias van 40-60%.

Variant 3: Regression Discontinuity Design met geografisch instrument

Het team koos voor een hybride methode: ze gebruikten de afstand tot de dichtstbijzijnde edge-server als instrumentele variabele, die correleert met snelheid, maar niet met koopgedrag. Gebruikers aan de grens van het dekkingsgebied (waar het signaal “afbreekt” en de snelheid plotseling daalt tot 2,6-2,8 seconden LCP) vormden een lokaal willekeurige steekproef rond de drempel van 2,5 seconden. Door Local Average Treatment Effect (LATE) toe te passen in een venster van ±0,3 seconden van de drempel, maten ze het pure effect van snelheid verbetering voor complainers (gebruikers wiens snelheid specifieke veranderingen ondergingen vanwege infrastructuur, niet vanwege het apparaat).

Gekozen oplossing en resultaat

De RDD+IV-aanpak werd geïmplementeerd met extra filtering van retourgebruikers via analyse van localStorage voor gecachte bronnen. De uiteindelijke beoordeling toonde aan dat het werkelijke incrementele effect van de optimalisatie +8,5% op de conversie voor nieuwe gebruikers en +3,2% voor terugkerende gebruikers (waar het effect van nieuwheid kleiner is) bedroeg, wat het investeringsbeleid in de Edge Computing-infrastructuur rechtvaardigde met een ROI van 340% per jaar.

Wat kandidaten vaak over het hoofd zien

Waarom leidt standaard OLS-regressie van prestaties vs. conversie tot vertekende schattingen, en welke endogeniteitsmechanisme domineert hier?

Het antwoord ligt in dubbele zelfselectie (double selection bias): ten eerste, gebruikers met langzame apparaten komen systematisch minder vaak in de steekproef van ‘succesvolle sessies’ (ze vallen af voor de laadtijd), wat truncation bias creëert; ten tweede correleert internetsnelheid met sociaaleconomische status en geografie, die rechtstreeks van invloed zijn op koopkracht. Zonder instrumentele variabelen of RDD mengt de regressie het effect van “snelle internetverbinding als indicator van rijkdom” met het effect van “snelle website als trigger voor conversie”, wat de werkelijke causale effect overschat met 1,5-2 keer.

Hoe beïnvloeden caching aan de clientzijde (client-side caching) en terugkerende bezoeken de beoordeling van het effect van optimalisatie in longitudinale analyse, en welke methode kan ‘behandeling contaminatie’ filteren?

Retourbezoekers, die de site voor de optimalisatie bezochten, hebben in de HTTP-cache of Service Worker oude zware bronnen, zodat voor hen de “behandeling” (de nieuwe snelle versie) gedeeltelijk of volledig niet van toepassing is, wat contaminatie tussen behandeling en controle creëert. Kandidaten vergeten vaak de If-None-Match-headers of de analyse van first-party cookie met de timestamp van het eerste bezoek te controleren. De juiste aanpak is een analyse van intent-to-treat (ITT) met een scheiding tussen “schone nieuwe sessies” (nieuwe gebruikers + gewiste cache) vs “vervuilde terugkerende sessies”, of het gebruik van difference-in-differences (DiD) met vaste gebruikerseffecten, wat binnen-gebruikersverandering van tussen-gebruikersselectie isoleert.

Wat is het verschil tussen ITT-analyse (Intent-to-Treat) en TOT-analyse (Treatment-on-the-Treated) bij het beoordelen van het effect van Core Web Vitals, en waarom is het cruciaal voor productmetrics om specifiek te rapporteren op ITT bij het plannen van opschaling?

ITT meet het effect voor de gehele populatie, inclusief degenen die geen verbetering in snelheid hebben ervaren (bijvoorbeeld, gebruikers op 2G of met uitgeschakelde JavaScript), terwijl TOT (of LATE in IV-context) het effect alleen meet voor “complainers” — degenen die daadwerkelijk baat hadden bij de optimalisatie. Kandidaten rapporteren vaak ten onrechte een TOT-schatting aan het bedrijf (+15% conversie voor degenen die een snelle laden zouden hebben gehad), maar bij het opschalen van de optimalisatie naar 100% van het verkeer zal het werkelijke effect dichter bij ITT (+6-8%) liggen, aangezien een deel van het publiek technisch gezien niet kan profiteren van de verbetering (verouderde apparaten, trage netwerken). Voor bedrijfsplanning en omzetprognose is het van cruciaal belang om een conservatieve ITT-schatting te gebruiken om de fout van overcommitment te vermijden.