Historisch wurde das Problem der Ladegeschwindigkeit ausschließlich als technische Kennzahl betrachtet, aber mit der Einführung der Core Web Vitals in die Suchalgorithmen und dem Anstieg des mobilen Traffics wurde offensichtlich, dass Leistung ein Produktmerkmal ist. Klassische Ansätze zur Bewertung des Einflusses der Geschwindigkeit stoßen auf fundamentale Endogenität: Benutzer mit schnellen Geräten und stabilem Internet konvertieren besser, unabhängig von der Optimierung der Website, was eine spurious Korrelation erzeugt.
Das Problem wird verschärft, wenn Edge Computing und moderne CDN-Architekturen verwendet werden, bei denen eine konsistente Aufteilung des Traffics in Gruppen aufgrund aggressiver Caching-Mechanismen auf Edge-Servern nicht gewährleistet werden kann. Darüber hinaus gibt es den Effekt der Selbstselektion: Benutzer mit langsamen Verbindungen verlassen die Website oft vor dem Laden, was die Verteilung der Stichprobe verzerrt und ein reines A/B-Vergleich unmöglich macht.
Die optimale Lösung kombiniert Regression Discontinuity Design (RDD) an der Grenze des „guten“ Leistungsniveaus (z. B. LCP = 2,5 Sekunden) mit instrumentalen Variablen (IV) als Instrument. Als instrumentale Variable wird die geografische Nähe des Benutzers zum nächstgelegenen Edge-Server oder der Verbindungstyp (3G vs. 4G) verwendet, der zufällig die Geschwindigkeit beeinflusst, aber nicht direkt mit der Kaufabsicht korreliert. Für die Kohortenanalyse wird die synthetic control method angewendet, bei der die Kontrollgruppe aus historischen Daten von Benutzern mit ähnlicher Geräte- und Geolokationsstruktur konstruiert wird, was es ermöglicht, den reinen Effekt der Optimierung von Saisonalität und Makrotrends zu isolieren.
In einem großen E-Commerce-Projekt hat das Frontend-Team eine Revolution durchgeführt: Sie haben Bilder in moderne Formate (WebP, AVIF) umgestellt, lazy-loading implementiert und den kritischen Rendering-Pfad optimiert, wodurch LCP von 4,2 Sekunden auf 1,8 Sekunden bei Benutzern mit guter Verbindung gesenkt wurde. Das Produktteam hat einen Anstieg der Konversion um 12 % im „Post-Release“-Schnitt festgestellt, aber es gab Zweifel an der kausalen Beziehung, da gleichzeitig eine saisonale Werbekampagne gestartet und der Produktkatalog aktualisiert wurde.
Option 1: Naiver Vergleich von Kohorten vor und nach
Analysten schlugen vor, die Konversion der Benutzer in der Woche vor der Optimierung und in der Woche danach zu vergleichen, unter Stratifizierung nach Regionen. Vorteile: Einfachheit der Umsetzung und keine Notwendigkeit für komplexe Infrastruktur. Nachteile: Vollständige Ignorierung der Saisonalität (vor den Feiertagen), Unterschiede in der Publikumszusammensetzung (neue Benutzer kamen aus Werbung mit anderem Intent) und Überlebensbias (survivorship bias) – langsame Benutzer „fehlten“ nach der Auswahl, wodurch eine Illusion des Wachstums entstand.
Option 2: Korrelationsanalyse von Geschwindigkeit vs. Konversion
Der zweite Ansatz sah den Aufbau einer Regression vor, bei der die unabhängige Variable das tatsächliche LCP des Benutzers war und die abhängige der Konversionsfakt. Vorteile: Nutzung aller verfügbaren Daten und Granularität bis zur Sitzung. Nachteile: Fatale Endogenität: Benutzer mit teuren Flaggschiffen und schnellem Internet sind von Natur aus wohlhabender und motivierter zu kaufen, während Benutzer mit günstigen Geräten bei 3G unabhängig von der Geschwindigkeit der Website eine niedrige Kaufabsicht aufweisen, was zu einer Aufwärtsverzerrung des Koeffizienten von 40-60 % führt.
Option 3: Regression Discontinuity Design mit geografischem Instrument
Das Team wählte einen hybriden Ansatz: Es verwendete den Abstand zum nächstgelegenen Edge-Server als instrumentale Variable, die mit der Geschwindigkeit korreliert, jedoch nicht mit dem Kaufverhalten. Benutzer an der Grenze des Abdeckungsbereichs (wo das Signal „bricht“ und die Geschwindigkeit auf 2,6-2,8 Sekunden LCP stark abfällt) bildeten eine lokal zufällige Stichprobe um den Schwellenwert von 2,5 Sekunden. Mit Local Average Treatment Effect (LATE) innerhalb eines Fensters von ±0,3 Sekunden vom Schwellenwert gemessen, wurde der reine Geschwindigkeitseffekt für die Compliers (Benutzer, deren Geschwindigkeit tatsächlich aufgrund der Infrastruktur und nicht des Geräts geändert hat) ermittelt.
Ausgewählte Lösung und Ergebnis
Es wurde ein RDD+IV-Ansatz mit zusätzlicher Filterung von Rückgabe-Benutzern durch Analyse des localStorage hinsichtlich zwischengespeicherter Ressourcen implementiert. Die endgültige Bewertung zeigte, dass der wahre inkrementelle Effekt der Optimierung +8,5 % auf die Konversion für neue Benutzer und +3,2 % für zurückkehrende Benutzer (wo der Neuheitseffekt geringer ist) betrug, was die Investitionen in die Edge Computing-Infrastruktur mit einer ROI von 340 % über ein Jahr rechtfertigte.
Warum liefert die standardmäßige OLS-Regression von Leistung vs. Konversion verzerrte Schätzungen und welcher Mechanismus der Endogenität dominiert hier?
Die Antwort liegt im doppelten Selbstauswahl-Bias (double selection bias): Erstens gelangen Benutzer mit langsamen Geräten systematisch seltener in die Stichprobe „erfolgreicher Sitzungen“ (sie brechen vor dem Laden ab), was eine truncation bias schafft; zweitens korreliert die Internetgeschwindigkeit mit dem sozioökonomischen Status und der Geografie, die direkt die Zahlungsfähigkeit beeinflussen. Ohne instrumentale Variablen oder RDD vermischt die Regression den Effekt „schneller Internet als Marker für Reichtum“ mit dem Effekt „schnelle Website als Auslöser für Konversion“, was den tatsächlichen kausalen Effekt um das 1,5- bis 2-fache überbewertet.
Wie verzerrt Client-Side Caching und wiederholte Besuche die Bewertung des Optimierungseffekts in der longitudinalen Analyse und welche Methode ermöglicht es, die „Behandlungskontamination“ herauszufiltern?
Rückkehrbesucher, die die Website vor der Optimierung besucht haben, haben in ihrem HTTP-Cache oder Service Worker alte, schwere Ressourcen gespeichert, daher wird die „Behandlung“ (die neue schnelle Version) teilweise oder vollständig für sie nicht angewendet, was eine Kontamination zwischen Behandlung und Kontrolle schafft. Kandidaten vergessen häufig, die If-None-Match-Header zu überprüfen oder die first-party cookie mit dem Zeitstempel des ersten Besuchs zu analysieren. Der korrekte Ansatz besteht darin, eine intent-to-treat (ITT)-Analyse mit einer Aufteilung in „reine neue Sitzungen“ (neue Benutzer + geleerter Cache) vs. „kontaminierte Rückkehrenden“ durchzuführen oder die difference-in-differences (DiD)-Methode mit festen Benutzereffekten zu verwenden, was innerhalb der Benutzeränderungen von der zwischen Benutzer-Selektion isoliert.
Was ist der Unterschied zwischen ITT-Analyse (Intent-to-Treat) und TOT-Analyse (Treatment-on-the-Treated) bei der Bewertung des Effekts der Core Web Vitals und warum ist es für Produktkennzahlen entscheidend, genau nach ITT bei der Planung der Skalierung zu berichten?
ITT misst den Effekt für die gesamte Bevölkerung, einschließlich derjenigen, die keine Geschwindigkeitsverbesserung erhalten haben (z. B. Benutzer auf 2G oder mit deaktiviertem JavaScript), während TOT (oder LATE im IV-Kontext) den Effekt nur für die „Compliers“ misst – diejenigen, die tatsächlich einen Vorteil von der Optimierung erhalten haben. Kandidaten berichten oft fälschlicherweise eine TOT-Bewertung (+15 % Konversion für die, die eine schnelle Ladezeit erhalten hätten) an das Geschäft, aber bei der Skalierung der Optimierung auf 100 % des Traffics wird der tatsächliche Effekt näher bei ITT (+6-8 %) liegen, da ein Teil der Zielgruppe technisch nicht in der Lage sein wird, eine Verbesserung zu erhalten (veraltete Geräte, langsame Netzwerke). Für die Geschäftsplanung und die Umsatzprognose ist es entscheidend, eine konservative ITT-Schätzung zu verwenden, um Fehler durch Überverpflichtung zu vermeiden.