Das Problem der Bewertung der Qualität von Suchergebnissen ist mit einem fundamentalen Paradoxon der Beobachtungen verbunden: Wir sehen Klicks nur auf den Positionen, die der Benutzer gesehen hat, aber die Wahrscheinlichkeit einer Ansicht fällt exponentiell mit dem Rang. Klassische Arbeiten von Joachims et al. zu position bias und Richardson zur examination hypothesis haben die Grundlage für das Verständnis gelegt, dass ein Klick nicht gleichbedeutend mit Relevanz ist. Im Kontext der Produktanalyse ergibt sich die Notwendigkeit, die wahre Präferenz des Benutzers von den Artefakten der Benutzeroberfläche zu trennen, insbesondere wenn die Änderung des Ranking-Algorithmus die gesamte Benutzerbasis gleichzeitig betrifft.
Bei einem globalen Update der Suchmaschine ändern sich die beobachtbaren Metriken (CTR, Browsing-Tiefe, Conversion) unter dem Einfluss von zwei Störfaktoren: der Änderung der Reihenfolge der Dokumente und der Änderung der Wahrscheinlichkeit ihrer Ansicht. Ohne die Möglichkeit, Benutzer in Kontroll- und Testgruppen zu unterteilen, ist klassisches A/B-Testing nicht möglich, und saisonale Schwankungen erzeugen zeitliche Trends, die mit dem Veröffentlichungszeitpunkt korrelieren. Die Aufgabe des Analysten besteht darin, den reinen Effekt des Rankings von diesen Störfaktoren unter den gegebenen Datenbeschränkungen zu isolieren.
Der optimale Ansatz kombiniert Methoden der Quasi-Experimente und Korrekturen für Verzerrungen. Im ersten Schritt wird Difference-in-Differences mit synthetischer Kontrolle angewendet: Es wird eine gewichtete Kombination historischer Perioden oder Produktsegmente erstellt, die den Vorbehandlungsfehler bei der Prognose der Metriken minimiert. Zur Korrektur von position bias wird Inverse Propensity Weighting (IPW) verwendet, wobei die propensity scores durch die Wahrscheinlichkeit des Betrachtens einer Position basierend auf früheren randomisierten Protokollen oder durch den Expectation-Maximization-Algorithmus unter der Annahme des Examination-Cascade Model geschätzt werden. Zusätzlich werden für nicht-lineare Effekte Causal Forests eingesetzt, die es ermöglichen, die Heterogenität des Effekts nach Produktkategorien und Benutzersegmenten zu modellieren.
In einem Elektronik-Marktplatz hat das Suchteam BM25 durch den auf Margen optimierten neuronalen BERT-basierten Ranker ersetzt. Zwei Wochen nach der Veröffentlichung stieg die Metrik GMV pro Suchsitzung um 18%, während die Browsing-Tiefe um 25% fiel. Das Unternehmen war sich unsicher, ob der Anstieg mit dem Algorithmus oder mit dem Beginn von Rabatten zusammenhängt, die mit der Veröffentlichung zusammenfielen, und war besorgt über die Beeinträchtigung der Benutzererfahrung bei langen Abfragen.
Als erste Option wurde ein einfacher Vergleich der Metriken vor und nach der Veröffentlichung durch einen t-Test in Betracht gezogen. Der Vorteil war die Schnelligkeit und die Notwendigkeit einer komplexen Infrastruktur. Die Nachteile sind jedoch offensichtlich: die Unmöglichkeit, den saisonalen Effekt der Rabatte vom Algorithmus-Effekt zu trennen, das Ignorieren der position bias (der neue Algorithmus könnte teurere Produkte einfach höher angezeigt haben, weil sie mehr Geld einbringen, und nicht, weil sie relevanter sind), und das Fehlen einer Berücksichtigung der allgemeinen Inflationsrate der Nachfrage während der Aktionen.
Die zweite Option war eine Interrupted Time Series (ITS)-Analyse mit saisonaler Dekomposition über Prophet oder SARIMA. Dies würde die Berücksichtigung von Trends und Saisonalität ermöglichen und einen kontrafaktischen Prognosewert der Metriken ohne Veröffentlichung erstellen. Die Vorteile umfasst die statistische Strenge und die Möglichkeit, Autokorrelationen zu modellieren. Die Nachteile lagen in der Sensitivität gegenüber dem Bruchpunkt (wenn die Veröffentlichung schrittweise war), der Schwierigkeit, die Koeffizienten für das Geschäft zu interpretieren, und der Annahme der Linearität von Trends, die im E-Commerce während großer Werbekampagnen häufig verletzt wird.
Die dritte Option bestand in der Entwicklung der Synthetic Control Methode auf der Ebene von Produktkategorien: die Erstellung eines gewichteten Korbes aus unberührten Anfragen oder Kategorien, in denen sich der Algorithmus nicht geändert hat (zum Beispiel aufgrund technischer Einschränkungen in bestimmten Regionen), als Kontrollgruppe für den Vergleich. Die Vorteile lagen in der visuellen Klarheit und Intuition für die Stakeholder sowie in der geringeren Sensitivität gegenüber Annahmen zur Fehlerverteilung. Zu den Nachteilen gehörte die Notwendigkeit, geeignete Kontrolleinheiten mit ähnlicher Dynamik zu identifizieren (was bei einem globalen Release schwierig ist) und das Risiko von Overfitting bei der Gewichtung.
Letztendlich wurde eine hybride Methodologie gewählt: Diff-in-Diff mit synthetischer Kontrolle auf der Ebene der Produktkategorien, kombiniert mit einer IPW-Korrektur für die Anzeigenposition. Dies ermöglichte es, den Effekt der Änderung des Rankings von saisonalen Ausschlägen zu trennen und die Verzerrung zu korrigieren, die dadurch entsteht, dass teure Produkte jetzt häufiger an oberen Positionen angezeigt werden. Die Wahl wurde durch die Notwendigkeit bestimmt, die zeitliche Struktur der Daten und die strukturellen Verzerrungen in der Exposition gleichzeitig zu berücksichtigen.
Das Ergebnis war die Feststellung, dass 14% von 18% des Anstiegs des GMV genau durch den Algorithmus erklärt werden, während die restlichen 4% auf die Saisonalität zurückzuführen sind. Dabei stellte sich heraus, dass bei head-Abfragen (Top 20% nach Häufigkeit) die Conversion um 22% gestiegen ist, während sie bei tail-Abfragen um 15% gefallen ist, was durch einen Anstieg des durchschnittlichen Bestellwerts ausgeglichen wurde. Dies führte zur Entscheidung, ein hybrides Modell einzuführen: einen neuronalen Ranker für beliebte Anfragen und einen klassischen für seltene, was die Metriken ausglich.
Wie berücksichtigt man position bias korrekt, wenn kein randomisiertes Experiment vorliegt?
Ohne spezielle randomisierte Anzeigen kann die propensity über den Expectation-Maximization-Algorithmus geschätzt werden, wobei angenommen wird, dass Klicks = Untersuchung × Relevanz. Kandidaten schlagen häufig vor, die Position einfach als Feature in die Regression hinzuzufügen, aber dies ignoriert die nicht-lineare Wechselwirkung zwischen Position und Relevanz. Der richtige Ansatz wäre die Verwendung von Click Models (Cascade Model oder DBN — Dependent Click Model) zur Schätzung der Untersuchung Wahrscheinlichkeit und dann die Gewichtung der Beobachtungen umgekehrt proportional zu dieser Wahrscheinlichkeit (IPW). Ohne dies wird die Schätzung des Ranking-Effekts in Richtung von top-heavy Ergebnissen verzerrt.
Warum liefert ein einfacher Vergleich der Klicks vor und nach der Änderung des Algorithmus eine verzerrte Schätzung, selbst wenn die Saisonalität berücksichtigt wird?
Neben position bias gibt es den Effekt der exploration vs exploitation und user learning. Der neue Algorithmus kann weniger erkunden (explore), indem er vorhersehbarere Ergebnisse liefert, was das engagement kurzfristig verringert. Oder umgekehrt können Benutzer sich an die neue Struktur der Ergebnisse anpassen und ihr Scroll-Verhalten ändern, was die Stationaritätsannahmen der Zeitreihenanalyse stört. Kandidaten übersehen die Notwendigkeit, die parallel trends assumption in Diff-in-Diff an Pre-Period-Daten zu testen und die Bedeutung von Lags in der Aggregation (es ist nicht möglich, Tag für Tag zu vergleichen aufgrund von day-of-week Effekten; es ist eine minimale Wochenaggregation erforderlich).
Wie unterscheiden Sie den Effekt der Verbesserung des Matchings von Suchanfragen und Produkten vom Effekt der Änderung der Produktzusammensetzung der Top-Ergebnisse?
Dieser Unterschied ist entscheidend für das Verständnis des langfristigen Einflusses auf LTV. Wenn der neue Algorithmus die Ergebnisse einfach in Richtung teurer Produkte verschiebt (assortment shift), anstatt das Benutzerintention besser zu verstehen (relevance improvement), kann das Wachstum der Conversion kurzfristig aufgrund des Neuheitseffekts sein. Zur Trennung ist es notwendig, Causal Forests oder Meta-learners (S-Learner, T-Learner) mit festen Produkteffekten (product fixed effects) zu verwenden, um dasselbe Produkt in verschiedenen Positionen vor und nach der Änderung zu vergleichen. Wenn der Effekt nur aufgrund der Änderung der Produktzusammensetzung im Top-Bereich beobachtet wird (z.B. das Verschwinden budgetfreundlicher Optionen), erfordert dies eine andere Produktreaktion als wenn die CTR an festen Positionen für dieses Produkt verbessert wurde.