Antwort auf die Frage

Geschichte der Frage

Der exponentielle gleitende Durchschnitt (EMA) entstand in der technischen Analyse in der Mitte des 20. Jahrhunderts als Glättungstechnik, die den jüngeren Beobachtungen mehr Gewicht verleiht. Im Gegensatz zu einfachen gleitenden Durchschnitten weist die Berechnung des EMA eine rekursive mathematische Eigenschaft auf, bei der jeder Wert von dem zuvor berechneten EMA abhängt, was eine Abhängigkeit schafft, die der Vektorisierung widersteht. Diese Eigenschaft macht es notorisch schwierig, in set-basiertem SQL implementiert zu werden, da Standardfensterfunktionen auf statischen Rahmen statt auf akkumulierten Ergebnissen arbeiten. Interviewer stellen diese Frage, um das Verständnis eines Kandidaten für die rekursiven Fähigkeiten von ANSI SQL zu bewerten und deren Fähigkeit, iterative Algorithmen in deklarative Mengenlogik zu übersetzen.

Das Problem

Mathematisch wird der EMA zu einem Zeitpunkt t definiert als: EMAt = α × Preis_t + (1-α) × EMA{t-1}, wobei α der Glättungsfaktor ist (typischerweise 2/(N+1) für einen N-Perioden-Durchschnitt). Der Basisfall verwendet den Preis der ersten Periode als den anfänglichen EMA. Im Kontext einer Datenbank stehen wir vor der Herausforderung, diese laufende Berechnung über Millionen von Zeilen, die nach Zeitstempel geordnet sind, aufrechtzuerhalten, wobei jede Zeile Zugriff auf das berechnete Ergebnis der vorherigen Zeile benötigt. Standardaggregatefunktionen von ANSI SQL wie SUM oder AVG können diese rekursive Abhängigkeit nicht ausdrücken, und Fensterfunktionen mit ROWS- oder RANGE-Klauseln greifen nur auf Rohwerte zu, nicht auf berechnete Ausgaben vorheriger Zeilen.

Die Lösung

Wir implementieren dies mit einem rekursiven CTE (Common Table Expression), der das geordnete Datenset sequenziell durchläuft. Zunächst stellen wir eine deterministische Zeilenreihenfolge mit ROW_NUMBER() her, um Lücken oder unregelmäßige Zeitstempel zu behandeln. Das Ankermitglied wählt die erste Zeile für jede Partition (z.B. Aktiensymbol) aus und setzt den initialen EMA gleich dem ersten Preis. Das rekursive Mitglied verbindet dann den CTE mit der nächsten sequenziellen Zeile (wo row_number = vorherige + 1) und wendet die EMA-Formel unter Verwendung des berechneten Wertes der vorherigen Iteration an. Dieser Ansatz entspricht strikt den Standards von ANSI SQL:1999 und wird als eine einzige set-basierte Operation ausgeführt.

WITH RECURSIVE numbered_trades AS (
  SELECT 
    symbol, 
    price, 
    trade_time,
    ROW_NUMBER() OVER (PARTITION BY symbol ORDER BY trade_time) AS rn
  FROM trades
),
ema_series AS (
  -- Anker: erste Zeile für jedes Symbol
  SELECT 
    symbol, 
    price, 
    rn, 
    price AS ema  -- Initialer EMA gleich dem ersten Preis
  FROM numbered_trades
  WHERE rn = 1
  
  UNION ALL
  
  -- Rekursiv: EMA für nachfolgende Zeilen berechnen
  SELECT 
    t.symbol,
    t.price,
    t.rn,
    0.2 * t.price + 0.8 * e.ema AS ema  -- α = 0.2 für 9-Perioden EMA
  FROM ema_series e
  JOIN numbered_trades t 
    ON t.symbol = e.symbol 
    AND t.rn = e.rn + 1
)
SELECT symbol, price, ema, rn
FROM ema_series
ORDER BY symbol, rn;

Situation aus dem Leben

Eine quantitative Handelsfirma musste EMA-Indikatoren für fünf Jahre historische Tick-Daten über 5.000 Aktien-Symbole nachbearbeiten, um einen neuen Algorithmus zu validieren. Der Datensatz umfasste 250 Millionen Zeilen hochfrequenter Marktdaten, und die bestehende Python Pandas-Lösung erforderte die Übertragung von Gigabytes von Daten über das Netzwerk, was häufige Zeitüberschreitungen und Speicherfehler auf dem Analysearbeitsplatz während Zeiten hoher Marktentgelde verursachte.

Das Team überlegte zuerst, ein Python-Vorverarbeitungsskript mit der Pandas ewm()-Methode umzusetzen. Dieser Ansatz bot eine schnelle Prototypenentwicklung und vertraute Syntax für die quantitativen Analysten und behandelte die rekursive Berechnung nativ mithilfe optimierter C-Erweiterungen. Allerdings führte er zu erheblichen Datenübertragungen zwischen der PostgreSQL-Datenbank und dem Anwendungsserver, erforderte das Laden von Millionen von Zeilen in den Speicher und erforderte komplexe Chunking-Logik, um Symbole in Batches zu verarbeiten, ohne die Kontinuität der EMA-Berechnung über die BATCH-Grenzen hinaus zu verlieren.

Zweitens prüften sie einen reinen set-basierten Ansatz mit einem SELF JOIN und exponentiellen Gewichtungsberechnungen, bei dem jede Zeile mit allen vorherigen Zeilen innerhalb eines 200-Perioden-Rückblicks verbunden wurde und geometrische Gewichte angelegt wurden. Diese Methode vermied die Rekursion vollständig und erlaubte es theoretisch, dass der Datenbankoptimierer die Operation parallelisiert. Sie litt jedoch unter einer Komplexität von O(n²) in Bezug auf die Rückblickfenstergröße, was massive Zwischenergebnisse erzeugte, die die tempdb überforderten, wenn hochfrequente Tickdaten verarbeitet wurden, und bot nur eine Annäherung an den tatsächlichen EMA aufgrund der endlichen Fenstertruncierung.

Drittens bewerteten sie die Lösung des rekursiven CTE mit der standardmäßigen ANSI SQL-Syntax. Dieser Ansatz wurde vollständig innerhalb der Datenbank-Engine ausgeführt, beseitigte die Übertragungsgebühren und berechnete den mathematisch genauen EMA, indem die rekursive Definition strikt befolgt wurde. Obwohl er das Risiko barg, die Rekursionstiefenlimits bei äußerst langen Symbolhistorien zu erreichen und in den meisten Implementierungen von ANSI SQL pro Symbol einseitig ausgeführt wurde, war er speichereffizient und vermied die quadratische Explosion der Selbstverknüpfungsmethode.

Sie wählten den Ansatz des rekursiven CTE, weil er Datenbewegungen beseitigte, numerische Präzision identisch mit Pandas gewährte und als eine Aktualisierung der materialisierten Ansicht, die in der Datenbank nativen geplant werden konnte, ohne externe Abhängigkeiten, implementiert werden konnte. Der DBA konfigurierte den max_recursive_iterations-Parameter, um die längste Symbolhistorie (ungefähr 50.000 Ticks pro Symbol) zu berücksichtigen.

Die Implementierung verarbeitete den gesamten Datensatz von 250 Millionen Zeilen in etwa 12 Minuten. Die resultierenden EMA-Werte stimmten innerhalb der Gleitkommapräzision mit den Berechnungen von Pandas überein und validierten die mathematische Korrektheit der SQL-Implementierung. Das Unternehmen stellte den Abfrage anschließend als nächtliche Aktualisierung der materialisierten Ansicht in Produktion, wodurch die Notwendigkeit externer Python-Skripte entfiel und die Komplexität ihrer Datenpipeline erheblich reduziert wurde.

Was Kandidaten oft übersehen

Wie gehen Sie mit der Berechnung um, wenn die Quelltabelle Lücken in der Sequenz oder unregelmäßige Zeitstempel enthält, die keine perfekte Integer-Sequenz bilden?

Viele Kandidaten nehmen an, dass trade_time oder eine ID-Spalte eine dichte Sequenz bereitstellt, die für rn = e.rn + 1-Joins geeignet ist. In Wahrheit schaffen fehlende Ticks oder gelöschte Datensätze Lücken, die die Rekursionskette unterbrechen. Die Lösung erfordert die Materialisierung eines dichten Rangs mit Hilfe von ROW_NUMBER() oder DENSE_RANK() vor dem rekursiven CTE, um aufeinanderfolgende ganze Zahlen unabhängig von Zeitstempellücken zu gewährleisten. Dies entkoppelt die logische Reihenfolge von physischen Schlüsselwerten und ermöglicht das ununterbrochene Fortsetzen der Rekursion, während die korrekte temporale Sequenz bewahrt wird.

Warum könnte ein rekursiver CTE-Ansatz bei extrem langen Zeitserien (z.B. mehr als 100.000 Zeilen pro Symbol) scheitern und wie mildern Sie dies innerhalb der Beschränkungen von ANSI SQL?

Kandidaten übersehen oft, dass der Standard von ANSI SQL keine unendliche Rekursionstiefe vorschreibt, und Implementierungen wie PostgreSQL standardmäßig auf 1000 Iterationen und SQL Server auf 100 festgelegt sind. Das Überschreiten dieser Grenzen bricht die Abfrage ab. Die Milderung erfolgt durch Batchverarbeitung mithilfe einer Kontrolltabelle oder iterativen Ansätzen, aber innerhalb strikter ANSI SQL müssen Sie entweder das Sitzungslimit für die Rekursion erhöhen (nicht-ANSI) oder einen hybriden Ansatz mit Fensterfunktionen für annähernde EMA über feste Rückblickzeiträume (z.B. 200 Perioden) implementieren, bei dem der exponentielle Abfall ältere Beiträge unbedeutend macht. Für exakte Berechnungen müssen Sie sicherstellen, dass das Rekursionslimit der Plattform Ihre maximale Sequenzlänge überschreitet oder eine Schleife mit einer gespeicherten Prozedur verwenden (in den Einschränkungen dieser Frage verboten).

Wie verhindern Sie eine Kreuzkontamination bei der Berechnung von EMAs für mehrere unabhängige Zeitserien (z.B. unterschiedliche Aktiensymbole) gleichzeitig in einer einzigen rekursiven Abfrage?

Ein häufiger Fehler besteht darin, den Partitionierungsschlüssel in der rekursiven Verknüpfungsprädikats zu weglassen. Die Kandidaten schreiben t.rn = e.rn + 1, ohne t.symbol = e.symbol einzuschließen, was dazu führt, dass die Rekursion zwischen verschiedenen Symbolen springt, wenn die Zeilennummern übereinstimmen. Die korrekte Implementierung erfordert, dass der Partitionierungsschlüssel (Symbol) sowohl durch das Anker- als auch das rekursive Mitglied beibehalten wird und dass strikt sowohl auf die Zunahme der Sequenznummer als auch auf die Partitionierungsgleichheit verknüpft wird. Dies gewährleistet, dass der Rekursionsbaum pro Symbol isoliert bleibt und effektiv separate Berechnungskontexte innerhalb der einzelnen Ausführung des CTE erstellt.

Auf welche Weise würden Sie einen **exponentiellen gleitenden Durchschnitt** über sequenziell geordnete Finanzdaten berechnen, wobei jeder berechnete Wert rekursiv von dem vorherigen Ergebnis abhängt, und zwar ausschließlich mit **ANSI SQL** ohne prozedurale Erweiterungen?