Odpowiedź na pytanie

Historia pytania

Wykładnicza średnia ruchoma (EMA) powstała w analizie technicznej w połowie XX wieku jako technika wygładzania, która nadaje większą wagę niedawnym obserwacjom. W odróżnieniu od prostych średnich ruchomych, obliczanie EMA ma rekurencyjną właściwość matematyczną, gdzie każda wartość zależy od wcześniej obliczonej EMA, tworząc łańcuch zależności, który opiera się na wektoryzacji. Ta cecha sprawia, że jest notoriously trudne do zaimplementowania w oparciu o SQL oparty na zbiorach, ponieważ standardowe funkcje okna działają na statycznych ramkach zamiast na skumulowanych wynikach. Rekruterzy zadają to pytanie, aby ocenić zrozumienie możliwości rekurencyjnych ANSI SQL i zdolność kandydata do przetłumaczenia algorytmów iteracyjnych na deklatywną logikę zbiorów.

Problem

Matematycznie, EMA w czasie t jest definiowana jako: EMAt = α × Price_t + (1-α) × EMA{t-1}, gdzie α to współczynnik wygładzania (zazwyczaj 2/(N+1) dla N-okresowej średniej). Przypadek podstawowy wykorzystuje cenę pierwszego okresu jako początkową EMA. W kontekście bazy danych napotykamy wyzwanie utrzymania tego bieżącego obliczenia na milionach wierszy uporządkowanych według znacznika czasu, gdzie każdy wiersz wymaga dostępu do obliczonego wyniku poprzedniego wiersza. Standardowe funkcje agregujące ANSI SQL takie jak SUM czy AVG nie mogą wyrazić tej rekurencyjnej zależności, a funkcje okna z klauzulami ROWS czy RANGE tylko uzyskują surowe wartości wejściowe, a nie obliczone wyniki z wcześniejszych wierszy.

Rozwiązanie

Implementujemy to używając rekurencyjnego CTE (Common Table Expression) przechodzącego przez uporządkowany zestaw danych sekwencyjnie. Najpierw ustalamy deterministyczny porządek wierszy za pomocą ROW_NUMBER() aby obsłużyć luki lub nieregularne znaczniki czasu. Członek zakotwiczający wybiera początkowy wiersz dla każdej partycji (np. symbol akcji), ustawiając początkową EMA równą pierwszej cenie. Członek rekurencyjny następnie łączy CTE z następnym sekwencyjnym wierszem (gdzie row_number = poprzedni + 1) i stosuje wzór EMA używając obliczonej wartości poprzedniej iteracji. To podejście ściśle przestrzega standardów ANSI SQL:1999 i wykonuje się jako jedna operacja oparta na zbiorach.

WITH RECURSIVE numbered_trades AS (
  SELECT 
    symbol, 
    price, 
    trade_time,
    ROW_NUMBER() OVER (PARTITION BY symbol ORDER BY trade_time) AS rn
  FROM trades
),
ema_series AS (
  -- Zakotwiczanie: pierwszy wiersz dla każdego symbolu
  SELECT 
    symbol, 
    price, 
    rn, 
    price AS ema  -- Początkowa EMA równa pierwszej cenie
  FROM numbered_trades
  WHERE rn = 1
  
  UNION ALL
  
  -- Rekurencyjnie: oblicz EMA dla kolejnych wierszy
  SELECT 
    t.symbol,
    t.price,
    t.rn,
    0.2 * t.price + 0.8 * e.ema AS ema  -- α = 0.2 dla 9-okresowej EMA
  FROM ema_series e
  JOIN numbered_trades t 
    ON t.symbol = e.symbol 
    AND t.rn = e.rn + 1
)
SELECT symbol, price, ema, rn
FROM ema_series
ORDER BY symbol, rn;

Sytuacja z życia

Firma zajmująca się handlem ilościowym potrzebowała uzupełnić wskaźniki EMA dla pięciu lat danych historycznych ticków w 5,000 symbolach akcji, aby zweryfikować nowy algorytm. Zestaw danych zawierał 250 milionów wierszy danych rynkowych o dużej częstotliwości, a istniejące rozwiązanie oparte na Pythonie i Pandas wymagało przesyłania gigabajtów danych przez sieć, co powodowało częste przekroczenia czasu i błędy pamięci na stacji roboczej analitycznej w czasie szczytowej zmienności rynku.

Zespół najpierw rozważył wdrożenie skryptu wstępnego przetwarzania w Pythonie z użyciem metody ewm() w Pandas. To podejście oferowało szybki prototyp i znajomą składnię dla analityków ilościowych oraz obsługiwało obliczenia rekurencyjne natywnie przy użyciu zoptymalizowanych rozszerzeń C. Jednak wprowadzało znaczące obciążenia transferu danych między bazą danych PostgreSQL a serwerem aplikacji, wymagało załadowania milionów wierszy do pamięci i wymagało skomplikowanej logiki dzielenia, aby przetwarzać symbole w partiach bez utraty ciągłości obliczeń EMA na granicach partii.

Następnie zbadali czyste podejście oparte na zbiorach z użyciem SELF JOIN z obliczeniami wykładniczej wagi, gdzie każdy wiersz łączy się z wszystkimi poprzednimi wierszami w oknie 200 okresu i stosuje wagi geometryczne. Ta metoda całkowicie unikała rekurencji i teoretycznie pozwalała optymalizatorowi bazy danych na równoległe przetwarzanie operacji. Niemniej jednak cierpiała na złożoność O(n²) w odniesieniu do rozmiaru okna lookback, tworząc ogromne pośrednie zestawy wyników, które przytłaczały tempdb podczas przetwarzania danych ticków o dużej częstotliwości, a także dostarczała tylko przybliżenia prawdziwej EMA z powodu ograniczenia w finityzmie okna.

Trzecia analiza oceniała rozwiązanie rekurencyjnego CTE z użyciem standardowej składni ANSI SQL. To podejście wykonywało się całkowicie w silniku bazy danych, eliminowało nadmiar transferu sieciowego i obliczało matematycznie dokładne EMA ściśle według definicji rekurencyjnej. Chociaż groziło osiągnięciem limitów głębokości rekurencji w przypadku wyjątkowo długich historii symboli i wykonywało się w trybie jednowątkowym dla symbolu w większości implementacji ANSI SQL, okazało się efektywne pod względem pamięci i unikało kwadratowego wybuchu metody self-join.

Wybrali podejście rekurencyjnego CTE, ponieważ eliminowało ruch danych, zapewniało dokładność cyfrową identyczną z Pandas i mogło być zaplanowane jako odświeżenie materializowanego widoku natywnego bazy danych bez zewnętrznych zależności. DBA skonfigurował parametry max_recursive_iterations, aby pomieścić najdłuższą historię symbolu (około 50,000 ticków na symbol).

Implementacja przetworzyła cały zestaw danych z 250 milionami wierszy w około 12 minut. Uzyskane wartości EMA odpowiadały obliczeniom Pandas w ramach precyzji zmiennoprzecinkowej, potwierdzając matematyczną poprawność implementacji SQL. Firma następnie wprowadziła zapytanie jako nocne odświeżenie materializowanego widoku, eliminując potrzebę zewnętrznych skryptów Python i znacząco zmniejszając złożoność ich potoku danych.

Co kandydaci często przeoczą

Jak radzisz sobie z obliczeniem, gdy tabela źródłowa zawiera luki w sekwencji lub nieregularne znaczniki czasu, które nie tworzą idealnej sekwencji całkowitej?

Wielu kandydatów zakłada, że trade_time lub kolumna ID dostarcza gęstą sekwencję nadającą się do łączenia rn = e.rn + 1. W rzeczywistości brakujące ticki lub usunięte rekordy tworzą luki, które przerywają łańcuch rekurencji. Rozwiązanie wymaga zmaterializowania gęstej rangi za pomocą ROW_NUMBER() lub DENSE_RANK() przed rekurencyjnym CTE, zapewniając konsekwentne liczby całkowite niezależnie od luk znaczników czasu. To oddziela logiczny porządek od fizycznych wartości klucza, pozwalając na kontynuację rekurencji bez przeszkód, zachowując poprawną sekwencję czasową.

Dlaczego podejście rekurencyjnego CTE może się nie udać w przypadku wyjątkowo długich szeregów czasowych (np. 100,000+ wierszy na symbol) i jak można to złagodzić w ramach ograniczeń ANSI SQL?

Kandydaci często nie zauważają, że standard ANSI SQL nie nakłada wymogu nieskończonej głębokości rekurencji, a implementacje takie jak PostgreSQL domyślnie działają do 1000 iteracji, podczas gdy SQL Server do 100. Przekroczenie tych limitów przerywa zapytanie. Łagodzenie polega na przetwarzaniu wsadowym za pomocą tabeli kontrolnej lub podejścia iteracyjnego, ale w ramach ścisłego ANSI SQL musisz albo zwiększyć limit rekurencji sesji (co jest niezgodne z ANSI), albo wdrożyć podejście hybrydowe wykorzystujące funkcje okna dla przybliżonego EMA przez z góry ustalone okresy lookback (np. 200 okresów), gdzie wykładnicze zanikanie czyni starsze wkłady znikome. Dla dokładnych obliczeń musisz upewnić się, że limit rekurencji platformy przekracza twoją maksymalną długość sekwencji lub użyć pętli procedury składowej (co jest zabronione w ramach zobowiązań tego pytania).

Jak zapobiegasz zanieczyszczaniu krzyżowemu przy obliczaniu EMA dla wielu niezależnych szeregów czasowych (np. różnych symboli akcji) jednocześnie w jednym zapytaniu rekurencyjnym?

Typowym błędem jest pominięcie klucza partycjonowania w predykacie łączenia rekurencyjnego. Kandydaci piszą t.rn = e.rn + 1 bez uwzględnienia t.symbol = e.symbol, co powoduje, że rekurencja przeskakuje między różnymi symbolami, gdy numery wierszy się zgodne. Poprawna implementacja wymaga przetransportowania klucza partycjonującego (symbolu) przez człon zakotwiczający i rekurencyjny oraz ściśle łączenia zarówno na poziomie numeru sekwencyjnego, jak i równości partycji. To zapewnia, że drzewo rekurencyjne pozostaje izolowane per symbol, skutecznie tworząc oddzielne konteksty obliczeniowe w ramach jednego wykonania CTE.

W jaki sposób obliczyłbyś **wykładniczą średnią ruchomą** na uporządkowanych sekwencyjnie danych finansowych, gdzie każda obliczona wartość rekurencyjnie zależy od poprzedniego wyniku, używając wyłącznie **ANSI SQL** bez rozszerzeń proceduralnych?