Ответ на вопрос

История вопроса

Экспоненциальное скользящее среднее (EMA) возникло в техническом анализе в середине 20 века как метод сглаживания, который придает больший вес недавним наблюдениям. В отличие от простых скользящих средних, вычисление EMA обладает рекурсивным математическим свойством, при котором каждое значение зависит от ранее вычисленного EMA, создавая цепь зависимостей, которая сопротивляется векторизации. Эта характеристика делает его крайне сложным для реализации в наборном SQL, поскольку стандартные оконные функции работают со статическими рамками, а не с накопленными результатами. Интервьюеры задают этот вопрос, чтобы оценить понимание кандидатом рекурсивных возможностей ANSI SQL и его способность преобразовывать итеративные алгоритмы в декларативную наборную логику.

Проблема

Математически EMA в момент времени t определяется как: EMAt = α × Price_t + (1-α) × EMA{t-1}, где α — коэффициент сглаживания (обычно 2/(N+1) для N-периодного среднего). Базовый случай использует цену первого периода в качестве начального EMA. В контексте базы данных мы сталкиваемся с задачей поддержания этого текущего вычисления на миллионах строк, упорядоченных по временной метке, где каждая строка требует доступа к вычисленному результату предыдущей строки. Стандартные агрегатные функции ANSI SQL, такие как SUM или AVG, не могут выразить эту рекурсивную зависимость, а оконные функции с предложениями ROWS или RANGE могут получать только сырые входные значения, а не рассчитанные выходные значения из предыдущих строк.

Решение

Мы реализуем это с помощью рекурсивного CTE (Common Table Expression), который последовательно проходит упорядоченный набор данных. Сначала мы устанавливаем детерминированный порядок строк с использованием ROW_NUMBER(), чтобы обрабатывать пропуски или нерегулярные временные метки. Якорный член выбирает начальную строку для каждой секции (например, символ акций), устанавливая начальное EMA равным первой цене. Рекурсивный член затем соединяет CTE с следующей последовательной строкой (где row_number = previous + 1) и применяет формулу EMA с использованием ранее рассчитанного значения. Этот подход строго соблюдает стандарты ANSI SQL:1999 и выполняется как одна операция на основе набора.

WITH RECURSIVE numbered_trades AS (
  SELECT 
    symbol, 
    price, 
    trade_time,
    ROW_NUMBER() OVER (PARTITION BY symbol ORDER BY trade_time) AS rn
  FROM trades
),
ema_series AS (
  -- Якорь: первая строка для каждого символа
  SELECT 
    symbol, 
    price, 
    rn, 
    price AS ema  -- Начальное EMA равно первой цене
  FROM numbered_trades
  WHERE rn = 1
  
  UNION ALL
  
  -- Рекурсивно: вычислить EMA для последующих строк
  SELECT 
    t.symbol,
    t.price,
    t.rn,
    0.2 * t.price + 0.8 * e.ema AS ema  -- α = 0.2 для 9-периодного EMA
  FROM ema_series e
  JOIN numbered_trades t 
    ON t.symbol = e.symbol 
    AND t.rn = e.rn + 1
)
SELECT symbol, price, ema, rn
FROM ema_series
ORDER BY symbol, rn;

Ситуация из жизни

Квантовая торговая фирма нуждалась в обратном заполнении индикаторов EMA на пять лет исторических данных по тикам для 5,000 акций, чтобы подтвердить новый алгоритм. Набор данных содержал 250 миллионов строк высокочастотных рыночных данных, и существующее решение на Python Pandas требовало передачи гигабайтов данных по сети, что вызывало частые таймауты и ошибки памяти на аналитической рабочей станции в периоды пиковых рыночных колебаний.

Команда сначала подумала о реализации предварительной обработки на Python с использованием метода ewm() Pandas. Этот подход предложил бы быстрое прототипирование и знакомый синтаксис для количественных аналитиков, а также нативно обрабатывал рекурсивное вычисление, используя оптимизированные расширения C. Однако он ввел значительную нагрузку на передачу данных между базой данных PostgreSQL и сервером приложений, требовал загрузки миллионов строк в память и сопротивлялся сложной логике разбиения для обработки символов партиями без потери непрерывности вычисления EMA за границами пакетов.

Во-вторых, они рассмотрели чисто наборный подход с использованием SELF JOIN с вычислениями экспоненциального веса, где каждая строка соединяется со всеми предыдущими строками в пределах 200-периодного интервала и применяет геометрические веса. Этот метод полностью избегал рекурсии и теоретически позволял оптимизатору базы данных параллелизовать операцию. Тем не менее, он страдал от сложности O(n²) относительно размера окна, создавая огромные промежуточные наборы результатов, которые перегружали tempdb при обработке высокочастотных торговых данных, и предоставлял лишь приблизительное значение истинного EMA из-за конечной усеченности окна.

В-третьих, они оценили решение с использованием рекурсивного CTE с синтаксисом стандартного ANSI SQL. Этот подход выполнялся полностью в рамках движка базы данных, устранял накладные расходы на передачу данных и вычислял математически точное EMA, строго следуя рекурсивному определению. Хотя он рисковал достигнуть предела глубины рекурсии при крайне длинных историях символов и выполнялся в одно-поточной модели для символа в большинстве реализаций ANSI SQL, он оказал хорошую эффективность по памяти и избегал квадратичного взрыва метода самосоединения.

Они выбрали подход с рекурсивным CTE, потому что он устранял перемещение данных, обеспечивал числовую точность, аналогичную Pandas, и мог быть запланирован как обновление материала представления, родного для базы данных, без внешних зависимостей. DBA настроил параметр max_recursive_iterations, чтобы учесть самую длинную историю символа (примерно 50,000 тиков на символ).

Реализация обработала весь набор данных из 250 миллионов строк примерно за 12 минут. Полученные значения EMA совпадали с расчетами Pandas с точностью до плавающей запятой, подтверждая математическую правильность реализации SQL. Фирма затем ввела запрос в производственную эксплуатацию в виде ночного обновления материала представления, что устранило необходимость во внешних скриптах Python и значительно упростило их поток данных.

Что часто упускают кандидаты

Как вы справляетесь с вычислением, когда исходная таблица содержит пропуски в последовательности или нерегулярные временные метки, которые не образуют идеальную целую последовательность?

Многие кандидаты предполагают, что trade_time или столбец ID предоставляет плотную последовательность, подходящую для rn = e.rn + 1 соединений. На практике отсутствующие тики или удаленные записи создают пропуски, которые разрывают цепочку рекурсии. Решение требует материализации плотного ранга с использованием ROW_NUMBER() или DENSE_RANK() перед рекурсивным CTE, обеспечивая последовательные целые числа независимо от пропусков временных меток. Это освобождает логический порядок от физических ключевых значений, позволяя рекурсии продолжаться без остановки, сохраняя при этом правильную временную последовательность.

Почему подход с рекурсивным CTE может потерпеть неудачу для крайне длинных временных рядов (например, 100,000+ строк на символ), и как вы смягчаете это в рамках ограничений ANSI SQL?

Кандидаты часто упускают из виду, что стандарт ANSI SQL не обязывает к бесконечной глубине рекурсии, и реализации, такие как PostgreSQL, по умолчанию ограничены 1000 итерациями, в то время как SQL Server - 100. Превышение этих пределов прекращает выполнение запроса. Смягчение включает пакетную обработку с использованием таблицы управления или итеративного подхода, но в рамках строгого ANSI SQL вы должны либо увеличить предельное значение рекурсии сессии (не ANSI), либо реализовать гибридный подход с использованием оконных функций для приближенного EMA по фиксированным интервалам (например, 200 периодов), где экспоненциальное затухание делает более старые вклады незначительными. Для точных вычислений вы должны гарантировать, что предел рекурсии платформы превышает вашу максимальную длину последовательности или использовать цикл в хранимой процедуре (запрещено в условиях данного вопроса).

Как вы предотвращаете перекрестное загрязнение при вычислении EMA для нескольких независимых временных рядов (например, различных символов акций) одновременно в одном рекурсивном запросе?

Распространенной ошибкой является отсутствие ключа разделения в рекурсивном условии соединения. Кандидаты пишут t.rn = e.rn + 1, не включая t.symbol = e.symbol, что вызывает необходимость рекурсии между разными символами, когда номера строк совпадают. Правильная реализация требует прохождения ключа разделения (символа) через оба члена якоря и рекурсивного члена, и строго соединявая по инкременту номера последовательности и равенству разделения. Это гарантирует, что дерево рекурсии остается изолированным по каждому символу, тем самым создавая отдельные контексты вычислений в рамках одного выполнения CTE.