Ответ на вопрос

Этот паттерн, известный как as-of join или nearest preceding match, возник в финансовых базах данных, где события торговли должны быть сопоставлены с самой последней котировкой, действительной на момент исполнения. Он обобщается на любую область с дискретными событиями и медленно изменяющимися измерениями, такими как калибровка датчиков IoT или история отделов сотрудников. Проблема заключается в выполнении временной навигации без потерь в производительности на основе множеств.

Наивный подход использует коррелированный скалярный подзапрос с ORDER BY и FETCH FIRST 1 ROW ONLY, что заставляет движок выполнять подзапрос для каждой строки (RBAR), что приводит к сложности O(n²) и плохой локальности кеша. В альтернативу, неравенствующий join (<=) между событиями и справочными точками генерирует полукартезианское произведение, которое взрывается в размере перед фильтрацией, потенциально вызывая переполнение диска для крупных наборов данных. Оба подхода рискуют тайм-аутами при обработке миллионов строк.

Надежное решение использует неравенствующий join по временным ключам, затем применяет оконную функцию ROW_NUMBER(), разбитую на разделы по ID события и упорядоченную по временной метке справочного значения по убыванию. Фильтрация по row_num = 1 сохраняет только ближайшее предшествующее совпадение, преобразуя операцию в сортировку и фильтрацию на основе множеств, которую оптимизаторы могут выполнять с помощью хеш- или слияния.

WITH matches AS (
    SELECT 
        e.event_id,
        e.event_time,
        e.reading,
        r.calibration_value,
        ROW_NUMBER() OVER (
            PARTITION BY e.event_id 
            ORDER BY r.valid_from DESC
        ) AS rn
    FROM events e
    JOIN reference r 
        ON r.sensor_id = e.sensor_id 
        AND r.valid_from <= e.event_time
)
SELECT event_id, event_time, reading, calibration_value
FROM matches
WHERE rn = 1;

Ситуация из жизни

Производственный завод собирает данные о вибрации от 5000 датчиков каждую секунду в vibration_logs. Коэффициенты калибровки для каждого датчика обновляются спорадически в sensor_calibrations (примерно раз в месяц). Команде аналитиков необходимо отрегулировать каждое сырое показание с учетом активного коэффициента калибровки в этот момент времени, но наивный коррелированный подзапрос занимал более 3 минут на пакет и блокировал конвейер приема данных.

Решение A (Коррелированный подзапрос): Этот подход полагается на коррелированный скалярный подзапрос для получения последней калибровки для каждой строки вибрационного лога отдельно. Движок базы данных оценивает этот подзапрос один раз для каждой внешней строки, обычно используя поиск по индексу B-tree по временной метке calibrated_at, чтобы найти единую соответствующую запись. Хотя это возвращает правильный результат, это мешает оптимизатору использовать хеш или слияние и создает вложенный цикл.

Плюсы: Концептуально просто для разработчиков; возвращает ровно одно совпадение на строку без этапов устранения дубликатов.
Минусы: Заставляет обрабатывать RBAR с сложностью O(n²); при 10 миллионах показаний это привело к 10 миллионам поисков по индексам и 45 секундам времени ЦП.

Решение B (Неравенствующий join с оконной функцией): Этот метод использует неравенствующий join в сочетании с оконной функцией ROW_NUMBER() для назначения последовательного ранга каждому потенциальному совпадению калибровки в рамках определенного события сенсора. После того как join производит все пары кандидатов, оконная функция упорядочивает их по времени калибровки по убыванию и фильтрует по рангу 1. Это преобразует логику в операцию, основанную на множестве, удобную для пакетной обработки.

Плюсы: Позволяет оптимизатору использовать хеш-джойны или слияния, сокращая задачу до одной операции сортировки на раздел; использует оптимизацию top-N, чтобы избежать сортировки всей истории.
Минусы: Промежуточный результат join велик (каждое показание соединяется со всеми предыдущими калибровками), что требует значительной памяти (2 ГБ в этом случае) для сортировки оконной функции.

Решение C (Union-All с условной логикой): Эта стратегия объединяет обе таблицы через UNION ALL в один хронологический поток, помеченный флагами типов, затем пытается использовать LAST_VALUE(... IGNORE NULLS), чтобы передать последнее известное значение калибровки через последующие строки событий. Этот подход теоретически сканирует каждую таблицу только один раз без риска объединения.

Плюсы: Единичное сканирование таблицы в каждой исходной таблице; отсутствие риска картезианского произведения.
Минусы: IGNORE NULLS не является строго ANSI SQL (это необязательная функция T611); без него логика становится запутанной и не работает для нечисловых атрибутов; требуется сортировка объединенного потока.

Выбранное решение: Решение B было выбрано после проверки того, что оптимизатор запросов PostgreSQL мог выполнить Partial Merge Join в сочетании с оператором Sort для оконной функции. Дополнительные затраты памяти для материализации промежуточного join были признаны приемлемыми на уровне 2 ГБ ОЗУ для 10 миллионов строк. Более того, этот подход избежал недетерминированной производительности вложенных циклов, наблюдаемой в Решении A.

Результат: Время выполнения запроса сократилось с 45 секунд до 1.2 секунд на производственном наборе данных. Конвейер теперь обрабатывает почасовые партии в реальном времени без блокировки непрерывного потока приема. Это позволило команде аналитиков генерировать откалиброванные отчеты о вибрации с задержкой всего в пять минут.

Что часто упускают кандидаты

Почему неравенствующий join с ROW_NUMBER() не страдает от той же производительности O(n²), что и коррелированный подзапрос, несмотря на концептуальное получение большого промежуточного набора?

Коррелированный подзапрос является зависимым; его необходимо переоценивать для каждой внешней строки, часто приводя к вложенному циклу. Неравенствующий join является независимым; оптимизатор может выбрать хеш-джойн или слияние, чтобы произвести картезианское подобное произведение, а затем применить оконную функцию. Критически важно, что современные движки реализуют оптимизацию top-N для фильтров ROW_NUMBER() = 1, которая останавливает сортировку после нахождения первой строки для каждого раздела, эффективно превращая операцию в поиск индекса или хеш-пробу для каждого события, а не в полную сортировку всех исторических калибровок.

Как вы обрабатываете события, которые происходят до того, как первая запись калибровки существует, гарантируя, что они получают значение по умолчанию, а не отбрасываются?

Неравенствующий join (<=) по своей природе исключает события, предшествующие минимальному времени справки, потому что условие соединения не выполняется. Чтобы включить их, используйте LEFT JOIN вместо INNER JOIN, затем оберните справочное значение в COALESCE, чтобы подставить значение по умолчанию. Кроме того, вы можете добавить ряд сигналов в таблицу справок с valid_from = '1900-01-01' и коэффициентом по умолчанию, гарантируя, что каждое событие будет иметь хотя бы одно предшествующее сочетание. Это гарантирует реляционное замыкание без логики постфильтрации.

Можно ли решить эту проблему, используя только диапазон (RANGE) в оконной функции без соединения таблиц, предполагая, что оба набора данных находятся в единой объединённой таблице?

Нет. Клауза RANGE работает над строками текущего набора результатов на основе значения упорядочивающего столбца; она не может выборочно искать значения из физически отдельной таблицы без условия соединения. Даже если вы объедините обе таблицы через UNION ALL, RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW будет включать все предыдущие строки, включая другие события, а не только калибровочные строки. Чтобы изолировать только калибровочные строки, вам нужно использовать IGNORE NULLS с LAST_VALUE, что не является строго ANSI SQL (это необязательная функция T611). Поэтому операция соединения обязательна для соблюдения строгой совместимости с ANSI SQL, когда комбинируются два различных реляционных источника.