Ответ на вопрос

История вопроса. Необходимость консолидации перекрывающихся временных интервалов происходит из интервалов Аллена (1983) и ранних исследований реляционных баз данных в области временных баз данных. Страховые системы, платформы бронирования отелей и приложения для планирования ресурсов часто сталкиваются с этой проблемой, когда несколько периодов покрытия, бронирований или окон обслуживания перекрываются и требуют нормализации в несмешивающиеся, непрерывные блоки для точной отчетности о доступности или выставления счетов. В отличие от простой агрегации, эта операция требует понимания порядка и непрерывности, что делает ее стандартным тестом мастерства продвинутых функций окон ANSI SQL.

Проблема. Учитывая таблицу диапазонов дат, определяемых колонками start_date и end_date, цель состоит в том, чтобы объединить все перекрывающиеся или смежные интервалы в минимальный набор неперекрывающихся диапазонов. Процедурный подход будет поддерживать текущий буфер, сравнивая каждую строку с текущим объединенным диапазоном, но это нарушает парадигму, основанную на множестве, SQL. Основная сложность заключается в том, чтобы определить "острова" непрерывности без самоприсоединений или рекурсивных CTE, особенно когда существуют транзитивные перекрытия (диапазон A перекрывает B, B перекрывает C, хотя A и C не соприкасаются непосредственно).

Решение. Используйте функции окон ANSI SQL для обнаружения начала каждого нового острова, сравнивая start_date текущей строки с максимальным end_date всех предыдущих строк в одной партии. Когда start_date превышает предыдущую максимальную конечную дату, начинается новый остров; в противном случае текущая строка расширяет существующий остров. Присвойте текущую сумму этих "флагов разрыва" как island_id, затем сгруппируйте по этому идентификатору, чтобы вычислить объединенные min(start_date) и max(end_date). Этот подход достигает сложности O(n log n) через сортировку и агрегацию в один проход.

Ситуация из жизни

Описание проблемы. У международного поставщика медицинских услуг была база данных обработки требований, в которой пациенты имели несколько перекрывающихся страховых полисов — основное покрытие с 1 января по 31 марта, вторичное с 15 февраля по 15 апреля и третичное, начиная с 1 мая. Существующая система генерировала дублирующиеся отклонения требований, поскольку рассматривала их как отдельные активные периоды, а не как один непрерывный блок покрытия с 1 января по 15 апреля, за которым следовало продление в мае. Бизнес требовал консолидации для принуждения к правилам "нет дублирующей оплаты" при сохранении следов аудита оригинальных записей полисов.

Решение 1: Итерация на основе курсора. Первоначальное предложение использовало хранимую процедуру с курсором, упорядоченным по start_date, поддерживая переменные @current_start и @current_end. Для каждой строки, если start_date ≤ @current_end, код обновлял @current_end до max(@current_end, end_date); в противном случае он выводил текущий диапазон и сбрасывал переменные. Плюсы: концептуально просто для разработчиков с императивным опытом; легко отлаживать пошагово. Минусы: требует процедурных расширений PL/pgSQL или T-SQL; выполняется построчно с O(n) памятью, но плохой производительностью ввода-вывода; нарушает требование к чистому декларативному ANSI SQL, который может выполняться на любом совместимом движке.

Решение 2: Самоприсоединение с обнаружением транзитивного замыкания. Другой подход выполнял самоприсоединение t1 JOIN t2 ON t1.start_date <= t2.end_date AND t1.end_date >= t2.start_date, чтобы найти немедленные перекрытия, затем использовал рекурсивный CTE для обхода графа перекрытий и идентификации связанных компонентов. Плюсы: теоретически правильно обрабатывает сложные транзитивные отношения без функций окон. Минусы: генерирует O(n²) промежуточных строк до рекурсии; вычислительно взрывные для больших наборов данных; зависит от рекурсивных CTE, которые, хотя и являются стандартом ANSI SQL, имеют меньшую производительность для этой конкретной задачи линейного упорядочивания.

Решение 3: Обнаружение разрывов с помощью функции окна (выбранное). Команда реализовала решение с чистыми функциями окон: флаг is_new_island = CASE WHEN start_date > MAX(end_date) OVER (PARTITION BY patient_id ORDER BY start_date ROWS BETWEEN UNBOUNDED PRECEDING AND 1 PRECEDING) THEN 1 ELSE 0 END, затем вычислила island_id = SUM(is_new_island) OVER (PARTITION BY patient_id ORDER BY start_date). Финальная агрегация сгруппирована по patient_id, island_id. Плюсы: выполнение в один проход с использованием стандартного синтаксиса ANSI SQL; сложность O(n log n), ограниченная сортировкой; неявно обрабатывает транзитивные перекрытия через текущий максимум. Минусы: требует тщательной обработки значений NULL в конечных датах (неопределенное покрытие) и семантики смежных интервалов (сливаются ли соприкасающиеся диапазоны).

Результат. Внедрение консолидировало 2.3 миллиона записей полисов в 890,000 непрерывных блоков покрытия за менее чем 12 секунд на стандартном оборудовании, заменив 45-минутную пакетную задачу с курсором. Запрос был инкапсулирован как представление, что позволило осуществлять проверки прав в реальном времени и устранить 99% дублирующих отклонений требований в следующем квартале.

WITH coverage_flags AS (
    SELECT patient_id, start_date, end_date,
           CASE 
             WHEN start_date > MAX(end_date) OVER (
                 PARTITION BY patient_id 
                 ORDER BY start_date 
                 ROWS BETWEEN UNBOUNDED PRECEDING AND 1 PRECEDING
             ) THEN 1 
             ELSE 0 
           END AS is_new_island
    FROM insurance_periods
),
islands AS (
    SELECT patient_id, start_date, end_date,
           SUM(is_new_island) OVER (
               PARTITION BY patient_id 
               ORDER BY start_date
           ) AS island_id
    FROM coverage_flags
)
SELECT patient_id, 
       MIN(start_date) AS consolidated_start,
       MAX(end_date) AS consolidated_end
FROM islands
GROUP BY patient_id, island_id;

Что часто упускают кандидаты

Как вы обрабатываете смежные интервалы, которые касаются концов, такие как [1 января-10] и [11 января-20], и какое изменение предиката требуется?

Кандидаты часто используют строгую неравенство start_date > previous_end_date, что рассматривает смежные интервалы как отдельные острова. Для медицинского покрытия или непрерывного планирования смежные периоды обычно представляют собой непрерывную услугу и должны объединяться. Предикат должен учитывать тип интервала: для закрытых интервалов (включительно начало и конец) используйте start_date > previous_end_date + INTERVAL '1' DAY. Для полуоткрытых интервалов [start, end) (где конец исключительный) условие start_date > previous_end_date естественно объединяет смежные, потому что 11 января равно 11 января. ANSI SQL поддерживает арифметику интервалов напрямую, так что решение требует CASE WHEN start_date > MAX(end_date) OVER (...) + INTERVAL '1' DAY THEN 1 ELSE 0 END.

Почему функция окна MAX(end_date) производит неправильные границы острова, когда входные данные содержат значения NULL, представляющие неопределенное покрытие?

ANSI SQL агрегатные оконные функции, такие как MAX(), игнорируют значения NULL в рамке. Если у полиса нет конечной даты (NULL, означающая "текущий"), MAX(end_date) по предыдущим строкам возвращает последнюю ненулевую дату, потенциально объединяя последующие интервалы, которые должны начать новый остров после неопределенного разрыва. Кандидаты должны осознавать, что NULL требуют специального обращения: либо отфильтровать их в предварительном CTE, либо использовать COALESCE(end_date, DATE '9999-12-31'), чтобы считать неопределенное покрытие расширяющимся до бесконечности. В альтернативу, следует рассматривать NULL как вынужденный разрыв, используя логику CASE WHEN end_date IS NULL THEN 0 ELSE 1 END, гарантируя, что следующая строка начнет новый остров.

Как бы вы расширили эту логику для многомерной упаковки, такой как консолидация интервалов отдельно для каждой комбинации patient_id и insurance_type без потери атомарности?

Многие кандидаты пытаются использовать подзапросы или самоприсоединения, которые вручную разбиты. Правильный подход использует оператор PARTITION BY в функциях окон ANSI SQL. Измените спецификацию рамки на PARTITION BY patient_id, insurance_type как в вычислениях MAX(end_date), так и в SUM(is_new_island). Это гарантирует, что текущий максимум и счетчик идентификаторов островов сбрасываются для каждой отдельной группы, поддерживая производительность O(n log n) по всем партиям. Неправильная разбивка приводит к "протечке", когда разрыв в таймлайне одного пациента неправильно вызывает новый остров для другого пациента, коррумпируя логику консолидации.