Ответ на вопрос

История вопроса

Этот вопрос возник в результате эволюции стандартов SQL от SQL-92 до SQL:2003, когда оконные функции были официально введены в стандарт. До этого развития разработчики полагались на процедурные курсоры или вычислительно затратные самосоединения для решения задач, связанных с последовательностями. Паттерн пробелов и островов представляет собой смену парадигмы от процедурных алгоритмов к декларативной логике, основанной на множестве, которая определяет результирующие наборы, а не шаги обработки.

Проблема

При работе с таблицами, содержащими последовательные значения, такие как временные метки, идентификаторы или даты, необходимо группировать последовательные значения в смежные блоки (острова), отличая их от разрывов (пробелов). Основная проблема возникает из-за того, что таблицы ANSI SQL представляют собой неупорядоченные математические множества, в то время как определение последовательностей требует явного упорядочивания. Традиционные операторы GROUP BY агрегируют похожие значения, но разрушают последовательные связи, необходимые для определения смежности.

Решение

Воспользуйтесь арифметической разницей между ROW_NUMBER() по всему набору данных и ROW_NUMBER() с разделением по ключу группировки, чтобы сгенерировать постоянный идентификатор острова. Эта техника создает идентичные вычисленные значения для всех строк в одной смежной последовательности, позволяя стандартной агрегации восстановить острова.

WITH numbered AS (
  SELECT 
    event_date,
    ROW_NUMBER() OVER (ORDER BY event_date) AS rn_global,
    event_date - ROW_NUMBER() OVER (ORDER BY event_date) AS island_grp
  FROM events
)
SELECT 
  MIN(event_date) AS island_start,
  MAX(event_date) AS island_end,
  COUNT(*) AS consecutive_days
FROM numbered
GROUP BY island_grp;

Ситуация из жизни

Команда аналитиков розничной торговли нуждалась в восстановлении клиентских сессий покупок из данных о кликах, хранящихся в PostgreSQL. Система фиксировала миллионы событий, содержащих user_id и event_time, но не имела предрассчитанных идентификаторов сессий. Бизнес-требования определяли сессию как последовательность событий, где никакой разрыв не превышал 30 минут бездействия.

Первый подход рассматривал использование самосоединения с коррелированным подзапросом для нахождения непосредственного предшественника каждого события. Этот метод требовал O(n²) сравнений строк, что вызывало таймауты запросов при обработке ежедневных партий, превышающих пять миллионов строк, хотя он сохранял совместимость с устаревшими системами SQL-92, которые не имели современных оконных функций.

Команда впоследствии оценила курсоры pl/pgSQL для построчной обработки событий, сохраняя состояние сессии в процедурных переменных. Хотя этот подход предлагал интуитивную логику, знакомую разработчикам приложений, он отказался от принципов обработки на основе множеств и требовал более четырех часов для завершения ежедневных партий, создавая неприемлемую задержку ETL и значительные проблемы блокировки таблиц.

Выбранное решение использовало исключительно оконные функции ANSI SQL. Применяя LAG() для захвата предыдущей временной метки для каждого пользователя и рассчитывая временные интервалы, команда определила границы сессии, где разрывы превышали 30 минут. Условная бегущая сумма сгенерировала уникальные идентификаторы сессий, что позволило выполнить агрегацию на основе множеств. Этот метод обрабатывал весь набор данных за восемь минут, масштабируюсь линейно с объемом, и оставался переносимым между Oracle, SQL Server и PostgreSQL без изменений синтаксиса, специфичных для поставщика.

Что кандидаты часто упускают

Почему я не могу просто округлить временные метки до часа и группировать по этому значению для нахождения сессий?

Округление временных меток с помощью DATE_TRUNC или подобных функций создает искусственные границы по часам, а не относительным временным интервалам. Два события, происходящие в 10:55 и 11:05, будут разделены на разные группы, хотя находятся всего в 10 минутах друг от друга, в то время как события в 10:01 и 10:59 будут объединены, несмотря на 58-минутный разрыв. Настоящее обнаружение сессий требует вычисления интервала от непосредственного предшественника каждого события, а не согласования с календарными границами.

Как значения NULL в столбце упорядочивания влияют на обнаружение островов с использованием LAG или LEAD?

LAG и LEAD возвращают NULL для первых и последних строк каждой партиции соответственно. При вычитании задержанной временной метки из текущей временной метки для расчета разрывов арифметика с NULL приводит к NULL результатам, что может вызвать исчезновение целых островов из агрегаций. Вы должны использовать необязательный параметр default в LAG (например, LAG(event_time, 1, event_time) OVER (...)) или явно обрабатывать NULL с помощью COALESCE, чтобы предотвратить фрагментацию островов на границах партиций.

Что меняется, когда нужно обнаруживать острова по нескольким категориям одновременно, таким как по пользователю или устройству?

Кандидаты часто упускают оператор PARTITION BY в оконных функциях, вычисляя ROW_NUMBER глобально по всей таблице, а не по категории. Без разбиения по user_id или эквивалентным столбцам группировки, острова от разных пользователей неверно объединяются, когда их последовательности временно совпадают. Каждая оконная функция, участвующая в вычислении островов, должна включать PARTITION BY user_id, чтобы арифметика сбрасывалась для каждого отдельного объекта, поддерживая независимое обнаружение островов для каждой партиции.