Ответ на вопрос.

История вопроса.

Иерархические модели данных традиционно используют списки смежности или вложенные множества для представления деревообразных структур. Хотя списки смежности минимизируют хранение и упрощают вставки, аналитическая отчетность часто требует "материализованных путей" (например, "Корень/Категория/Подкатегория"), чтобы обеспечить эффективную фильтрацию с использованием префиксных шаблонов. До SQL:1999 упрощение этих иерархий требовало процедурных курсоров или рекурсии на стороне приложения. Введение рекурсивных выражений общих таблиц (CTE) в стандарт ANSI SQL позволило декларировать обход, но построение детерминированных, упорядоченных путей с ограничениями по глубине вызывает сложности, касающиеся завершения рекурсии и стабильности сортировки.

Проблема.

Вы должны преобразовать рекурсивный список смежности в денормализованный формат, где каждая строка содержит полное родословное происхождение в виде ограниченной строки (например, "/A/B/C"). Решение должно соблюдать три ограничения: (1) братья на каждом уровне должны появляться в лексикографическом порядке внутри пути, (2) обход не должен превышать указанную максимальную глубину, чтобы предотвратить runaway-запросы на неправильно сформированных данных, и (3) реализация должна использовать строго синтаксис ANSI SQL без проприетарных расширений иерархии.

Решение.

Решение использует двухступенчатый подход CTE. Сначала не рекурсивный CTE рассчитывает порядковую позицию каждого узла среди его братьев с использованием оконной функции. Эта предварительная обработка необходима, потому что ANSI SQL запрещает оконные функции в рекурсивном члене CTE, чтобы обеспечить монотонное завершение. Затем рекурсивный CTE обходит дерево, конкатенируя имена узлов и предварительно рассчитанные ключи сортировки, одновременно применяя ограничение по глубине и необязательную проверку циклов в предложении WHERE.

WITH RECURSIVE 
OrderedNodes AS (
  -- Этап 1: Назначение детерминированного порядка братьям
  SELECT 
    node_id, 
    parent_id, 
    node_name,
    ROW_NUMBER() OVER (PARTITION BY parent_id ORDER BY node_name, node_id) AS sibling_order
  FROM taxonomy
),
PathBuilder AS (
  -- Основной член: Инициализация корневых узлов
  SELECT 
    node_id,
    node_name,
    1 AS depth,
    CAST(node_name AS VARCHAR(1000)) AS materialized_path,
    CAST(sibling_order AS VARCHAR(100)) AS sort_key
  FROM OrderedNodes
  WHERE parent_id IS NULL
  
  UNION ALL
  
  -- Рекурсивный член: Добавление детей
  SELECT 
    c.node_id,
    c.node_name,
    p.depth + 1,
    p.materialized_path || '/' || c.node_name,
    p.sort_key || '.' || CAST(c.sibling_order AS VARCHAR(100))
  FROM OrderedNodes c
  INNER JOIN PathBuilder p ON c.parent_id = p.node_id
  WHERE p.depth < 5  -- Строгое ограничение по глубине
    AND p.materialized_path NOT LIKE '%/' || c.node_name || '%'  -- Защита от циклов
)
SELECT 
  node_id, 
  materialized_path,
  depth
FROM PathBuilder
ORDER BY sort_key;

Ситуация из жизни

Описание проблемы.

Глобальная платформа электронной коммерции поддерживает таксономию продуктов с более чем 100,000 категорий в базе данных PostgreSQL (в режиме, соответствующем ANSI SQL). Маркетинговой команде требуется ежедневный экспорт CSV для внешней рекламной платформы, которая ожидает полностью квалифицированные пути категорий (например, "Электроника/Компьютеры/Ноутбуки") с строго алфавитным порядком на каждом уровне для обеспечения последовательной целевой аудитории. Существующее решение использовало скрипт на Python, который выполнял N+1 запросов, что приводило к 20-минутному времени выполнения и частым таймаутам.

Рассмотренные альтернативные решения.

Решение A: Кэширование на стороне приложения с запланированным восстановлением. Команда рассматривала возможность материализации путей в кэше Redis через фоновую задачу каждые 6 часов. Плюсы включали простую реализацию на Python и сниженную нагрузку на базу данных в часы пик. Однако минусы заключались в значительной устарелости данных (до 6 часов), сложности недействительности кэша при изменении родительских категорий и чрезмерном потреблении памяти для полного дерева.

Решение B: Представление базы данных с использованием рекурсивного CTE. Этот подход создает представление, которое вычисляет пути по запросу, используя шаблон рекурсивного CTE ANSI SQL. Плюсы включали гарантированную свежесть данных (результаты в реальном времени), единственный источник правды и использование оптимизатора запросов базы данных для соединений. Минусы включали интенсивность CPU на сервере базы данных и риск бесконечной рекурсии, если данные содержат циклические ссылки (например, категория случайно связана со своим собственным потомком).

Решение C: Колонка с материализированным содержимым, поддерживаемая триггерами. Это добавило бы колонку materialized_path в таблицу и обновляло бы ее через триггеры при вставке, обновлении или удалении. Плюсы включали чрезвычайно быструю производительность чтения (простой индексированный проход). Минусы включали значительные затраты на запись, сложную логику триггеров для обработки перемещений или переименований поддеревьев и трудности в поддержании ограничения по лексикографическому порядку, когда изменяются имена братьев.

Выбранное решение и результат.

Команда выбрала Решение B (Представление на основе рекурсивного CTE), поскольку рабочая нагрузка, ориентированная на чтение (100:1 отношение чтения к записи), выиграла от вычисления по запросу без нагрузки по обслуживанию триггеров. Чтобы уменьшить риск цикла, они реализовали проверку образца LIKE в предложении WHERE и добавили ограничение глубины в 5 уровней на основе бизнес-правил. Они также создали составной индекс на (parent_id, node_name), чтобы оптимизировать сортировку оконной функции в анкере CTE. Результат позволил сократить время экспорта с 20 минут до 8 секунд, одновременно обнаружив и изолировав 3 циклические ссылки в устаревших данных в процессе развертывания.

Что кандидаты часто упускают

Почему агрегирующие или оконные функции не могут появляться в рекурсивном члене CTE, и как это влияет на упорядочение братьев?

Стандарты ANSI SQL ограничивают рекурсивный член от содержащих агрегирующих функций (таких как SUM) или оконных функций (таких как ROW_NUMBER), чтобы гарантировать монотонность рекурсивного запроса и обеспечить достижение фиксированной точки. Оконные функции требуют материализации и разбиения всего рабочего набора, что может нарушить семантику потоков, необходимую для завершения рекурсии, и может привести к недетерминированности. Следовательно, вы не можете динамически рассчитывать упорядочение братьев внутри рекурсии. Правильный подход состоит в предварительном вычислении порядковых позиций в отдельном нерекурсивном CTE (как показано в решении), а затем ссылаться на эту вычисленную колонку в рекурсивном соединении. Кандидаты часто пытаются поместить ROW_NUMBER() прямо в список SELECT рекурсивного запроса, что приводит к синтаксическим ошибкам или непредсказуемым планам выполнения.

Как вы обрабатываете циклические ссылки в иерархии без проприетарного синтаксиса обнаружения циклов, такого как CYCLE в PostgreSQL?

Чистый ANSI SQL не предоставляет встроенного механизма обнаружения CYCLE (хотя SQL:2023 ввел CYCLE и SEARCH, они еще не широко реализованы). Чтобы предотвратить бесконечную рекурсию, вы должны вручную отслеживать посещенные узлы. Стандартная переносимая техника включает накопление ограниченной строки идентификаторов посещенных узлов (или массива, если поддерживается) и проверку, существует ли текущий node_id уже в этом накопителе, прежде чем продолжать. Использование предиката, такого как WHERE p.materialized_path NOT LIKE '%/' || c.node_id || '%', эффективно обрезает циклы, хотя этот метод предполагает разумные ограничения глубины, чтобы предотвратить переполнение длины строки. В качестве альтернативы можно использовать битовую строку или хэшированный путь для больших наборов данных.

Что обеспечивает детерминированное упорядочение, когда два узла-соседа имеют одинаковые имена, и почему тотальный порядок критически важен для материализованных путей?

Детерминизм зависит от установления тотального порядка среди братьев. Если оконная функция использует только ORDER BY node_name, и два брата имеют одно и то же имя, база данных может вернуть их в любом порядке (определяемом реализацией), что приводит к недетерминированным строкам путей в различных выполнения запроса или версиях базы данных. Этот недетерминированность нарушает кэширование результатов запросов, усложняет тестирование и может вызвать "флаттинг" данных в системах downstream. Решение состоит в том, чтобы добавить уникальный дополнительный критерием, обычно первичный ключ node_id, в предложение ORDER BY: ORDER BY node_name, node_id. Это гарантирует, что у каждого брата есть уникальная порядковая позиция, что обеспечивает воспроизводимость и стабильность материализованного пути и вспомогательного sort_key.