Ответ на вопрос

История вопроса

Задача оптимизации упаковки и накопления партий предшествует реляционным базам данных и восходит к исследованиям операций и оптимизации логистики. В ANSI SQL эта проблема исторически была неразрешимой без процедурных расширений, таких как PL/SQL или T-SQL, поскольку стандартные операции на множествах не обладают возможностью ссылаться на "текущие суммы с сбросом" в рамках окна. Введение рекурсивных CTE в SQL:1999 предоставило теоретическую основу для итеративного накопления, хотя многие реализации изначально страдали от проблем с производительностью на больших наборах данных. Современные оптимизаторы запросов улучшили планы рекурсивного выполнения, что позволило эффективно решать задачи управления партиями в производстве и группировки финансовых транзакций. Эта схема остается основным тестом для перевода процедурных алгоритмов в декларативную логику ANSI SQL.

Проблема

Нам необходимо обработать упорядоченную последовательность элементов — каждый из которых имеет вес или значение — и назначить их в последовательные партии таким образом, чтобы совокупный вес каждой партии не превышал предопределенной емкости. При добавлении следующего элемента, превышающего порог, начинается новая партия. Это требует поддержания текущего накопителя, который сбрасывается условно, что является состоянием, которое не поддается простой агрегации оконных функций, поскольку граница сброса зависит от динамической суммы всех предыдущих элементов с момента последнего сброса, а не просто от фиксированного смещения строки. Решение должно учитывать крайние случаи, включая элементы, превышающие индивидуальную емкость (ошибка или партия с переполнением одного элемента), и пустые входные данные, действуя строго в рамках ANSI SQL без специфических процедурных расширений.

Решение

Мы используем рекурсивный CTE, который проходит через упорядоченную последовательность, перенося текущий номер партии и накопленный вес этой партии. Якорный элемент инициализирует первый элемент с партией 1 и его весом в качестве текущей суммы. Рекурсивный элемент объединяется с следующим последовательным элементом, вычисляя, превышает ли добавление его веса емкость; если да, то увеличивается номер партии, и накопитель сбрасывается на вес нового элемента; в противном случае он сохраняет текущую партию и добавляет к накопителю. Мы используем ROW_NUMBER(), чтобы установить строгий порядок обхода и предотвратить бесконечную рекурсию, фильтруя с помощью счетчика глубины или присоединяясь только к последующим строкам. В конечном итоге мы выбираем уникальные назначения партий или агрегируем результаты по мере необходимости.

WITH RECURSIVE ordered_items AS (
    SELECT 
        item_id, 
        weight, 
        ROW_NUMBER() OVER (ORDER BY sequence_order) AS rn
    FROM items
),
batch_accumulator AS (
    -- Якорь: первый элемент начинает партию 1
    SELECT 
        item_id, 
        weight, 
        rn, 
        1 AS batch_number, 
        weight AS current_batch_sum
    FROM ordered_items
    WHERE rn = 1
    
    UNION ALL
    
    -- Рекурсивное: обработка следующего элемента
    SELECT 
        oi.item_id,
        oi.weight,
        oi.rn,
        CASE 
            WHEN ba.current_batch_sum + oi.weight > 100 THEN ba.batch_number + 1 
            ELSE ba.batch_number 
        END AS batch_number,
        CASE 
            WHEN ba.current_batch_sum + oi.weight > 100 THEN oi.weight 
            ELSE ba.current_batch_sum + oi.weight 
        END AS current_batch_sum
    FROM batch_accumulator ba
    JOIN ordered_items oi ON oi.rn = ba.rn + 1
)
SELECT item_id, batch_number, weight
FROM batch_accumulator
ORDER BY rn;

Жизненная ситуация

Контекст: Автоматизация упаковки на складе для центра выполнения заказов в электронной коммерции.

Описание проблемы: Автоматизированная конвейерная система обрабатывает заказы последовательно, но должна группировать их в контейнеры для доставки с строгим ограничением по весу в 20 кг. Каждый заказ имеет переменный вес. Система должна знать, какой идентификатор контейнера напечатать на каждой наклейке для доставки по мере поступления элементов на конвейер, не останавливаясь на обработку групп. Первые попытки, использующие код на уровне приложения, создавали узкие места и условия гонки в периоды высокой нагрузки.

Рассмотренные альтернативные решения:

Решение 1: Обработка партий на уровне приложения с использованием временных таблиц. Приложение извлекало бы элементы, вычисляло текущие суммы в цикле и вставляло бы партии в базу данных. Этот подход привел к значительной задержке сети и накладным расходам на транзакции, требуя нескольких раундов сообщений между сервером приложения и базой данных. Это также усложняло контроль конкуренции, когда несколько потоков упаковки работали одновременно, приводя к конфликтам блокировок таблиц.

Решение 2: Чистый подход с оконной функцией, использующей SUM() OVER (ORDER BY ...) с использованием арифметики по модулю. Это пыталось создать партии, деля неограниченную текущую сумму на емкость. Однако это неправильно назначает элементы в партии на основе абсолютной позиции, а не динамического порога сброса, что приводит к партиям, которые постоянно превышают емкость, когда отдельные элементы имеют различный вес. Подход с использованием модуля работает только для элементов фиксированного размера, что делает его непригодным для требований с переменным весом.

Решение 3: Рекурсивный CTE, реализованный в ANSI SQL. Это решение выполняет все вычисления на стороне сервера за одну операцию запроса, устраняя накладные расходы на сеть. Оно корректно обрабатывает логику накопления состояния и сброса, итеративно обрабатывая упорядоченный поток. Хотя в некоторых конфигурациях баз данных существуют ограничения по глубине рекурсии, операционные ограничения склада (партии редко превышают 100 элементов) гарантировали, что это не приведет к нарушению лимитов платформы. Этот подход был выбран за его атомарность, согласованность и исключение управления состоянием приложения.

Результат: Запрос успешно обрабатывал 50,000 элементов в час с задержкой менее одной секунды, правильно назначая идентификаторы контейнеров, соблюдая ограничения по весу. Решение исключило условия гонки и снизило инфраструктурные затраты, устранив необходимость в отдельной микрослужбе для обработки партий.

Что кандидаты часто упускают

1. Как вы правильно обрабатываете первый элемент, когда он индивидуально превышает емкость партии?

Многие кандидаты предполагают, что все элементы помещаются в емкость. Когда вес отдельного элемента превышает порог партии, рекурсивная логика должна либо отметить ошибку, либо поместить его в отдельную партию переполнения. Правильная реализация добавляет оператор CASE в якорный элемент для проверки начальной емкости и в рекурсивном члене, чтобы заставить начать новую партию, когда oi.weight > capacity, независимо от текущей суммы. Без этого система может попытаться добавить перегруженные элементы в существующие партии или создать бесконечную рекурсию, пытаясь разделить элементы.

2. Почему присоединение по rn = rn + 1 рискует бесконечной рекурсией, и как вы этого избегаете?

Кандидаты часто используют oi.rn = ba.rn + 1, предполагая строгую последовательность, но если исходные данные содержат пропуски или сортировка по ROW_NUMBER() приводит к дубликатам из-за неуникальных ключей сортировки, соединение может создать циклы или пропустить строки. Кроме того, если данные содержат циклические ссылки в определении последовательности, рекурсия никогда не завершается. Решение требует обеспечения детерминированности и уникальности sequence_order, а также добавления столбца счетчика глубины, который увеличивается с каждым уровнем рекурсии, включая ограничение CHECK или условие WHERE depth < 1000, чтобы предотвратить проблемные запросы при повреждении данных.

3. Каковы последствия для производительности глубины рекурсии по сравнению с шириной в этом алгоритме?

Младшие разработчики часто рассматривают рекурсивные CTE как итеративные циклы, не осознавая, что каждый уровень рекурсии обрабатывает все подходящие строки на этой глубине (в ширину). Они упускают из виду, что без надлежащей индексации по rn соединение oi.rn = ba.rn + 1 приводит к вложенным операциям, которые масштабируются квадратично. Правильный подход требует обеспечения индексации столбца последовательности и понимания того, что рекурсия ANSI SQL материализует промежуточные результаты, потенциально потребляя значительное количество памяти для больших партий. Кандидаты должны упомянуть об оптимизации, обрабатывая данные мелкими частями или используя итеративную обработку партий для миллионов строк вместо чистой рекурсии.