Odpowiedź na pytanie

Historia pytania

Wyzwanie dotyczące pakowania pojemników i akumulacji partii istnieje od dawna, wywodząc się z badań operacyjnych i optymalizacji logistyki. W ANSI SQL problem ten był historycznie nie do rozwiązania bez rozszerzeń proceduralnych takich jak PL/SQL lub T-SQL kursory, ponieważ standardowe operacje oparte na zbiorach nie mają zdolności odniesienia do "bieżących sum z resetowaniem" w ramach okna. Wprowadzenie rekurencyjnych CTE w SQL:1999 dostarczyło teoretyczne podstawy dla iteracyjnej akumulacji, chociaż wiele wdrożeń początkowo cierpiało na ograniczenia wydajności przy dużych zbiorach danych. Współczesne optymalizatory zapytań poprawiły plany rekurencyjnego wykonywania, umożliwiając efektywne rozwiązania dla kontroli partii produkcyjnych i grupowania transakcji finansowych. Ten wzór pozostaje fundamentalnym testem tłumaczenia algorytmów proceduralnych na logikę deklaratywną ANSI SQL.

Problem

Musimy przetworzyć uporządkowaną sekwencję elementów - każdy ma wagę lub wartość - i przypisać je do sekwencyjnych partii tak, aby całkowita suma danej partii nie przekraczała zdefiniowanej pojemności. Kiedy dodanie następnego elementu naruszyłoby próg, zaczyna się nowa partia. Wymaga to utrzymania bieżącego akumulatora, który jest resetowany warunkowo, operacji stanowej, która wymyka się prostemu agregacji funkcji okna, ponieważ granica resetu zależy od dynamicznej sumy wszystkich wcześniejszych elementów od ostatniego resetu, a nie tylko od stałego przesunięcia wiersza. Rozwiązanie musi radzić sobie z przypadkami brzegowymi, w tym z elementami przekraczającymi indywidualną pojemność (błąd lub partia z nadwyżką jednego elementu) oraz pustymi danymi wejściowymi, działając ściśle w ramach ANSI SQL bez specyficznych rozszerzeń proceduralnych dostawcy.

Rozwiązanie

Stosujemy rekurencyjne CTE, które przechodzi przez uporządkowaną sekwencję, przekazując dalej bieżący numer partii i skumulowaną wagę tej partii. Członek podstawowy inicjalizuje pierwszy element z partią 1 i jego wagą jako bieżącą sumą. Członek rekurencyjny dołącza do następnego sekwencyjnego elementu, obliczając, czy dodanie jego wagi przekracza pojemność; jeśli tak, zwiększa numer partii i resetuje akumulator do wagi nowego elementu, w przeciwnym razie zachowuje bieżącą partię i dodaje do akumulatora. Używamy ROW_NUMBER(), aby ustalić ściśle określoną kolejność przejścia i zapobiec nieskończonej rekurencji, filtrując według licznika głębokości lub dołączając tylko do kolejnych wierszy. W końcu wybieramy unikalne przypisania partii lub agregujemy wyniki zgodnie z wymogami.

WITH RECURSIVE ordered_items AS (
    SELECT 
        item_id, 
        weight, 
        ROW_NUMBER() OVER (ORDER BY sequence_order) AS rn
    FROM items
),
batch_accumulator AS (
    -- Początek: pierwszy element zaczyna partię 1
    SELECT 
        item_id, 
        weight, 
        rn, 
        1 AS batch_number, 
        weight AS current_batch_sum
    FROM ordered_items
    WHERE rn = 1
    
    UNION ALL
    
    -- Rekurencyjnie: przetwarzanie następnego elementu
    SELECT 
        oi.item_id,
        oi.weight,
        oi.rn,
        CASE 
            WHEN ba.current_batch_sum + oi.weight > 100 THEN ba.batch_number + 1 
            ELSE ba.batch_number 
        END AS batch_number,
        CASE 
            WHEN ba.current_batch_sum + oi.weight > 100 THEN oi.weight 
            ELSE ba.current_batch_sum + oi.weight 
        END AS current_batch_sum
    FROM batch_accumulator ba
    JOIN ordered_items oi ON oi.rn = ba.rn + 1
)
SELECT item_id, batch_number, weight
FROM batch_accumulator
ORDER BY rn;

Sytuacja z życia

Kontekst: Automatyzacja pakowania magazynowego dla centrum realizacji e-commerce.

Opis problemu: Zautomatyzowany system przenośników przetwarza zamówienia sekwencyjnie, ale musi grupować je w kontenery wysyłkowe z ściśle określonym limitem wagi 20 kg. Każde zamówienie ma zmienną wagę. System musi znać, jaki identyfikator kontenera wydrukować na każdej etykiecie wysyłkowej w miarę przybywania elementów na linię, bez zatrzymywania się, aby przetwarzać grupy. Wczesne próby wykorzystania kodu na poziomie aplikacji wprowadziły wąskie gardła i warunki wyścigu w okresach dużego ruchu.

Rozważane różne rozwiązania:

Rozwiązanie 1: Pakowanie na poziomie aplikacji z użyciem tabel tymczasowych. Aplikacja pobierałaby elementy, obliczała bieżące sumy w pętli i wstawiała partie do bazy danych. To podejście wprowadziło znaczną latencję sieciową i obciążenie transakcyjne, wymagając wielu okrążeń między serwerem aplikacyjnym a bazą danych. Skonfliktowało to również kontrolę współbieżności, gdy wiele linii pakujących działało jednocześnie, prowadząc do kontencji blokady tabeli.

Rozwiązanie 2: Czyste podejście funkcji okna z użyciem SUM() OVER (ORDER BY ...) z arytmetyką modulo. To próbowało tworzyć partie, dzieląc nieograniczoną bieżącą sumę przez pojemność. Jednak to błędnie przypisywało elementy do partii na podstawie absolutnej pozycji, a nie dynamicznego progu resetu, co skutkowało partiami, które na stałe przekraczały pojemność, gdy indywidualne elementy miały różne wagi. Podejście modulo działa tylko dla przedmiotów o stałym rozmiarze, co czyni je nieodpowiednim dla wymagań o zmiennej wadze.

Rozwiązanie 3: Rekurencyjne CTE wdrożone w ramach ANSI SQL. To rozwiązanie wykonuje wszystkie obliczenia po stronie serwera w jednej egzekucji zapytania, eliminując obciążenie sieciowe. Prawidłowo radzi sobie ze stanową akumulacją i logiką resetu, przetwarzając iteracyjnie uporządkowaną strumień. Chociaż istnieją ograniczenia głębokości rekurencji w niektórych konfiguracjach baz danych, ograniczenia operacyjne magazynu (partie rzadko przekraczające 100 elementów) zapewniły, że nie przekroczy to limitów platformy. To podejście zostało wybrane za atomowość, spójność i eliminację zarządzania stanem aplikacji.

Wynik: Zapytanie pomyślnie przetwarzało 50 000 elementów na godzinę z latencją poniżej sekundy, prawidłowo przypisując identyfikatory kontenerów przy zachowaniu ograniczeń wagowych. Rozwiązanie wyeliminowało warunki wyścigu i obniżyło koszty infrastruktury poprzez usunięcie potrzeby osobnej mikrousługi do pakowania.

Co często umykają kandydatom

1. Jak prawidłowo obsłużyć pierwszy element, gdy samodzielnie przekracza pojemność partii?

Wielu kandydatów zakłada, że wszystkie elementy mieszczą się w pojemności. Kiedy waga pojedynczego elementu przekracza próg partii, logika rekurencyjna musi albo zgłosić błąd, albo umieścić go w izolowanej partii z nadwyżką. Prawidłowa implementacja dodaje CASE w członie podstawowym, aby sprawdzić początkową pojemność, oraz w członie rekurencyjnym, aby wymusić nową partię, gdy oi.weight > capacity, niezależnie od bieżącej sumy. Bez tego system może próbować dodać zbyt duże elementy do istniejących partii lub stworzyć nieskończoną rekurencję, próbując podzielić elementy.

2. Dlaczego łączenie na rn = rn + 1 wiąże się z ryzykiem nieskończonej rekurencji i jak temu zapobiec?

Kandydaci często używają oi.rn = ba.rn + 1, zakładając ścisłą sekwencję, ale jeśli dane źródłowe zawierają luki lub gdy sortowanie ROW_NUMBER() produkuje duplikaty z powodu nieunikalnych kluczy sortujących, połączenie może stworzyć cykle lub pominąć wiersze. Dodatkowo, jeśli dane zawierają odniesienia cykliczne w definicji sekwencji, rekurencja nigdy się nie kończy. Rozwiązanie wymaga zapewnienia, że sequence_order jest deterministyczne i unikalne oraz dodania kolumny licznika głębokości, która zwiększa się z każdym poziomem rekurencji, w tym dodania ograniczenia CHECK lub klauzuli WHERE depth < 1000, aby zapobiec runaway queries w przypadku uszkodzenia danych.

3. Jakie są implikacje wydajności głębokości rekurencji w porównaniu do szerokości w tym algorytmie?

Młodsi programiści często traktują rekurencyjne CTE jak iteracyjne pętle, nie zdając sobie sprawy, że każdy poziom rekurencji przetwarza wszystkie odpowiednie wiersze na tym poziomie (szerokość). Przeoczają, że bez odpowiedniego indeksowania na rn, połączenie oi.rn = ba.rn + 1 prowadzi do operacji pętli zagnieżdżonych, które skaluje się kwadratowo. Prawidłowe podejście wymaga zapewnienia, że kolumna sekwencyjna jest indeksowana i zrozumienia, że rekurencja ANSI SQL materializuje wyniki pośrednie, co potencjalnie zużywa znaczną ilość pamięci dla dużych partii. Kandydaci powinni wspomnieć o optymalizacji przez przetwarzanie w mniejszych fragmentach lub użycie iteracyjnego przetwarzania partii dla milionów wierszy zamiast czystej rekurencji.