질문에 대한 답변

질문의 역사

그래프 탐색 알고리즘은 전통적으로 Python 또는 Java와 같은 애플리케이션 언어의 영역에 속하며, NetworkX 또는 JGraphT와 같은 라이브러리를 활용해왔다. 그러나 SQL:1999 표준에서 재귀 공통 테이블 표현식(CTE)의 출현 덕분에, SQL은 계층적이고 재귀적인 쿼리를 위한 튜링 완전한 기능을 갖추게 되었다. 이 발전은 ANSI SQL을 단순한 데이터 검색 언어에서 데이터베이스 레이어 내에서 복잡한 계산 기하학 및 그래프 이론 문제를 해결할 수 있는 플랫폼으로 변화시켜 데이터 이동을 최소화하고 집합 기반 최적화를 활용하게 했다.

문제

비가중 그래프에서 최단 경로를 결정하는 것은 원점에서 목표 노드 간의 최소 엣지 수를 찾는 것을 요구한다. 트리 구조와 달리, 그래프는 사이클을 포함하고 있어 무한 재귀를 방지하기 위한 사이클 감지가 필요하다. 문제는 절차적이고 큐 기반인 너비 우선 탐색(BFS) 로직을 명시적인 루프 구조나 변경 가능한 변수가 없는 선언적 집합 기반 패러다임으로 구현하는 데 있다. 이 과정에서 Oracle's CONNECT BY 또는 SQL Server의 절차적 옵션과 같은 독점적인 확장을 금지하는 ANSI SQL 문법을 엄격히 준수해야 한다.

해결책

해결책은 재귀 CTE를 사용하여 BFS의 레벨 탐색을 시뮬레이션 한다. 앵커 멤버는 출발 노드에서 검색을 초기화한다. 재귀 멤버는 엣지 테이블과 조인하여 인접 노드를 발견하고 경로 길이 카운터를 증가시킨다. 중요한 것은 사이클을 감지하고 노드 재방문을 방지하기 위해 방문한 경로 추적 문자열이 유지된다. 재귀는 목표에 도달하거나 새로운 노드가 발견되지 않을 때 종료된다. ANSI SQL 표준은 CYCLE 절을 사용한 명시적인 사이클 감지를 지원하거나 CTE 내에서 수동으로 추적할 수 있다.

WITH RECURSIVE path_finder (
    current_node, 
    path_length, 
    visited_path
) AS (
    -- 앵커: 출발 노드에서 시작
    SELECT 
        source_node, 
        0, 
        CAST(source_node AS VARCHAR(1000))
    FROM edges
    WHERE source_node = 'A'
    
    UNION ALL
    
    -- 재귀: 이웃 탐색
    SELECT 
        e.target_node,
        pf.path_length + 1,
        CAST(pf.visited_path || '->' || e.target_node AS VARCHAR(1000))
    FROM path_finder pf
    JOIN edges e ON pf.current_node = e.source_node
    WHERE POSITION(e.target_node IN pf.visited_path) = 0
      AND pf.path_length < 100  -- 안전 제한
)
SELECT path_length, visited_path
FROM path_finder
WHERE current_node = 'Z'
ORDER BY path_length
FETCH FIRST 1 ROW ONLY;

실제 상황

문제 설명

물류 회사는 저장소 구역 간의 허용 경로를 추적하는 관계형 데이터베이스를 통해 창고 로봇 내비게이션 시스템을 관리하고 있었다. 운영팀은 배터리 소비를 최소화하기 위해 두 구역 간의 최적(최단) 경로를 결정하기 위한 실시간 쿼리가 필요했다. 제약 조건은 엄격했다: 이 솔루션은 외부 마이크로서비스나 그래프 데이터베이스(Neo4j)를 배포하지 않고, 기존 PostgreSQL 클러스터에서 엄격한 ANSI SQL로 실행되어야 했다. 이는 지연 시간 요구사항과 아키텍처 단순성 규정을 준수하기 위한 것이었다.

고려된 다른 솔루션

솔루션 1: 애플리케이션 계층 BFS와 Python

팀은 엣지 데이터를 Python 서비스로 내보내 NetworkX를 사용하여 최단 경로를 계산하는 것을 고려했다. 이는 풍부한 알고리즘 라이브러리와 간단한 구현을 제공했지만, 데이터베이스와 애플리케이션 서버 간에 상당한 네트워크 지연을 초래했다. 또한 데이터 복제를 요구하여 단일 진실의 원칙을 위반했으며, 네트워크 분할 동안 잠재적 오류 지점을 생성했다.

솔루션 2: 절차적 SQL을 사용한 저장 프로시저

그들은 PL/pgSQL( PostgreSQL의 절차적 언어)을 사용하여 변경 가능한 변수와 루프를 가진 큐 기반 BFS를 구현하는 저장 프로시저를 작성하는 것을 평가했다. 이는 네트워크 지연을 제거했지만 이식성과 ANSI SQL 표준 요구를 위반하며, PostgreSQL 전용 구문에 묶이게 되었다. 이 접근법은 그래프 탐색의 엣지 케이스에 대한 복잡한 예외 처리가 필요했다.

솔루션 3: 순수 ANSI SQL의 재귀 CTE

선택된 접근법은 경로 추적이 있는 레벨 제한 BFS를 구현하는 재귀 CTE를 활용했다. 이는 SQL 엔진 내에서 완전히 실행되어 쿼리 최적화기의 조인 병렬화 능력을 활용하였다. 이 접근 방식은 데이터베이스 이식성을 위한 엄격한 ANSI 준수를 보장하고, 네트워크 오버헤드를 제거하며, 집합 기반 성능 최적화를 활용했다.

선택된 솔루션과 이유

팀은 기존 데이터베이스 클러스터 내에서 작동하는 엄격한 아키텍처 요구 사항을 충족하며 공급업체 독립성을 유지하는 솔루션 3을 선택했다. ANSI SQL 접근법은 추가적인 인프라 필요성을 없애고 10,000개 이상의 엣지가 있는 그래프에서 밀리초 미만의 쿼리 성능을 달성했다. 이 솔루션은 로봇 배치 API의 JDBC 호출에 직접 포함될 수 있도록 하여 중간 레이어 없이 가능하게 했다.

결과

이 구현은 초당 500개 이상의 동시 로봇 요청에 대해 최단 경로를 성공적으로 계산하며 평균 응답 시간을 5ms 미만으로 유지했다. 물류 회사는 나중에 데이터베이스를 PostgreSQL에서 EnterpriseDB로 마이그레이션했으며 쿼리 로직을 수정하지 않고도 이식성의 이점을 검증했다. 이 솔루션은 조직 내 다른 그래프 기반 쿼리의 템플릿이 되었으며, 공급망 네트워크의 순환 의존성 감지를 포함하였다.

후보자들이 자주 놓치는 것

SQL 표준 버전이 CYCLE 절을 지원하지 않을 때, 사이클 그래프에서 무한 재귀를 어떻게 방지하는가?

후보자들은 종종 구형 ANSI SQL 구현이 SEARCH 및 CYCLE 절을 지원하지 않을 수 있다는 점을 간과한다. 해결책은 재귀 CTE 내에서 방문 완료된 노드의 구분된 문자열 또는 배열을 유지하여 수동으로 사이클을 감지하는 것이다. 새 노드를 추가하기 전, 쿼리는 예상 노드가 누적된 경로 문자열에 이미 존재하지 않는지 확인해야 하며, 이는 POSITION과 같은 문자열 함수를 사용하여 수행해야 한다. 이는 둥글며 오탐지를 방지하기 위해 구분 기호 문자를 신중하게 다루어야 한다. 또한 후보자들은 깊이 제한자를 포함하는 것을 자주 잊고, 깊은 연결 그래프에서 무한 재귀를 방지하는 안전 장치로 변형된다.

단순 재귀 조인으로 작성하면 최단 경로 접근법이 왜 잠재적으로 최적이 아닌 결과를 반환할 수 있는가?

많은 후보자들이 재귀 단계를 단순 조인으로 구현하면서 ANSI SQL 재귀 CTE가 기본적으로 깊이 우선 탐색(DFS)를 수행한다는 점을 이해하지 못한다. 비가중 그래프의 최단 경로 문제에서, BFS는 최초로 발견된 솔루션이 최적임을 보장하지만, DFS는 더 긴 경로를 먼저 찾을 수 있다. 놓치는 중요한 세부 사항은 재귀 깊이를 제한하거나 첫 번째 일치에서 멈추기 위한 레벨 카운터를 사용하지 않으면 쿼리가 불필요하게 기하급수적으로 성장하는 경로를 탐색할 수 있다는 것이다.

같은 노드에 여러 경로로 도달할 때 재귀 CTE에서 성능 저하를 어떻게 처리하는가?

후보자들은 종종 SQL 내에서 중복 경로 제거 개념을 미처 생각하지 못한다. 적절한 처리 없이 재귀 CTE는 중간 노드에 대한 가능한 모든 경로에 대해 개별 행을 생성하여 결과 집합의 기하급수적 증가를 초래한다. 이 해결책은 노드를 경로 길이에 따라 파티션화한 ROW_NUMBER()와 같은 윈도우 함수를 사용하여 각 반복에서 이미 방문한 노드에 대한 최단 경로만 유지하도록 요구한다. 이 최적화는 중간 결과 집합이 폭발하는 것을 방지하며, 긴 경로를 즉시 버린다.

비가중 방향 그래프에서 두 노드 간 최단 경로를 결정하기 위한 접근 방식은 무엇인가? 엣지 인접성으로 표현하고, 절차적 확장을 사용하지 않고 엄격히 ANSI SQL 재귀 CTE를 사용하여 설명하라.