질문에 대한 답변

아키텍처는 애플리케이션 코드를 수정하지 않고 데이터 파이프라인을 계측하는 하이브리드 메타데이터 수집 계층을 중심으로 구성됩니다. 변경 데이터 캡처(CDC) 에이전트는 Apache Kafka 주제 스키마, Apache Spark 실행 계획 및 레거시 Oracle 데이터베이스의 JDBC 쿼리 로그를 가로채어, 지역 Apache Pulsar 버스에 구조화된 계보 이벤트를 방출합니다.

Stream Processing 계층은 Apache Flink를 사용하여 이러한 이벤트를 구문 분석하여 JanusGraph에서 동적 속성 그래프를 구성합니다. 여기서 정점은 데이터 세트(테이블, 주제, 파일)를 나타내고, 가장자리에서는 열 세분화의 카디널리티를 포함한 변환 논리를 캡처합니다. GDPR 자동화를 위해 시스템은 PII 서명을 그래프 가장자리에 매핑하는 반전 색인(inverted index)을 사용하여 Apache Lucene을 유지합니다.

삭제 요청이 들어오면, 사가 오케스트레이터는 그래프를 탐색하여 영향을 받는 데이터 세트를 확인하고, 보상하는 Delta Lake 진공 명령 및 Kafka 무덤 이벤트를 생성하며, 이를 Apache Airflow 워크플로우를 통해 정확한 한번 실행(semantics)으로 실행합니다. 스키마 영향 예측은 역사적 계보 패턴에 대해 훈련된 **그래프 신경망(GNN)**을 활용하여 제안된 Avro 스키마 수정의 폭발 반경을 시뮬레이션하고, 서브 초 대기 시간을 위해 Redis 캐싱을 통해 그래프를 Gremlin으로 쿼리합니다.

실생활의 상황

EU, APAC, US 지역에서 활동하는 다국적 금융 기관은 데이터 메시(Data Mesh) 마이그레이션 전반에 걸쳐 GDPR 제 17조 준수에 어려움을 겪었습니다. 고객의 PII는 500개 이상의 마이크로서비스, 레거시 메인프레임 추출 및 Snowflake 분석 웨어하우스를 통해 전파되었습니다.

고객이 데이터 삭제를 요청할 경우, 수동 감사에는 종종 도메인 간 3주의 SQL 추적이 필요하며, 이러한 과정에서 S3 데이터 레이크에 있는 파생 데이터 세트를 놓치는 경우가 많았습니다. 동시에, 결제 도메인의 스키마 변경이 분석 도메인 내의 사기 탐지 대시보드를 자주 망가뜨려 한 분기에 6건의 생산 사고를 발생시켰습니다.

옵션 A는 모든 테이블 스키마에 대해 야간 Spark 배치 스캔을 통해 중앙 집중식 Apache Hive Metastore를 제안했습니다. 이는 단순성과 강력한 일관성을 제공했으나, 24시간의 후행성을 초래하여 GDPR의 "불필요한 지연 없이" 요구사항을 위반하고, Apache Flink 작업에서 스트리밍 변환을 캡처하지 못했습니다.

옵션 B는 모든 Kubernetes 노드에 eBPF 커널 프로브를 배포하여 깊은 패킷 검사(deep packet inspection)를 위해 원시 TCP 페이로드를 캡처할 것을 제안했습니다. 이러한 방법은 실시간 정확성을 제공했으나, PII의 민감한 정보가 계보 저장소에 기록될 수 있어 심각한 개인 정보 보호 위험을 초래했습니다. 또한 40%의 CPU 오버헤드를 초래하고 데이터 최소화 원칙을 위반했습니다.

결국 선택된 옵션 C는 데이터베이스의 Debezium 커넥터와 스트리밍 파이프라인의 Kafka 인터셉터에 연결하는 Log-CDC 에이전트를 구현했습니다. 이 방법은 행(row) 값을 검사하지 않고 오직 스키마 메타데이터 및 변환 논리만 캡처함으로써 1분 미만의 계보 전파를 달성하며, 제로 애플리케이션 코드 변경을 유지했습니다. 배포 후 GDPR 삭제 지연 시간은 5분 이하로 감소하였고, 스키마 변경 영향 분석은 85% 예측 정확도로 사전 예방적으로 이루어졌으며, 은행은 데이터를 출처에 대한 제로 피드백으로 SOC 2 감사를 통과했습니다.

후보자가 놓치는 점

외부 API 호출에 따라 열 스키마를 동적으로 변경하는 사용자 정의 함수(UDF)와 같은 비결정적 변환에 대해 어떻게 계보 추적을 수행합니까?

대부분의 후보자들은 모든 변환이 정적이고 선언적이라고 가정합니다. 그러나 실제로 UDF는 블랙 상자입니다. 해결책은 CI/CD 파이프라인 동안 Python 바이트코드 또는 Scala 추상 구문 트리(AST)의 정적 분석을 요구하여 배포 전 열 참조를 추출합니다.

진정으로 동적 스키마(예: 다양한 키를 가진 JSON blob 파싱)의 경우, 시스템은 **스키마 추론 샘플링(Schema Inference Sampling)**을 구현해야 하며, 이는 계보 수집기가 출력 필드를 입력 필드에 확률적으로 매핑하기 위해 레코드의 하위 집합을 샘플링하도록 합니다. 이 과정에서 이러한 가장자리는 그래프 내의 신뢰도 점수로 태그를 붙입니다.

또한 Confluent Schema Registry를 사용한 런타임 스키마 등록 체크는 실제 출력 스키마가 추론된 계보와 일치하는지를 검증하고, UDF가 예상치 못하게 행동을 변경할 때 드리프트를 플래그합니다.

이벤트 타임 워터마크가 창(window) 집계를 재계산할 때 늦게 도착하는 데이터를 처리하는 스트림 처리 작업의 계보 정확성을 어떻게 조정합니까?

후보자들은 자주 계보를 불변의 DAG로 모델링하지만, Apache Flink와 Kafka Streams는 윈도우 재계산을 허용합니다. 아키텍처는 각 계보 관계의 타임스탬프에 이벤트-타임 워터마크 및 처리-타임 버전을 사용하는 그래프 가장자리에 대해 **시간 버전 관리(Temporal Versioning)**를 구현해야 합니다.

늦은 데이터가 재계산을 촉발하면, 시스템은 새로운 시간적 에지를 생성하지만 이전의 것을 보존하며, Valid-From/Valid-To 타임스탬프를 사용합니다. 이후 Gremlin 쿼리는 최신 시간적 슬라이스를 기본으로 하되, 역사적인 감사를 지원해야 합니다.

또한, GDPR 삭제 사가는 이러한 늦은 도착을 고려하여 Lookback Windows를 사용해야 하며, 초기 윈도우가 닫힌 후 몇 시간 뒤에도 재처리된 집계에 삭제가 전파되도록 해야 합니다.

물리적 테이블 이름이나 Kafka 주제 이름이 변경되더라도 논리적 도메인 엔티티는 변하지 않는 블루-그린 배포 중에 계보 그래프 일관성을 어떻게 유지합니까?

후보자들은 자주 물리적 및 논리적 식별자를 혼동합니다. 해결책은 UUID 생성을 통해 인프라 프로비저닝 중 도메인 수준에서 할당된 **영속 식별자(PIDs)**를 사용하는 논리적 엔티티 해결 계층이 필요합니다.

블루-그린 스왑이 발생할 때(예: 테이블 orders_v1가 orders_v2로 교체됨), CDC 에이전트는 분리된 서브그래프를 생성하는 대신 계보 버스에 이름 변경 이벤트를 방출합니다. JanusGraph 모델은 배포 레이블로 태그된 물리적 구현에 가장자리를 가지는 논리 데이터 세트를 나타내는 **슈퍼노드(Supernodes)**를 지원해야 합니다.

사가 오케스트레이터는 이러한 논리 포인터를 사용하여 GDPR 삭제가 활성 물리적 구현을 따르도록 하여 은퇴된 버전의 역사적 계보를 보존하며, 빠른 배포 사이클 동안 고아 메타데이터를 방지합니다.