질문에 대한 답변.

질문의 배경: 현대 데이터 집약적인 아키텍처에서 ETL (추출, 변환, 적재) 파이프라인은 비즈니스 인텔리전스 및 머신 러닝 이니셔티브의 중추 역할을 합니다. 전통적인 자동화 테스트는 애플리케이션 동작에 집중하는 경향이 있으며 데이터 무결성을 소홀히 하여, 사용자 인터페이스가 제대로 작동하더라도 분석 대시보드에 잘못된 수치가 표시되는 상황이 발생할 수 있습니다. 이 질문은 데이터가 생산 웨어하우스에 도달하기 전에 스키마 변경, 참조 제약 조건 및 비즈니스 로직 변환을 자동으로 검증해야 할 필요성에서 비롯되었습니다.

문제: 데이터 파이프라인을 검증하는 것은 표준 API 또는 UI 테스트와는 다른 고유한 도전 과제를 수반합니다. 데이터는 서로 다른 스키마와 대기 시간 특성을 가진 이질적인 시스템 간에 흐릅니다. 상류 소스 시스템에서의 스키마 드리프트는 변환을 조용히 결함을 초래할 수 있으며, 이는 비즈니스 사용자들이 불일치를 보고할 때까지 감지되지 않는 데이터 손상을 야기합니다. 또한, 분산 데이터베이스 간의 참조 무결성을 유지하고, 엔드 투 엔드 데이터 라인리지를 수동으로 검증하는 것은 오류가 발생하기 쉽고 현대 CI/CD 워크플로우의 속도와 함께 확장되지 않습니다.

해결책은 스키마 계약 테스트, 자동화된 데이터 조정, 및 파이프라인 오케스트레이션 레이어 내에서의 라인리지 메타데이터 검증을 결합하는 프레임워크를 설계하는 것입니다. 이 접근 방식은 각 변환 단계에서 스키마 제약 조건, 통계 분포 및 참조 무결성을 검증하기 위해 Great Expectations를 사용하여 자동 검사를 통합합니다. 이러한 검증은 Apache Airflow 또는 Prefect DAG 내에 자동 게이트로 임베드되어 스키마 드리프트 또는 데이터 품질 위반이 있을 경우 즉시 파이프라인이 중단되도록 하고, 손상된 데이터가 생산 웨어하우스에 도달하기 전에 엔지니어링 팀에 경고합니다.

import great_expectations as gx
from great_expectations.expectations import ExpectColumnToExist, ExpectForeignKeysToMatchSetOfColumnIdentifiers

context = gx.get_context()
suite = context.add_expectation_suite("etl_validation_suite")

# 스키마 드리프트 감지: 중요 열이 존재하는지 확인
suite.add_expectation(ExpectColumnToExist(column="customer_id"))

# 참조 무결성: 시스템 간 외부 키 관계 검증
suite.add_expectation(
    ExpectForeignKeysToMatchSetOfColumnIdentifiers(
        foreign_keys=["order_customer_id"],
        column_identifier_set=["customer_id"],
        result_format="SUMMARY"
    )
)

# 파이프라인의 일부로 검증 작업 실행
checkpoint = context.add_or_update_checkpoint(
    name="etl_checkpoint",
    validations=[{"batch_request": batch_request, "expectation_suite_name": "etl_validation_suite"}]
)
results = checkpoint.run()
assert results.success, "데이터 검증 실패 - 파이프라인 중단"

실생활에서의 상황

다국적 전자상거래 회사는 Oracle 데이터베이스에서 클라우드 네이티브 Snowflake 데이터 웨어하우스로 분석 스택을 마이그레이션하고 있었습니다. 이 파이프라인은 Salesforce REST API로부터 고객 데이터를 수집하고, PostgreSQL의 거래 기록 및 Amazon S3의 재고 로그를 가져와 복잡한 조인 및 집계를 수행한 후 Snowflake 테이블에 적재했습니다.

치명적인 문제는 Salesforce 팀이 마이너 릴리즈 도중 열 이름을 Customer_ID에서 Account_ID로 변경하면서 발생했습니다. 이로 인해 Python 변환 스크립트는 실행 오류 없이 모든 고객 참조를 NULL 값으로 채우게 되었습니다. 또한, PostgreSQL의 주문이 아직 Salesforce에서 동기화되지 않은 고객을 참조하여 참조 무결성 위반이 발생했고, 이는 세일즈 계산을 세 배로 왜곡했습니다.

첫 번째로 고려된 해결책은 각 릴리즈 전에 QA 엔지니어가 실행하는 수동 SQL 쿼리 검증 스크립트를 구현하는 것이었습니다. 이 접근 방식은 단순성을 제공하고 새로운 인프라가 필요하지 않았지만, 데이터 팀이 10개에서 50개 파이프라인으로 확장됨에 따라 지속 가능하지 않게 되었습니다. 검증에 3일이 걸리며 종종 사람의 슈트로에서 경계를 놓치는 상황이 발생했습니다.

두 번째 해결책은 Great Expectations라는 오픈 소스 Python 라이브러리를 도입하여 Airflow DAG에 직접 통합함으로써 스키마 일관성을 자동으로 검증하고, 소스 및 대상 테이블 간의 참조 무결성을 체크하며, 비정상적인 데이터 분포를 감지하는 것이었습니다. 이 방법은 초기 설정 복잡성과 팀에 대한 기대 세트 교육이 필요하지만 감사 요건을 충족하는 자동 문서화 및 역사적인 데이터 품질 메트릭스를 제공했습니다.

세 번째 제안된 해결책은 dbt(데이터 빌드 도구)와 Soda Core 모니터링을 결합하여 SQL 기본 테스트 기능을 제공하는 것이었습니다. 이 접근 방식은 간단한 열 수준 검증을 위한 경량 오버헤드를 제공하고 분석 팀에 익숙한 SQL 구문을 제공합니다. 그러나 이 조합은 기본적인 라인리지 시각화 및 복잡한 스키마 드리프트 감지 기능이 부족했으며, 기존 Airflow 오케스트레이션 레이어 및 DataHub 메타데이터 플랫폼과 통합하기 위해 상당한 커스텀 Python 개발이 필요하여 유지 관리 부담이 증가했습니다.

팀은 궁극적으로 Great Expectations 접근 방식을 선택했습니다. 이렇게 함으로써 자동 스키마 감지 및 DataHub와의 통합으로 라인리지 추적이 포함된 종합적인 검증 기능을 확보했습니다. 이 결정은 변환 후가 아닌 추출 시 스키마 변경을 즉각적으로 포착해야 하는 필요성과 비기술 이해관계자와 공유할 수 있는 자가 문서화된 데이터 품질 보고서의 필요성에 의해 주도되었습니다.

결과적으로 데이터 품질 사건이 생산에 도달하는 비율이 95% 감소했으며, 스키마 드리프트는 이제 파이프라인 실행 후 5분 이내에 감지되었습니다. 이 자동화된 프레임워크는 데이터 엔지니어링 팀이 매주 변경 사항을 배포하는 대신 매일 변경 사항을 배포할 수 있도록 했습니다. QA 팀은 수동 데이터 검증에서 기대 세트 최적화 및 복잡한 비즈니스 로직 변환 테스트로 초점을 전환했습니다.

후보자들이 자주 놓치는 사항

기존의 자동화 세트를 중단하지 않고 소스 시스템의 스키마 진화를 어떻게 처리합니까?

후보자들은 종종 스키마 레지스트리와 버전 관리된 계약 테스트의 필요성을 간과합니다. Confluent Schema Registry 또는 AWS Glue Schema Registry를 구현하여 데이터가 파이프라인에 들어가기 전에 Avro, JSON Schema 또는 Protobuf 형식에 대한 후방 호환성 및 전방 호환성 검사를 시행하세요. 스키마 버전을 Git에 코드로 저장하고 GitOps 워크플로를 사용하여 CI에서 호환성 검사를 촉발하여 소스 스키마의 모든 깨진 변경 사항이 ETL 환경에 도달하기 전에 빌드를 실패하도록 보장합니다.

분산 파이프라인 아키텍처에서 데이터 라인리지의 정확한 검증을 보장하기 위한 전략은 무엇입니까?

많은 후보자들은 여러 변환 단계 및 저장 시스템 간의 데이터 흐름을 추적하는 데 어려움을 겪습니다. OpenLineage를 오케스트레이션 도구와 통합하여 데이터 세트, 작업 및 실행에 대한 메타데이터를 자동으로 캡처한 다음, 모든 출력 데이터 세트에 문서화된 상위 종속성과 변환 로직이 있다고 주장하여 라인리지의 완전성을 검증하는 자동 테스트를 작성하세요. 이 메타데이터를 사용하여 상위 소스의 스키마 변경에 의해 영향을 받을 수 있는 하위 보고서를 식별하는 자동화된 영향을 분석 테스트를 생성하십시오.

ETL 테스트 자동화에서 아이도포턴시 및 재현 가능성을 어떻게 보장합니까?

공통적인 간과 사항은 동일한 입력 데이터에서 여러 실행 간에 일관된 결과를 생성하는 테스트를 설계하지 않는 것입니다. 고유한 실행 타임스탬프 또는 배치 ID를 사용하여 테스트 실행을 격리하여 결정론적 테스트를 구현하고, 동일한 입력 데이터 세트에서 동일한 변환을 다시 실행하기 전후의 출력 테이블의 체크섬 또는 행 수를 비교하여 아이도포턴시를 검증하십시오. Docker Compose를 사용하여 고정된 골든 데이터 세트로 채워진 임시 데이터베이스 인스턴스를 생성하여 검증 세트가 외부 시스템 변경에 관계없이 일관된 데이터 상태에 대해 실행되도록 하십시오.