질문에 대한 답변

CQRS (명령 쿼리 책임 분리) 패턴은 고읽기 시나리오에서 스케일링 병목 현상을 해결하기 위해 도메인 주도 설계 관행에서 비롯되어, 쓰기 최적화 모델 (PostgreSQL, Oracle)과 읽기 최적화 프로젝션 (Elasticsearch, MongoDB)을 분리합니다. 이러한 아키텍처 분기점은 명령 지속성과 쿼리 가능성 사이에 본질적인 시간 차이를 만들어냅니다. 비동기 이벤트 프로세서는 읽기 모델이 상태 변화를 반영하기 전에 네트워크 경계를 넘어 데이터를 비정규화해야 합니다.

이러한 시스템을 자동화하는 기본 문제는 테스트 실행 스레드와 백그라운드 프로젝션 작업자 간의 경쟁 조건에서 발생합니다. 명령 제출 직후 읽기 모델에 대한 단언이 처리 지연으로 인해 예측할 수 없이 실패합니다. 전통적인 해결책은 임의의 지연이나 단순한 폴링에 의존하는데, 이는 파이프라인을 용납할 수 없는 느린 속도로 줄이거나 인프라 스트레스 하에서 잘못된 부정 결과를 생성합니다.

강력한 해결책은 스트림 오프셋 또는 변경 데이터 캡처 토큰 (Debezium, Kafka 소비자 그룹)을 사용하여 이벤트 위치 추적을 구현하여 결정론적 동기화 장벽을 설정합니다. 테스트 프레임워크는 마지막 전송된 도메인 이벤트의 위치를 포착하고 특정 위치가 소비되었음을 확인할 때까지 읽기 모델 메타데이터를 폴링하며, 무기한 차단을 방지하면서 서브 초 정렬 정밀도를 유지하기 위해 지수 백오프와 회로 차단기 타임아웃을 활용합니다.

생활에서의 상황

고주파 거래 플랫폼을 위한 테스트 자동화를 설계하면서, 우리 팀은 PostgreSQL을 사용한 거래 실행 지속성 및 Elasticsearch를 사용한 실시간 잔액 쿼리로 인해 포트폴리오 평가 테스트에서 심각한 변동성을 경험했습니다. 매수/매도 명령을 실행하고 포트폴리오 엔드포인트를 즉시 쿼리한 테스트는 Kafka Connect 프로젝션이 업데이트를 인덱싱하는 데 300-800ms가 걸려 오래된 비거래 잔액을 받았고, 이로 인해 CI 빌드의 35%가 잘못된 결과로 실패했습니다.

첫 번째 고려한 해결책은 모든 쓰기 작업 후에 고정된 Thread.sleep(2000) 문을 삽입하여 단언하기 전에 Elasticsearch 인덱싱 완료를 보장했습니다. 이 접근법은 결과를 일시적으로 안정화했지만, 스위트 실행 시간을 400% 증가시키고 하드웨어 성능에 대한 취약한 시간 종속성을 생성하며, 때때로 고정된 지연을 초과하는 가비지 컬렉션 중지 또는 네트워크 혼잡에 취약했습니다.

두 번째 평가된 접근법은 쿼리 엔드포인트에서 지수 백오프를 사용한 일반적인 폴링을 구현하여 기대 값이 나타나거나 타임아웃이 초과될 때까지 단언을 재시도했습니다. 고정된 대기보다 우수했지만, 이 방법은 "아직 업데이트되지 않음" 상태와 "잘못된 값" 상태 사이의 애매모호성에 시달렸고, 여러 실행이 동일 집합체를 동시에 수정하는 동시 테스트 시나리오를 처리할 수 없어 테스트 간 오염과 잘못된 긍정을 초래했습니다.

우리는 궁극적으로 Elasticsearch 문서 메타데이터 내에서 마지막으로 처리된 Kafka 오프셋을 노출하는 프로젝션 레이어의 기구를 포함하는 세 번째 접근법을 선택했습니다. 우리의 테스트 하니스는 명령 게시 이벤트의 오프셋을 캡처하고, 오프셋이 소비되었다고 메타데이터가 나타날 때까지 읽기 모델을 폴링하는 전문적인 대기 유틸리티를 활용하여 일관성을 보장하고 시간 추측을 제거했습니다. 이를 통해 평균 테스트 실행 시간을 52초에서 14초로 줄였고 비동기 불확실성을 결정론적 동기화 지점으로 전환하여 잘못된 부정 결과를 완전히 제거했습니다.

후보자들이 자주 놓치는 것

여러 개의 병렬 CI 러너가 읽기 모델 프로젝션을 공유하는 집합체를 동시에 업데이트할 때 테스트 데이터 간섭을 어떻게 방지합니까? 비동기적 특성을 위반하는 잠금 메커니즘을 도입하지 않으면서 말입니다.

답변: UUID가 접미사로 붙은 집합체 식별자와 이벤트 메타데이터 내에 포함된 테스트 실행 상관 ID를 사용하여 논리적 테넌트 격리를 구현합니다. 읽기 모델 인덱스를 테스트 실행 식별자를 라우팅 키 또는 필터 매개변수로 포함하도록 구성하여 프로젝션 쿼리가 특정 테스트 실행 맥락과 관련된 문서를 반환하도록 보장합니다. 이를 통해 물리적 데이터베이스 잠금 없이 병렬 테스트 실행을 가능하게 하면서 동시 파이프라인 인스턴스 간의 엄격한 데이터 분리를 유지합니다.

CQRS에서 쓰기 모델 동작 검증과 읽기 모델 동작 검증 간의 근본적인 건축적 차이는 무엇이며, 이 구분이 왜 서로 다른 단언 전략을 필요로 합니까?

답변: 쓰기 모델 검증은 트랜잭션 원자성, 비즈니스 불변성 enforce 및 도메인 이벤트 방출의 정확성에 집중합니다. 일반적으로 테스트 격리를 유지하기 위해 데이터베이스 트랜잭션 롤백 기능을 활용합니다. 읽기 모델 검증은 비정규화 정확성, 쿼리 응답 시간 SLA 및 최종 일관성 창 준수에 대해 걱정하며, 비동기 처리 지연을 고려하고 프로젝션이 중복 이벤트 또는 순서가 뒤바뀐 배달을 우연의 일치로 다룰 수 있음을 확인하는 단언이 필요합니다.

프로젝션이 낙관적 동시성 제어를 구현할 때 데이터 무결성을 손상시키지 않고 읽기 모델이 순서가 엉망인 이벤트 배달 또는 중복 이벤트 처리를 올바르게 처리하도록 자동화된 테스트를 어떻게 설계할 것입니까?

답변: Kafka 파티션 재할당 또는 타임스탬프 조작을 사용하여 의도적으로 순서가 엉망인 이벤트를 게시하는 결함 주입 테스트 하니스 를 구축한 후, 읽기 모델이 벡터 시계를 사용하여 이벤트를 대기열에 넣고 재정렬하거나 집합체 버전 번호를 기준으로 우선 업데이트를 적용하는지 단언합니다. 순서 번호가 절대 감소하지 않고 수동 오프셋 재설정으로 시뮬레이션된 재배송 이벤트가 쿼리 저장소에서 유령 레코드를 생성하거나 카운터를 여러 번 증가시키지 않도록 확인하여 프로젝션이 단조성을 유지하는지 검증합니다.