질문에 대한 답변

질문의 역사

CRDT(충돌 없는 복제 데이터 유형)는 협업 편집 및 오프라인 우선 모바일 애플리케이션에 대한 지배적인 해결책으로 떠올랐으며, Yjs 및 Automerge와 같은 프레임워크에서 기존의 OT(작업 변환)를 대체했습니다. 초기 테스트 전략은 수동 비행기 모드 전환에 의존하였고, 이는 실제 모바일 배포의 혼란스러운 네트워크 조건을 재현하지 못했습니다. 이 분야는 단순 기능 테스트에서 임의의 작업 간섭을 통한 수렴 속성을 수학적으로 검증하는 방향으로 발전하였습니다.

문제

전통적인 ACID 준수 테스트는 즉각적인 일관성을 가정하고 있는 반면, CRDT는 복제본이 일시적으로 분기될 수 있는 강력한 최종 일관성만 보장합니다. 테스트는 임의의 네트워크 파티션을 시뮬레이션해야 하며, 동시 업데이트(예: 동일한 커서 위치에서 동시에 텍스트 삽입)가 데이터 손실 없이 병합되고, 유령 데이터의 가비지 수집이 수렴을 보존해야 함을 검증해야 합니다. 표준 모킹 기법은 전송 계층 직렬화의 괴리, 인과관계 추적의 시계 왜곡 효과 또는 TCP 혼잡 행동을 포착할 수 없어 실패합니다.

해결책

Toxiproxy를 사용하여 네트워크 파티션 삽입을 위한 다층 프레임워크를 설계하고, Property-based testing(via fast-check 또는 Hypothesis)을 통해 임의의 작업 시퀀스를 생성하며, 모든 복제본의 상태 동등성을 검증하기 위해 주기적으로 스냅샷을 찍는 Convergence Monitor를 구축합니다. 프레임워크는 제어된 혼돈(무작위 지연, 패킷 손실) 동안 작업을 실행한 다음, 조인 세미 격자의 수학적 속성인 병렬성, 결합성 및 아이덴포턴시를 검증합니다.

const fc = require('fast-check');
const { setupPartitionedReplicas, healPartition } = require('./test-helpers');

test('네트워크 혼돈 속 CRDT 수렴', async () => {
  await fc.assert(
    fc.asyncProperty(
      fc.array(fc.tuple(fc.string(), fc.nat()), { minLength: 1, maxLength: 100 }),
      async (operations) => {
        const [replicaA, replicaB] = await setupPartitionedReplicas();
        
        // Toxiproxy에 의해 주입된 무작위 지연으로 작업 적용
        await Promise.all([
          applyWithChaos(replicaA, operations.filter((_, i) => i % 2 === 0)),
          applyWithChaos(replicaB, operations.filter((_, i) => i % 2 === 1))
        ]);
        
        await healPartition();
        await waitForConvergence(5000); // 5초 시간 초과
        
        // 강력한 최종 일관성 검증
        return JSON.stringify(replicaA.state) === JSON.stringify(replicaB.state);
      }
    ), 
    { numRuns: 1000, timeout: 60000 }
  );
});

실제 상황

시나리오

한 원격의료 스타트업은 React Native를 사용하여 Yjs CRDT를 통해 환자의 활력을 동기화하는 모바일 앱을 개발했습니다. 두 의사가 동일한 환자의 혈압 기록을 오프라인으로 편집하면, 연결된 후 하나의 업데이트가 다른 업데이트를 조용히 덮어써 버려 충돌 없는 특성을 주장하는 라이브러리의 결점이 드러났습니다. 이 문제는 농촌 클리닉들이 간헐적 연결 문제를 보고할 때까지 3주 동안 감지되지 않았습니다.

문제 설명

팀은 Yjs 문서 주위에 작성한 사용자 정의 래퍼가 숫자 필드를 위한 LWW(Last-Write-Wins) 레지스터를 잘못 구현하고 PN-Counter(Positive-Negative Counter)를 사용하지 않았다는 사실을 발견했습니다. 표준 단위 테스트는 단일 사용자 시나리오를 순차적으로 테스트하였기 때문에 통과했지만, 모의 네트워크를 사용하는 통합 테스트는 '지연 동기화' 윈도우를 캡처하지 않고 즉시 동기화되었습니다. 이 경쟁 조건은 두 의사가 밀리초 이내에 온라인에 접속했을 때만 발생하여 클라우드 동기화 계층에서 타임스탬프 충돌을 일으켰습니다.

솔루션 1: 수동 장치 실험실 테스트

의료 연구자들은 물리적인 태블릿에서 비행기 모드를 수동으로 활성화하고 환자 기록에 충돌하는 수정 사항을 만든 다음, 동기화를 강제로 하기 위해 비행기 모드를 동시에 비활성화했습니다. 이 방식은 통제된 실험실 환경에서 여러 물리적 장치를 조정해야 하며, 장치 간 재연결 타이밍을 조율하기 위해 인간의 반응에 의존합니다.

장점: 이 방법은 실제 하드웨어 라디오 동작, iOS 백그라운드 앱 새로 고침 버그, WebSocket 재연결 타이밍에 대한 배터리 최적화 효과를 포착하여 최대한의 사실성을 제공합니다.

단점: 이 접근 방식은 인간 반응 지연으로 인해 재현할 수 없는 타이밍이 발생하며, 두 개의 장치를 초과하여 확장하기 위해 비싼 장치 농장이 필요하며, 밀리초 이내에 동시 재연결과 같은 특정 엣지 케이스를 체계적으로 테스트할 수 없습니다.

솔루션 2: 모의 클럭을 이용한 결정론적 단위 테스트

개발자들은 Jest 단위 테스트를 구현하고 Sinon 가짜 타이머를 사용하여 CRDT 작업 사이에 수동으로 클럭을 진행하여 실제 네트워크 참여 없이 프로그래밍 방식으로 오프라인 기간을 시뮬레이션했습니다. 이 테스트는 모바일 장치 상태를 나타내기 위해 메모리 내 데이터 구조를 사용하는 Node.js 프로세스에서 격리되어 실행됩니다. 이 접근 방식은 실행 환경을 완벽하게 제어할 수 있으며, 개발 중 즉각적인 피드백을 제공합니다.

장점: 실행이 밀리초 이내에 완료되며, 특정 병합 시나리오를 디버그할 때 결정론적 재현성을 제공하고, 네트워크 인프라나 컨테이너 오케스트레이션이 필요 없습니다.

단점: 테스트는 Protocol Buffers 전송 계층의 직렬화 오류를 잡지 못했으며, TCP 역압력 및 재시도 동작을 무시하였고, 실제 Android 및 iOS 장치에서 SQLite와 크게 다른 모의 저장소를 사용했습니다.

솔루션 3: 프로퍼티 기반 테스트를 이용한 자동화된 혼돈 공학

팀은 Toxiproxy를 중간 매개자로 설정하여 Android 에뮬레이터와 Node.js 동기화 서버 간의 사용자 정의 Docker Compose 클러스터를 배포하여 무작위 지연, 패킷 손실 및 파티션 시나리오를 주입했습니다. 그들은 fast-check를 사용하여 다양한 타이밍 특성을 가진 수천 개의 임의 작업 시퀀스를 생성하였고, 사용자 정의 헬스 모니터가 디버그 API를 통해 복제 상태를 폴링하여 수렴 위반을 감지하였습니다. 이 설정은 농촌 셀룰러 네트워크의 혼란스러운 네트워크 조건을 정확하게 모델링하면서 씨앗이 있는 무작위화를 통해 완전한 재현성을 유지했습니다.

장점: 이는 네트워크 파티션에 대한 정확한 제어와 함께 재현 가능한 혼돈 공학을 가능하게 하였고, 즉각적인 파티션 치유 뒤에 동시 증가와 같은 엣지 케이스의 프로퍼티 기반 생성을 허용하며, TLS 핸드셰이크 타임아웃 및 MTU 단편화 문제를 포함한 실제 네트워크 스택 동작을 포착했습니다.

단점: 설정은 컨테이너화된 에뮬레이터 농장을 유지하는 데 상당한 DevOps 전문 지식이 필요하며, 테스트 실행은 Docker 오버헤드로 인해 단위 테스트보다 느렸고, 실패를 디버깅하는 데는 Toxiproxy, 에뮬레이터 및 동기화 서버의 분산 로그를 상관관계로 분석해야 했습니다.

선택한 솔루션 및 정당화

팀은 생산 사고 이후에 Yjs 업데이트 메시지가 셀룰러 MTU 한계를 초과하여 동기화하는 동안 조용한 단편화가 발생하여 솔루션 2의 모의가 중요한 버그를 숨겼다는 사실이 밝혀진 후 솔루션 3을 선택했습니다. 유지 비용이 비싸지만 혼돈 공학 접근 방식은 벡터 시계 비교와 관련된 수정 사항을 검증하기 위한 필요한 충실도를 제공하였으며, 수렴 속성의 회귀가 발생하지 않도록 보장했습니다.

결과

이 프레임워크는 동일한 시스템 타임스탬프를 가진 동시 업데이트가 LWW 레지스터가 유효한 의료 데이터를 버리게 만든다는 것을 감지하여 인과 관계가 역사에 의해 병합되는 Multi-Value Registers로의 이전을 촉발했습니다. 배포 후, 자동화된 혼돈 테스트는 높은 파티션 빈도 하에서 유령 데이터 축적과 관련된 세 가지 추가 엣지 케이스를 식별하여 데이터 손실 사례를 99.7% 줄이고 평균 탐지 시간을 며칠에서 몇 분으로 단축했습니다.

후보자들이 자주 놓치는 사항

상태 기반 CRDT(Replicated Growable Array, RGA)의 가비지 컬렉션 비결정론을 메모리 누수 테스트 중에 어떻게 처리합니까?

많은 후보자들은 가비지 수집(유령 데이터 제거)이 결정론적이며 삭제 작업 직후에 즉시 트리거될 수 있다고 가정합니다. 실제로 RGA 가비지 수집은 인과적 안정성이 이루어져야 하며, 이는 모든 복제본이 벡터 클록 지배를 통해 삭제 마커를 관찰했는지 확인해야 합니다. 올바른 테스트 접근 방식은 모든 노드에 걸쳐 벡터 클록 경계를 추적하는 Causal Stability Detector를 하니스에 구현하는 것이며, 이 감지기가 보편적 인정이 확인될 때만 유령 데이터를 제거하도록 트리거합니다. 테스트는 메모리 누수를 방지하기 위해 GC가 발생하는 것뿐만 아니라, 조기 제거가 수렴을 보존하는지를 확인해야 합니다. 너무 이른 시점에서 유령 데이터를 삭제하면 장기 실행 동기화 세션에서만 나타나는 영구적인 분기가 발생합니다.

왜 표준 동등성 주장(===)을 사용하여 CRDT 수렴을 검증할 수 없으며, 대신 테스트 프레임워크가 검증해야 할 수학적 속성은 무엇입니까?

후보자들은 종종 expect(replicaA.state).toEqual(replicaB.state)와 같은 주장을 작성합니다. 이는 내부 메타데이터, 즉 벡터 클록, 작업 히스토리 또는 노드 ID가 다를 수 있기 때문에 CRDT에서는 실패합니다. Least Upper Bound (LUB) 속성을 검증해야 하며, 이를 위해 세 개의 수학적 공리를 검증해야 합니다: 병렬성(merge(A, B) == merge(B, A)), 결합성(merge(A, merge(B, C)) == merge(merge(A, B), C)), 아이덴포턴시(merge(A, A) == A). 테스트 프레임워크는 병합 후 관찰 가능한 사용자 상태를 내부 CRDT 메타데이터를 무시하고 추출한 다음, 모든 복제본이 병합 순서나 파티션 이력에 관계없이 동일한 LUB 상태에 도달하는지를 확인해야 합니다. 이러한 접근 방식은 수렴이 수학적으로 정확하다는 것을 보장합니다.

어떻게 무한 대기 또는 일시적인 네트워크 지연으로 인해 잘못된 긍정이 발생하지 않도록 수렴 생존성을 테스트합니까?

이 문제는 배포 시스템에 적용된 정지 문제를 나타내며, 후보자들은 자주 await sleep(5000)와 같은 임의의 시간 초과를 구현하여 불안정한 테스트 또는 잘못된 부정 결과를 초래합니다. 해결책은 Convergence Predicate를 구현하고 Toxiproxy 메트릭 또는 패킷 캡처를 모니터링하여 모든 전송 중인 작업이 남아 있지 않음을 확인하는 Network Quiescence Detector와 함께 지수 백오프 폴링을 결합하는 것입니다. 네트워크가 안정 상태고 모든 복제본이 동일한 벡터 클록 전선 시계를 보고할 때만 수렴이 선언될 수 있으며, (operation_count * max_latency) + clock_skew_buffer에서 계산된 적응형 시간 초과를 사용합니다. 수렴이 이 계산된 상한 내에서 이루어지지 않으면 테스트는 정량적으로 실패하여 멈추지 않고도 막힌 상태를 디버깅하기 위한 명확한 신호를 제공합니다.

오프라인 우선 모바일 애플리케이션에서 강력한 최종 일관성과 충돌 없는 조정을 검증하기 위한 자동화 테스트 프레임워크를 구축하여 CRDT를 사용하여 시뮬레이션된 네트워크 파티션 시나리오 전반에 걸쳐야 합니까?