질문의 역사

지속 가능한 컴퓨팅 및 기업의 탄소 중립 약속을 위한 2020년대의 추진에서 유래하였습니다. 조직들은 클라우드 워크로드를 탄소 강도가 낮은 지역이나 시간으로 시간적으로 및 공간적으로 이동할 수 있다는 것을 깨달았습니다. 기존 스케줄러는 비용과 성능만을 최적화하고 에너지원은 무시했습니다. 이 질문은 이종 인프라, 예측 자동 확장 및 분산 시스템의 다중 목표 최적화에 대한 이해를 테스트합니다.

문제

데이터 센터는 전 세계 전기의 1-2%를 소비합니다. 화석 연료가 많은 그리드에서 작동하는 워크로드와 재생 에너지가 풍부한 그리드에서의 워크로드는 탄소 발자국에서 10배까지 차이가 날 수 있습니다. 그러나 상태 있는 워크로드를 AWS 스팟 인스턴스나 다른 지역으로 이동하는 것은 중단 및 지연 벌금을 초래할 수 있습니다. 문제는 실시간 탄소 강도 API를 수집하고, 워크로드 변경을 예측하며, 중앙 스케줄러가 병목 현상이 되지 않고 가용성 SLO와의 균형을 맞추는 마이그레이션 결정을 내리는 시스템을 구축하는 것입니다.

해결책

Kubernetes를 사용하는 분산된 에이전트 기반 스케줄링 메시. 각 노드는 Prometheus 메트릭을 통해 지역 그리드 강도를 모니터링하는 탄소 인식 에이전트를 실행합니다. 워크로드는 유연성(무상태 vs. 상태 있는)과 중요성에 따라 분류되어 마이그레이션 자격을 결정합니다.

무상태 버스트 워크로드는 Karpenter 또는 Cluster API를 통해 낮은 탄소 강도의 지역에 있는 AWS 스팟 인스턴스 또는 Azure 스팟 VM에 예약됩니다. Apache Spark 실행자는 Amazon S3에 진행 상황을 체크포인트하여 선제 해결을 우아하게 처리합니다. 이 접근 방식은 내결함성이 있는 컴퓨팅에 대한 탄소 절약을 극대화합니다.

상태 있는 워크로드는 다른 처리가 필요합니다. 중요한 데이터베이스는 KubeVirt 또는 VMware vMotion을 통해 라이브 마이그레이션을 사용하고, 다른 것들은 Redis 또는 PostgreSQL 스트리밍을 통한 비동기 복제를 사용하여 2차 클러스터에 복제합니다. WASM 기반의 스케줄링 플러그인은 가장자리에서 강화 학습을 사용하여 다중 목표 최적화를 구현합니다. Istio는 마이그레이션 동안 트래픽 전환을 관리하며, etcd는 전역 잠금 없이 분산 상태를 유지합니다.

실제 상황

한 글로벌 핀테크 회사는 50,000개의 코어에서 매일 밤 리스크 계산을 처리합니다. 그들의 독일 데이터 센터는 석탄 중량의 저녁 그리드에서 운영되며, 노르웨이의 수력 발전 지역은 청정 에너지를 제공하지만 간헐적으로 높은 스팟 가격이 발생합니다. 기존의 Apache Airflow 기반 파이프라인은 CET 자정에 작업을 트리거하여 탄소 스파이크를 생성했습니다.

문제는 지속 가능성 팀이 비용 증가 없이 40%의 탄소 감소를 요구하면서 발생했습니다. 무상태 리스크 모델은 완료하는 데 6시간이 걸렸지만, 스팟 인스턴스로 이동하는 것은 규제 보고 마감 시간을 위반할 수 있는 재계산을 초래할 위험이 있었습니다. 또한, 감사 추적을 위한 PostgreSQL 트랜잭션 로그는 EU 경제 영역을 떠날 수 없었기 때문에 마이그레이션 전략이 복잡해졌습니다.

해결책 A: 정적 시간 이동은 전력 그리드의 탄소 강도가 과거 평균에 따라 떨어질 때까지 배치 시작을 지연하는 것을 제안했습니다. 이 접근 방식은 기존 Kubernetes 클러스터 내에서 간단한 CronJob 조정을 의존했으며 추가 인프라가 필요하지 않았습니다. 그러나 풍속이 없는 겨울날 같은 예상치 못한 그리드 스트레스 이벤트에서 실패하고, 에너지 시장의 실시간 변동성을 무시했으며, 하류 Spark 분석에 영향을 미치는 파이프라인 백로그를 발생시켰습니다. 게다가 비용 절감을 위해 스팟 인스턴스 할인 혜택을 활용할 기회를 완전히 놓쳤습니다.

해결책 B: 중앙 집중식 글로벌 스케줄러는 탄소 API를 매 분마다 폴링하고 모든 클러스터에 워크로드 이동을 명령하는 단일체 Go 기반 스케줄러를 US-East에 배포할 것을 제안했습니다. 이 디자인은 글로벌 최적화 뷰를 제공하고 감사 과정을 간단하게 만들었지만, 재앙적인 단일 실패 지점을 도입했습니다. 에지 클러스터에 대한 네트워크 지연이 종종 100ms를 초과하여 진부한 결정과 탄소가 전 세계적으로 감소할 때의 대규모 동시 발생을 초래했습니다. 가장 중대한 것은 EU 재무 데이터에 대한 GDPR 데이터 거주 요구 사항을 위반했으며, 10개 클러스터 이상으로 확장하는 데 좋지 않았습니다.

해결책 C: 계층적 연합 스케줄링은 Karmada를 연합 제어용으로 구현하고, 각 지역 클러스터가 local 그리드 API에 MQTT를 통해 구독하도록 하며, 무상태 Spark 실행자는 낮은 탄소 지역의 AWS 스팟에서 실행되고 S3에 체크포인트를 생성했습니다. 상태 있는 PostgreSQL 주 서버는 독일에 남아 있지만 pglogical을 사용하여 노르웨이에 복제하며, 극단적인 탄소 이벤트 동안에만 Patroni 장애 조치를 통해 승격했습니다. 이 접근 방식은 탄소를 45% 줄이며, 2시간 이하의 복구 SLA를 유지하고 데이터 주권을 준수했습니다.

팀은 비생산 환경에서 파일럿 테스트를 거친 후 해결책 C를 선택했습니다. 그들은 Electricity Maps 데이터를 구문 분석하는 커스텀 컨트롤러와 함께 프로파게이션 정책에 대해 Karmada를 배포하였으며, 해양 관리에 대해 Spot.io와 통합했습니다. 이 솔루션은 탄소 감축, 비용 효율성 및 규제 준수라는 상충되는 제약을 가장 잘 균형 있게 유지했습니다.

3개월 후 탄소 배출량은 47% 감소하고, 비용은 공격적인 스팟 사용으로 인해 12% 감소했으며, 사전 컴퓨팅으로 인해 재계산이 필요한 작업은 단 0.3%에 불과했습니다. 이 시스템은 수동 개입 없이 수력 지역으로 80%의 컴퓨트를 자동으로 전환해 주간 석탄 발전소 유지 보수 기간을 성공적으로 관리했습니다. 이 아키텍처는 그리드 변동성과 클라우드 제공자의 스팟 종료에 대한 탄력성을 입증했습니다.

지원자들이 종종 놓치는 것들

질문 1: 진행 중인 트랜잭션 동안 높은 탄소 지역에서 낮은 탄소 대기 서버로 PostgreSQL 주 서버를 이동할 때 데이터 일관성을 어떻게 유지할 수 있습니까?

동기 복제와 쿼럼 커밋(synchronous_commit = remote_apply)을 사용하여 대상 지역의 대기 서버가 트랜잭션을 적용한 후 주 서버의 인정을 받을 수 있도록 합니다. 마이그레이션 전에 대기 서버를 승격하려면 pg_ctl promote 또는 Patroni REST API 를 사용하기 전 synchronous_standby_names를 비워 두어야 분열 시나리오를 방지할 수 있습니다. 잠시 지속되는 승격 창 동안, Redis 스트림 또는 애플리케이션 측 쓰기 뒤처리 캐시에 대한 쓰기를 대기열로 만들어 지연을 흡수합니다. 승격이 완료된 후, Istio 가상 서비스 업데이트를 통해 애플리케이션 트래픽을 재지정하고 pg_dump 체크섬 또는 pg_dumpall 논리 디코딩 슬롯 비교를 사용하여 일관성을 검증합니다. 이를 통해 탄소 주도 재배치를 허용하면서 데이터 손실을 방지할 수 있습니다.

질문 2: 탄소 인식 스케줄링의 단순 구현이 탄소 API와 작업 스케줄러 간의 네트워크 분할 중에 CAP 정리를 자주 위반하는 이유는 무엇인가요?

스케줄러가 탄소 강도 데이터를 하드 제약으로 처리하는 경우(예: API가 사용할 수 없을 때 예약을 거부함), 가용성을 파트너 용서와 탄소 데이터의 일관성을 위협하게 됩니다. 올바른 접근 방식은 탄소를 소프트 제약으로 취급하고, 탄소 API 호출에 대해 Hystrix 또는 Resilience4j를 사용하여 회로 차단기 패턴을 구현하는 것입니다. 분할 중에 시스템은 캐시된 탄소 강도 값을 사용하여 비용 기반 또는 성능 기반 스케줄링으로 기본값을 설정합니다. 이는 탄소 최적화의 일시적인 일관성 저하를 수용하는 동시에 가용성(작업은 여전히 실행됨)을 유지하여 탄소 메트릭에 대한 최종 일관성을 유지합니다.CAP을 준수합니다.

질문 3: 수천 개의 클러스터가 동시에 같은 지역에서 낮은 탄소 강도 이벤트를 탐지하고 워크로드를 그곳으로 이동하려고 할 때 thundering herd 문제를 어떻게 방지할 수 있습니까?

마이그레이션 결정 로직에서 무작위 지연을 사용하여 지연된 지수 백오프를 구현하여 조치를 비동기화합니다. 또한, etcd 또는 Consul을 사용하여 각 목적지 지역에 대한 동시 마이그레이션을 제한하는 분산 세마포어 또는 임대 메커니즘을 사용하여 최대 쿼터를 시행합니다. 또한, 역사적인 그리드 데이터를 기반으로 예상 모델을 사용하여 탄소 저점 예측을 통해 반응적 마이그레이션 대신 예측적 확장을 실시합니다. 이는 낮은 탄소 창이 열리기 전에 워크로드의 비동기 배치를 통해 수요 급증을 매끄럽게 유지하고, 자원의 고갈을 방지하면서 스케줄러의 분산화도 유지합니다.