質問への回答

質問の歴史

この設計上の課題は、Google、Amazon、Metaなどの企業でハイパースケールインフラを運用する際に浮上しました。これらの企業では、制御プレーンが数十億の構成エントリを数百万の一時的なコンピュートインスタンスで管理する必要があります。初期システムのChubbyやZooKeeperは強い一貫性を提供しましたが、ノード数が何十万を超えるとスループットのボトルネックに直面しました。Kubernetesのようなオーケストレーションで多地域のアクティブ-アクティブ展開をサポートしつつ部分的なネットワーク障害に耐える必要性が、緩い一貫性モデルを持つ連合型制御プレーンへの進化を促しました。

問題

核心的な緊張は、CAP定理の制約を満たすことにあります：セキュリティ上重要な更新（証明書のローテーションなど）に対して線形的一貫性を提供しながら、地域間ネットワークの分断時に可用性を維持することです。従来の単一クラスターのetcdデプロイメントは、数百万のノードが地域的障害の後に同時に再接続する際にスループットホットスポットおよび単一障害点となります。さらに、ビザンチン耐障害性が必要であり、地域的制御プレーンが悪意のある構成をデータプレーンノードに伝播するのを防ぐ必要があります。

解決策

地域のコンセンサスリングを使用して局所的一貫性を持つ階層型制御プレーンアーキテクチャを実装し、これを地域間の最終的一貫性のためにゴシップベースのアンチエントロピー・プロトコルで相互接続します。セキュリティ上の重要な更新には、強化されたバリデータノードのグローバルクオーラム内でビザンチン耐障害コンセンサス (BFT)（例：TendermintやHotStuff）を利用します。データプレーンエージェントは、マーレクルツリーに基づく段階的キャッシングを行い、サンダリングハードを防ぐためにジッターを伴う指数バックオフを採用します。サービス発見は、地域のキャッシュとして動作するローカルEnvoyサイドカーを使ってBGPに触発されたルート伝播を活用します。

実生活からの状況

問題の説明

グローバル動画ストリーミングプラットフォームのインフラをリードしている間、ゼロデイ脆弱性をパッチするために必要なTLS証明書のローテーション中に重大なインシデントに直面しました。このプラットフォームは50の地域にわたって500万のエッジコンテナを管理していました。証明書機関が新しい資格情報を公開すると、すべてのノードが同時に中央のConsulクラスターから更新を取得しようとし、制御プレーンを圧倒するサンダリングハードが発生しました。これによりカスケーディングタイムアウトが発生し、誤った健康チェックの失敗を引き起こし、不必要なポッドの追放が始まり、40%のユーザーに対してストリーミングの品質が低下しました。

解決策 1: 中央データストアの垂直スケーリング

我々は、接続スパイクを吸収するために高メモリのベアメタルインスタンスとNVMeストレージを使用してetcdクラスターをアップグレードすることを検討しました。このアプローチは、最小限のアーキテクチャ変更を提供し、強い一貫性を保証しました。しかし、垂直スケーリングには物理的な限界があり、膨大な影響範囲を生むため、中央クラスターが失敗した場合、全体のグローバルインフラが同時に構成状態を失うことになります。安定した運用中にそのような過大なクラスターを維持するコストは経済的に禁止されていました。

解決策 2: 完全分散型ゴシッププロトコル

別の選択肢として、中央制御プレーンを完全に排除し、ノードが構成のデルタを直接交換するSWIMベースのゴシッププロトコルを使用することを検討しました。これにより単一障害点が排除され、ノード数に対して線形にスケールしました。しかし、セキュリティ更新の因果的一貫性を確保することがほぼ不可能になり、構成変更の収束時間が通常の負荷下で30秒を超えました。さらに、ゴシッププロトコルは強いアイデンティティ検証がないとSybil攻撃に対して脆弱であり、証明書配布にセキュリティリスクをもたらします。

解決策 3: 地域的シャードを持つ階層型フェデレーション

最終的に、地域のRaftクラスターが地元のトポロジに対して権威的なシャードとして機能し、グローバルBFT層によってセキュリティ更新の暗号検証がバックアップされる三層システムを設計しました。エッジノードは地域の制御プレーンに持続的な接続を維持し、ローカルのBoltDBキャッシュを使用し、上流の圧力を検出した場合にジッターを伴う指数バックオフを適用しました。地域クラスターは、mTLS保護されたgRPCストリームを介して通信し、変更された構成キーを同期するためにマーレクルツリーの差分を利用しました。

選択した解決策と結果

私たちは階層型フェデレーションアプローチを選択しました。これにより影響範囲を個別の地域に制限し、シャードごとにカナリアデプロイメントを使用して証明書のロールアウトを段階的に制限できるようになりました。クライアントサイドのバックオフを完全なジッターと共に実装し、地域のEnvoyプロキシをサーキットブレーカーとして使用することで、次のローテーション中に制御プレーンの負荷を95%削減しました。このシステムは、毎分1000万件のノード登録を維持し、99.999%の可用性を持ち、800ミリ秒以内に重要なセキュリティ更新をグローバルに伝播します。

候補者が見落としがちなこと

中央集権的な調整ボトルネックを導入せずに、マスクライアントの再接続時にサンダリングハードシナリオを防ぐにはどうすればよいですか？

候補者はしばしばサーバーでの単純なレート制限を提案しますが、これは単にクライアント側のタイムアウトおよびリトライの嵐に失敗モードを移すだけです。正しいアプローチは、クライアントで完全なジッターを伴うランダムな指数バックオフを実装し、地域プロキシでのAIMD（加算的増加乗算的減少）レート制限を併用します。クライアントは、最後に知られた良好な構成をTTLでキャッシュし、制御プレーンが利用できない間は劣化モードで動作し、ローカルステート更新のためにCRDTに基づく競合解決を使用すべきです。さらに、遅延後に異なる地域のエンドポイントに重複リクエストを送信するHedgeリクエストを展開することで、負荷を増加させずにレイテンシを改善できます。

地域管理者が侵害される可能性があるグローバルに分散した構成システムでビザンチン障害を検出し緩和するにはどうすればよいですか？

多くの候補者はmTLS認証に焦点を当てますが、構成コミットのためにビザンチン耐障害性コンセンサスが必要であることを忘れがちです。この解決策は、グローバル検証層のためのBFT状態機械複製（Tendermintなど）を必要とし、地理的に分散されたバリデータの圧倒的多数（2f+1）がEd25519を使用して構成ダイジェストに暗号的に署名し、地域制御プレーンがそれを受け入れる必要があります。データプレーンノードは過去の構成のマーレクルツリーを維持し、改ざんを検知するためにゴシッププロトコルを使用した軽量アンチエントロピーチェックを実施すべきです。さらに、異なる法的管轄におけるハードウェアセキュリティモジュール（HSM）を必要とするマルチシグネチャスキームの実装は、単一の妥協点を防ぎます。

ネットワークの分断が長期間地域制御プレーンを隔離する場合、サービス発見のために因果的一貫性を維持するにはどうすればよいですか？

候補者はしばしば因果的一貫性と最終的一貫性を混同し、重要な依存関係を無視して「最後の書き込みが勝つ」（LWW）競合解決を提案します。適切な解決策は、各サービス登録イベントに対してベクトルクロックまたはバージョンベクトルを使用し、ノードが分断の治癒中に同時更新を検出できるようにします。地域の制御プレーンは、分断内での更新の効率的な普及のためにPlumtreeゴシッププロトコルを使用して因果ブロードキャストを実装するべきです。分断が治癒したとき、ノードはマーレクルツリー比較を行い、異なる履歴を特定し、削除よりも追加を保持するドメイン固有のマージ関数（サービスレジストリ用のOR-Setなど）を適用してファントムサービスエントリを防ぎつつ単調な読み取りを確保します。