質問への回答

質問の歴史

従来の手動テストアプローチは、単一のデータベースが整合性を強制するモノリシックなSQLトランザクションを検証することから進化してきました。マイクロサービスおよびイベント駆動アーキテクチャへの移行に伴い、品質保証は、状態変化がサービスの境界を越えて非同期に伝播する分散型のサガパターンを検証するという課題に直面しており、二相コミットロックなしでデータ整合性を確保するための新しい手法が必要とされています。

問題

コアの課題は、ACID保証が個々のサービスデータベースに限定される場合におけるレースコンディションおよび部分的な失敗状態を検出することにあります。具体的には、PostgreSQLでの在庫予約、外部API経由の支払い認可、Apache Kafkaトピックを介した注文確認の一貫性を、ネットワーク分断、Kafkaのコンシューマーバランス、またはRedisキャッシュの無効化失敗中に維持することを検証することは、CAP定理のトレードオフと最終的な整合性のウィンドウを理解することを必要とします。

解決策

正確なタイミング操作と状態遷移マッピングを組み合わせた包括的なカオスエンジニアリングに触発された手動テスト手法。このアプローチは、プロキシツールを使用してKafkaコンシューマーグループに遅延を手動で注入し、アクティブなトランザクション中にRedisキャッシュの排出をシミュレートし、ダウンストリームの失敗が発生した際にサガ補償トランザクションが正しくロールバック操作を行い、システムが仮想在庫や重複料金を発生させることなく一貫性を維持することを検証します。

実生活のシチュエーション

高級時計市場は、10,000人以上のユーザーからの同時需要が見込まれる100個の限定版時計の発売を準備していました。アーキテクチャはSpring Bootマイクロサービスを利用し、在庫サービスがPostgreSQLで在庫を管理し、支払いサービスがStripe APIと統合され、Apache Kafkaがそれらの非同期通信を促進していました。事前生産シミュレーション中に、チームは在庫確認と予約が別の非同期メッセージ内で行われるため、2人のユーザーが同時に最終の利用可能ユニットを購入したという重要な欠陥を発見しました。これにより、両方の支払いが在庫の差し引きが確認される前にキャプチャされるスプリットブレインシナリオが発生しました。

解決策 1: Kafkaコンシューマーの水平スケーリング

このアプローチでは、メッセージ処理の遅延を減らし、レースコンディションのウィンドウを最小限に抑えるために、コンシューマーインスタンスを増加させました。主な利点は、正常負荷時のスループットが向上し、レイテンシが低下することでした。しかし、これではレースコンディションを根本的に解決することにはならず、ピークトラフィックまたはコンシューマーバランスイベント中には依然として可能でした。

解決策 2: Redis Redlockを使用した分散ロックの実装

この戦略では、在庫サービスがチェックアウトリクエストを処理する前に分散ロックを取得する原子的なロックメカニズムを導入しました。これにより、同じ在庫アイテムへの同時変更が防止されましたが、チェックアウトフローに大きな遅延をもたらし、Redisクラスターがネットワーク分断を経験した場合には潜在的な単一障害点を作り出し、アプリケーションクラッシュのためにロックが解放されないという失敗回復シナリオを複雑にしました。

解決策 3: Kafkaパーティション制御による手動オーケストレーション失敗注入

この方法論では、テスターがKafdropなどの管理ツールを使用して特定のKafkaパーティションを手動で一時停止させ、Dockerネットワークポリシーを介してネットワーク遅延を注入する必要がありました。これにより、支払い認可と在庫のコミットメント間の正確なタイミングウィンドウを再現することが可能になりました。このアプローチは時間がかかり、Kubernetesネットワークポリシーを操作するために特権が必要でしたが、レースコンディションの決定論的な再現とサガ補償トランザクショントリガーの直接観察を提供しました。

選択した解決策と理由

解決策3が選択されたのは、決定論的な手動介入のみがサービス間のマイクロ秒のタイミング脆弱性を露呈できるからです。在庫コンシューマーを一時停止し、支払いコンシューマーが処理を行うことを意図的に確認することで、システムがプレイメント予約ロックを欠いていることを確認し、在庫の競合が検出された際に補償ワークフローが自動的にトリガーされないことが判明しました。

結果

開発チームは、支払い処理前に在庫を予約する保留中の在庫ステータスを持つ二相コミットパターンを実装しました。手動テストでは、アクティブなチェックアウト中にKafkaの再バランスを強制することで、サガの補償が正しくトリガーされ、在庫予約と支払い保留がデータ損失なしに解放されることが確認されました。その後の製品発売は成功裏に進行し、重複販売報告はゼロで、最終元帳にすべての100ユニットが記録されました。

候補者がしばしば見落とす点

マイクロサービスが分散トランザクションではなく最終的な整合性を実装する際、ACIDプロパティをどのように検証しますか？

候補者は、ローカルデータベースのACIDコンプライアンスをグローバルなシステム整合性と混同することがよくあります。手動テストでは、PostgreSQLのトランザクションが成功裏にコミットされるが、その後のApache Kafkaメッセージ公開が失敗するシナリオを意図的にエンジニアする必要があります。これは、メッセージブローカーを分離するためにDockerネットワーク分断を使用することで実現できます。サービスがOutboxパターンやトランザクションメッセージングを実装してデータベースコミットとイベント公開が原子的に維持されることを確認します。メッセージブローカーをブロックしながら直接データベースをクエリして孤立レコードをチェックし、再試行メカニズムが最終的に手動介入やデータ破損なしに状態を同期することを確認します。

メッセージキューの冪等性のテストと正確に一度のみのセマンティクスのテストを区別するものは何ですか？手動QAにとってなぜこれが重要なのですか？

多くのテスターは、これらを相互に交換可能な概念と誤解します。冪等性は、同じメッセージを複数回処理しても、一度処理した結果と同一になることを保証します。これは、Offset ExplorerからKafkaメッセージを手動でリプレイし、重複請求や在庫引き去りが発生しないことを検証することでテストします。正確に一度のみのセマンティクスは、インフラ自体が重複配送を防ぐことを保証します。これは、ブローカーのフォールオーバーシナリオ中にKafkaトランザクショナルプロデューサーの動作を観察することで検証します。手動QAは、アプリケーションが冪等的ロジックを介して重複を適切に処理すること、さらにUUIDベースの重複除去フィルターが、ブローカーが確認タイムアウトのためにメッセージを正当に再配信したときに正しく機能することの両方を検証する必要があります。

生産財務データの整合性を危険にさらすことなく、サガパターン内の補償トランザクションをどのように検証しますか？

これは、実際のスキーマとAPI契約に基づいた隔離されたテスト環境を構築する必要がありますが、支払いプロバイダー用にサンドボックス資格情報を使用します。支払い認可ステップ直後にDockerコンテナを終了させることによって失敗シーケンスを手動でトリガーし、補償ワークフローが適切に払い戻しを発行し、Redis分散ロックを解放することを確認します。候補者は補償メカニズム自体が失敗することを検証することをしばしば見落とします。ロールバックフェーズ中にネットワーク障害をシミュレートするなどして補償パスをブロックし、システムが適切なモニタリングアラートを備えた明確な補償失敗アラーム状態に入ることを確認する必要があります。無定義の不整合状態に陥ることは避けるべきであり、これが財務的不一致につながる可能性があります。