Ответ на вопрос

История вопроса

Традиционные подходы ручного тестирования развивались от проверки монолитных SQL транзакций, где одна база данных обеспечивала согласованность. С переходом на Микросервисы и архитектуру, ориентированную на события, обеспечение качества теперь сталкивается с задачей проверки распределенных Saga паттернов, где изменения состояния происходят асинхронно между границами сервисов, что требует новых методик для обеспечения целостности данных без блокировок двухфазной фиксации.

Проблема

Основная проблема заключается в обнаружении состояний гонки и состояний частичного сбоя, когда гарантии ACID изолированы для отдельных баз данных сервисов. В частности, проверка того, что резервирование запасов в PostgreSQL, авторизации платежей через внешние API и подтверждения заказов через темы Apache Kafka сохраняют согласованность во время сетевых разделений, перебалансировки потребителей Kafka или сбоев в недействительности кеша Redis, требует понимания компромиссов теоремы CAP и окон конечной согласованности.

Решение

Всеобъемлющая методология ручного тестирования, вдохновленная Chaos Engineering, которая сочетает в себе точные манипуляции с временем и картирование переходов состояния. Это включает в себя ручное введение задержек в группы потребителей Kafka с помощью Proxy инструментов, моделирование исключений кеша Redis во время активных транзакций, и проверку того, что компенсационные транзакции Saga корректно откатывают операции, когда происходят сбои вниз по потоку, обеспечивая согласованность системы без появления фантомных запасов или дублирующих сборов.

Ситуация из жизни

Рынок предметов роскоши готовился к ограниченному выпуску 100 эксклюзивных часов с ожидаемым одновременным спросом более 10 000 пользователей. Архитектура использовала микросервисы Spring Boot, где Сервис Инвентаризации управлял запасами в PostgreSQL, Сервис Платежей интегрировался с Stripe API, а Apache Kafka обеспечивал асинхронное общение между ними. Во время симуляции перед производством команда обнаружила критическую ошибку, когда два пользователя одновременно купили последний доступный экземпляр, потому что проверка и резервирование запасов происходили в отдельных асинхронных сообщениях, создавая сценарий разделения мозга, где оба платежа были захвачены до того, как какой-либо сервис заказа подтвердил вычитание запасов.

Решение 1: Горизонтальное масштабирование потребителей Kafka

Этот подход заключался в увеличении числа экземпляров потребителей, чтобы сократить задержку обработки сообщений и минимизировать окно для состояний гонки. Основным преимуществом было увеличение пропускной способности и снижение задержки при нормальной нагрузке. Однако это не решало проблему состояния гонки; оно просто снижало статистическое вероятностное столкновение, оставаясь возможным во время пикового трафика или событий перебалансировки потребителей.

Решение 2: Внедрение распределенных блокировок через Redis Redlock

Эта стратегия внедрила атомарные механизмы блокировки, где Сервис Инвентаризации получал распределенную блокировку перед обработкой любого запроса на оформление заказа. Хотя это предотвращало одновременные изменения одного и того же товарного элемента, это создало значительную задержку в процессе оформления заказа, создало потенциальную единую точку отказа, если кластер Redis испытывал сетевые разделения, и усложнило сценарии восстановления после сбоев, когда блокировки могли не быть освобождены из-за сбоев приложения.

Решение 3: Ручное организованное внедрение сбоев с контролем разделов Kafka

Эта методология требовала от тестировщиков вручную приостанавливать определенные разделы Kafka с помощью администраторских инструментов, таких как Kafdrop, одновременно внедряя сетевую задержку через политики сетей Docker. Это позволяло точно воспроизводить точное окно времени между авторизацией платежа и обязательством запасов. Подход был времязатратным и требовал повышенных привилегий для манипуляций с сетевыми политиками Kubernetes, но он обеспечивал детерминированное воспроизведение состояний гонки и прямое наблюдение за триггерами компенсационных транзакций Saga.

Выбранное решение и аргументация

Решение 3 было выбрано, потому что только детерминированное ручное вмешательство могло выявить уязвимость временной задержки между сервисами. Приостанавливая потребитель запасов и одновременно позволяя потребителю платежей обрабатывать свои транзакции, мы подтвердили, что в системе отсутствовал предварительный замок на резервирование платежей, и что компенсационные рабочие потоки не срабатывали автоматически при обнаружении конфликтов инвентаризации.

Результат

Команда разработчиков внедрила паттерн двухфазной фиксации с состоянием Pending инвентаризации, который резервировал запасы до обработки платежей. Ручное тестирование затем подтвердило, что принудительное перераспределение Kafka во время активного оформления заказа корректно инициировало компенсацию Saga, освобождая как резервирования запасов, так и удержание платежей без потери данных. Последующий запуск продукта прошел успешно без дублирования продаж, и все 100 единиц были учтены в финальном учете.

Что часто упускают кандидаты

Как вы проверяете свойства ACID, когда Микросервисы реализуют конечную согласованность вместо распределенных транзакций?

Кандидаты часто смешивают локальную соблюдаемость базы данных ACID с глобальной согласованностью системы. В ручном тестировании вам необходимо специально создавать сценарии, где транзакция PostgreSQL успешно фиксируется, но последующая публикация сообщения Apache Kafka завершается неудачей, что можно достичь с помощью разделений сети Docker для изоляции брокера сообщений. Подтверждайте, что сервис реализует Outbox Pattern или транзакционное сообщение, чтобы обеспечить атомарность фиксации базы данных и публикации событий. Проверьте наличие сиротских записей, осуществляя запросы к базе данных напрямую, блокируя при этом брокер сообщений, затем подтвердите, что механизмы повторной попытки в конечном итоге синхронизируют состояние без вмешательства человека или повреждения данных.

Что отличает тестирование идемпотентности от тестирования точно-один семантики в очередях сообщений, и почему это критично для ручного QA?

Многие тестировщики ошибочно рассматривают эти концепции как взаимозаменяемые. Идемпотентность гарантирует, что обработка одного и того же сообщения несколько раз дает такой же результат, как и его однократная обработка, что вы проверяете, вручную повторяя сообщение Kafka из Offset Explorer и проверяя, не происходит ли дублирующий сбор или вычитание инвентаризации. Точно-один семантика гарантирует, что сама инфраструктура предотвращает дубликат доставки, что вы проверяете, наблюдая за поведением транзакционного производителя Kafka во время сценариев отказа брокеров. Ручное QA должно проверять обе измерения: что приложение корректно обрабатывает дубликаты через идемпотентную логику, и что фильтры дедупликации на основе UUID функционируют правильно, когда брокер законно повторно доставляет сообщения из-за таймаутов подтверждений.

Как вы проверяете компенсационные транзакции внутри паттерна Saga, не рискуя целостностью финансовых данных в производстве?

Это требует создания изолированных тестовых сред, которые отражают производственные schemas и API контракты, но используют песочницу для платежных провайдеров. Вручную вызывайте последовательности сбоев, останавливая Docker контейнеры сразу после шага авторизации платежа, но до подтверждения сервиса инвентаризации. Убедитесь, что рабочий поток компенсации корректно выдает возвраты и освобождает распределенные блокировки Redis. Кандидаты часто упускают из виду проверку того, что механизм компенсации сам может потерпеть неудачу; вам необходимо протестировать блокировку пути компенсации, например, симулируя сбой сети во время фазы отката и убедившись, что система попадает в четко определенное состояние тревоги Compensation Failed с соответствующими сигналами мониторинга, а не в неопределенное несогласованное состояние, которое может привести к финансовым расхождениям.