Ответ на вопрос.

Архитектура сосредоточена на паттерне Durable Execution, разделяющем эфемерные вычисления и устойчивое состояние через контрольный слой, основанный на событиях. В своей основе определения рабочих процессов выполняются как детерминированные конечные автоматы, где каждое состояние перехода сохраняется как неизменяемое событие в Apache Kafka (журнал предварительной записи) до подтверждения, что позволяет детерминированно воспроизводить события во время сбоев. Вычислительный слой использует AWS Lambda или Azure Functions, организованные в специфические для арендаторов VPC и границы IAM, что обеспечивает изоляцию, используя подготовленные пулы одновременной работы для снижения холодных стартов. Для семантики "ровно один раз" в разных регионах система использует CockroachDB с сериализуемой изоляцией по умолчанию для хранения состояния рабочего процесса, применяя согласие Raft для кросс-региональной согласованности без необходимости в отдельной координирующей службе. Корреляция событий достигается с задержкой менее чем в одну секунду через многоуровневый подход: кластеры Redis с индексированием RedisJSON обрабатывают горячее соответствие событий в памяти, тогда как Elasticsearch служит холодным хранилищем для исторических запросов корреляции, при этом Cloudflare Workers предоставляет буферизацию событий на краю для поглощения всплесков трафика.

Ситуация из жизни

Во время Черной пятницы 2023 года SwiftCart (глобальная платформа электронной коммерции) столкнулась с катастрофическими сбоями в их реализацию Step Functions, обрабатывающей 50 миллионов параллельных рабочих процессов доставки, каждый из которых длился от 3 до 7 дней. Когда в us-east-1 произошел сбой региона, переключение на us-west-2 привело к 12,000 дублированным отправлениям, поскольку согласование состояния рабочего процесса зависело от окончательной согласованности DynamoDB с окнами TTL в 5 минут. В то же время события вебхуков перевозчика сталкивались с задержками корреляции в 30 секунд, что нарушало обещания по отслеживанию в реальном времени для клиентов и влекло за собой штрафы в 2 миллиона долларов из-за нарушения SLA.

Решение A: Оркестратор на основе Kubernetes с Airflow на EKS

Этот подход обещал полный контроль и зрелые инструменты через Apache Airflow, работающий на Amazon EKS с PostgreSQL в качестве хранилища метаданных. Плюсы включали обширные экосистемы плагинов и простые локальные среды разработки. Однако недостатки оказались фатальными: задержка планирования подов в среднем составила 45 секунд, что нарушало требование по масштабированию до нуля, согласно которому неактивные рабочие процессы должны иметь практически нулевые вычислительные расходы. Кроме того, поддержание синхронной репликации PostgreSQL между регионами добавляло 200 мс к каждому переходу состояния задания, а отсутствие встроенной семантики "ровно один раз" требовало сложного блокирования на уровне приложения, которое часто застревало в deadlock во время региональных переключений.

Решение B: Чистая событийная хореография с использованием Kafka и Lambda

Этот подход, ориентированный на безсерверную архитектуру, использовал Amazon MSK (Kafka) в качестве источника истинной информации с функциями Lambda, реагирующими на события без центрального оркестратора. Плюсы включали истинную экономику "плати за использование" и естественную устойчивость через сохранение на основе логов. Однако реализация семантики "ровно один раз" требовала распределенных транзакций, охватывающих DynamoDB (для идемпотентности) и Kafka, что вводило задержку более 500 мс на операцию. Более того, восстановление состояния рабочего процесса для длительных процессов (5-й день 7-дневного рабочего процесса) требовало воспроизведения миллионов событий из архивов S3, что приводило к времени восстановления более 10 минут и делало отладку "распределенного макаронного кода" невозможной, когда сбои происходили в середине последовательности.

Решение C: Платформа Durable Execution с управлением состоянием с использованием шардирования

Выбранная архитектура реализовала собственный контрольный слой, вдохновленный Temporal, разделяя устойчивое состояние (CockroachDB с геопартированными таблицами) от эфемерных рабочих Lambda. Consistent Hashing распределял шары рабочих процессов между региональными узлами базы данных, в то время как Redis Streams обеспечили буферизацию корреляции событий с задержкой менее миллисекунды. Плюсы включали родное поддержание семантики "ровно один раз" через сериализуемые транзакции CockroachDB, детерминированное воспроизведение для отладки и истинное масштабирование до нуля, где неактивные рабочие процессы оставались только в дешевых снимках S3. Минусы заключались в значительной операционной сложности поддержки кластеров etcd для обнаружения служб и необходимости сложного кэширования для предотвращения "громовых стад" во время массовых пробуждений.

Результат

Путем реализации Решения C с очередями SQS на каждую арендатора и тайм-аутами видимости в 1 секунду, SwiftCart достиг нулевого дублирования рабочих процессов во время следующего события Prime Day, несмотря на 45-минутный сбой в us-west-2. Корреляция событий p95 задержка снизилась до 400 мс благодаря кэшированию на краю через Redis. Инфраструктурные затраты уменьшились на 70% по сравнению с всегда включенным методом EKS, при этом 85% рабочих процессов существовали исключительно как сжатые снимки состояния в S3 в период бесхозного ожидания, что привело к экономии в 1.4 миллиона долларов в год.

Что кандидаты часто упускают из виду

Как вы предотвращаете расхождение состояния рабочего процесса, когда оба региона одновременно обрабатывают события во время сетевого разделения?

Большинство кандидатов неправильно предполагают семантику последней записи побеждает в DynamoDB или Cassandra, что не подходит для оркестрации рабочих процессов, потому что бизнес-операции не коммутативны (например, "отменить заказ" против "отправить заказ" нельзя разрешить только по временной метке). Правильная реализация использует Vector Clocks или Dotted Version Vectors, встроенные в метаданные состояния рабочего процесса. Когда сетевое разделение восстанавливается, система обнаруживает конкурентные ветви через сравнение векторов версий и применяет функции слияния, специфичные для домена. Для неразрешимых конфликтов (таких как одновременные отмена и отправка) архитектура реализует паттерн saga compensation, где последующая операция вызывает откат предыдущего действия с подробным ведением журнала аудита. В качестве альтернативы использование стандартной сериализуемой изоляции CockroachDB полностью предотвращает расхождения, отклоняя конфликтующие записи во время разделения и принуждая явные циклы повторных попыток с экспоненциальным замедлением, вместо того чтобы допускать молчаливое повреждение данных.

Как вы обрабатываете версионирование кода рабочего процесса, когда 7-дневный рабочий процесс, начатый на v1.0, должен завершиться после развертывания v2.0 с измененными семантиками активности?

Кандидаты часто упускают из виду требование Детерминированного воспроизведения, фундаментальное для устойчивого исполнения. Простое обновление кода функции Lambda нарушает текущие рабочие процессы, поскольку логика воспроизведения (используемая для восстановления состояния после сбоев) отклоняется от исходного пути выполнения, что вызывает недетерминированные исключения. Решение реализует явное Версионирование рабочего процесса через маркеры источников событий. При развертывании v2.0 работники должны одновременно поддерживать как v1.0, так и v2.0 реализации активности в WebAssembly песочницах или отдельных боковых контейнерах Docker. Запись состояния рабочего процесса фиксирует, какая версия кода выполняла каждую историческую активность; при воспроизведении работник загружает песочницу конкретной исторической версии, чтобы обеспечить детерминированное повторное выполнение предыдущих шагов, в то время как новые рабочие процессы используют v2.0. После максимального времени работы рабочего процесса (7 дней плюс 24-часовая резервная буферизация) код v1.0 может быть выведен из эксплуатации. Это требует поддержания совместимых подписей активности навсегда или применения Pact Contract Testing для проверки эквивалентности поведения между версиями.

Как вы защищаетесь от рабочих процессов "отравленной таблетки", содержащих бесконечные циклы или утечки памяти в пользовательском коде, не нарушая гарантии "ровно один раз" для здоровых рабочих процессов?

Простые Очереди мертвых писем (DLQ) фактически нарушают семантику "ровно один раз", потому что перемещение сообщения в DLQ требует подтверждения исходного сообщения, что рискует потерей сообщения, если запись в DLQ не удалась, или если потребитель вылетел во время операции. Надежное решение использует Отслеживание прогресса с идемпотентным контролем. Рабочие процессы подают сигналы каждые 30 секунд, записывая токены прогресса в etcd или CockroachDB, используя операции сравнения и замены. Если рабочий процесс вылетает трижды подряд на одной и той же задаче рабочего процесса (обнаруживается с помощью счетчика попыток выполнения, хранящегося в базе данных), задача помечается как "отравленная", но остается в очереди с экспоненциально увеличивающейся задержкой видимости (1 минута, 5 минут, 30 минут). Отдельный "хирургический" пул рабочих процессов с повышенной наблюдаемостью, лимитами памяти и подробным трассированием OpenTelemetry затем пытается выполнить задачу. Только после 24 часов постоянных сбоев рабочий процесс переходит в состояние "приостановлено", требующее вмешательства ручного оператора, сохраняя инвариант "ровно один раз" на протяжении всего времени, так как все переходы состояния используют временные метки MVCC в CockroachDB для атомарных операций сравнения и замены.