Odpowiedź na pytanie.

Architektura opiera się na wzorcu Durable Execution, oddzielając efemeryczną moc obliczeniową od trwałego stanu poprzez kontrolną płaszczyznę opartą na zdarzeniach. W jej rdzeniu definicje procesów są realizowane jako deterministyczne maszyny stanowe, gdzie każde przejście stanu jest zapisywane jako niezmienne zdarzenie w Apache Kafka (dziennik przed zapisaniem) przed potwierdzeniem, co umożliwia deterministyczne odtwarzanie w przypadku awarii. Warstwa obliczeniowa wykorzystuje AWS Lambda lub Azure Functions zorganizowane w specyficzne dla najemców VPC i granice IAM, zapewniając izolację, a jednocześnie korzystając z puli ciepłych instancji przydzielonych na potrzeby zapobiegania długim czasom uruchamiania. Aby uzyskać semantykę dokładnie raz między regionami, system korzysta z CockroachDB z domyślną izolacją serializowalną do przechowywania stanu procesu, wykorzystując konsensus Raft do zapewnienia spójności międzyregionowej bez potrzeby posiadania oddzielnej usługi koordynującej. Korelacja zdarzeń osiąga opóźnienie poniżej sekundy dzięki podejściu warstwowemu: klastry Redis z indeksowaniem RedisJSON obsługują dopasowanie gorących zdarzeń w pamięci, podczas gdy Elasticsearch służy jako zimne magazynowanie dla historycznych zapytań korelacyjnych, a Cloudflare Workers zapewniają buforowanie zdarzeń po stronie krawędzi, aby wchłonąć szczyty ruchu.

Sytuacja z życia

Podczas Black Friday 2023, SwiftCart (globalna platforma e-commerce) doświadczyła katastrofalnych awarii w swojej dziedzicznej implementacji Step Functions podczas przetwarzania 50 milionów równoległych procesów dostawy trwających od 3 do 7 dni. Kiedy us-east-1 doświadczył lokalnej awarii, przełączenie na us-west-2 skutkowało 12 000 zduplikowanych przesyłek, ponieważ rekonsyliacja stanu pracy polegała na finalnej spójności DynamoDB z oknami TTL wynoszącymi 5 minut. Równocześnie, zdarzenia webhook od przewoźnika miały 30-sekundowe opóźnienia w korelacji, łamiąc obietnice śledzenia w czasie rzeczywistym dla klientów i ponosząc kary w wysokości 2 milionów dolarów za niedotrzymanie umowy SLAs.

Rozwiązanie A: Orkiestrator oparty na Kubernetes z Airflow na EKS

Podejście to obiecywało pełną kontrolę oraz dojrzałe narzędzia dzięki Apache Airflow działającemu na Amazon EKS z PostgreSQL jako magazyn danych o metadanych. Zalety obejmowały szerokie ekosystemy wtyczek oraz proste lokalne środowiska deweloperskie. Jednak wady okazały się fatalne: opóźnienie harmonogramowania podów wynosiło średnio 45 sekund, naruszając wymaganie zero skalowania, że nieaktywne procesy powinny generować prawie zerowe koszty obliczeniowe. Dodatkowo, utrzymanie synchronicznej replikacji PostgreSQL między regionami dodało 200 ms do każdego przejścia stanu zadania, a brak wbudowanej semantyki dokładnie raz wymagał skomplikowanego blokowania na poziomie aplikacji, które często zrywało się podczas przełączeń regionalnych.

Rozwiązanie B: Czysta choreografia oparta na zdarzeniach z użyciem Kafki i Lambdy

To podejście typu serverless wykorzystywało Amazon MSK (Kafka) jako źródło prawdy, z funkcjami Lambda reagującymi na zdarzenia bez centralnego orkiestratora. Zalety obejmowały prawdziwą ekonomię płatności za użycie oraz naturalną odporność dzięki trwałemu zapisywaniu opartemu na logach. Niemniej jednak, wdrożenie semantyki dokładnie raz wymagało rozproszonych transakcji obejmujących DynamoDB (dla idempotencji) oraz Kafkę, wprowadzając opóźnienia przekraczające 500 ms na operację. Ponadto, rekonstrukcja stanu procesu dla długotrwałych procesów (5 dzień 7-dniowego procesu) wymagała odtworzenia milionów zdarzeń z archiwów S3, powodując czasy odzyskiwania przekraczające 10 minut i uniemożliwiając debugowanie "rozproszonego spaghetti", gdy awarie wystąpiły w trakcie przetwarzania.

Rozwiązanie C: Platforma z trwałym wykonaniem z zarządzaniem stanem podzielonym

Wybrana architektura wdrożyła niestandardową płaszczyznę kontrolną w stylu Temporal, oddzielając trwały stan (CockroachDB z tabelami zgeo-znaczonymi) od efemerycznych pracowników Lambda. Consistent Hashing rozdzielał fragmenty procesu między regionalnymi węzłami baz danych, podczas gdy Redis Streams zapewniały buforowanie korelacji zdarzeń z opóźnieniem poniżej milisekundy. Zalety obejmowały wbudowaną semantykę dokładnie raz dzięki serializowanym transakcjom CockroachDB, deterministyczne odtwarzanie dla debugowania oraz prawdziwe zero skalowanie, gdzie nieaktywne procesy przebywały tylko w tanich migawkach S3. Wady wiązały się z znaczną złożonością operacyjną w utrzymaniu klastrów etcd do odkrywania usług oraz potrzebą zaawansowanego cache’owania, aby zapobiec burzom błędów podczas masowych scenariuszy budzenia.

Wynik

Dzięki wdrożeniu Rozwiązania C z kolejkami SQS dla każdego najemcy i 1-sekundowymi limitami widoczności, SwiftCart osiągnęło zerową duplikację procesów podczas następnego wydarzenia Prime Day mimo 45-minutowej awarii us-west-2. Opóźnienie p95 korelacji zdarzeń spadło do 400 ms dzięki buforowaniu krawędziowemu Redis. Koszty infrastruktury zmniejszyły się o 70% w porównaniu do zawsze aktywnego podejścia EKS, z 85% procesów istniejącą wyłącznie jako skompresowane migawki stanu w S3 w okresach oczekiwania na bezczynności, co przyniosło oszczędności w wysokości 1,4 miliona dolarów rocznie.

Co kandydaci często przeoczają

Jak zapobiegasz odmienności stanu procesu, gdy oba regiony równocześnie przetwarzają zdarzenia podczas partycji sieciowej?

Większość kandydatów poprawnie sugeruje semantykę last-write-wins w DynamoDB lub Cassandra, co zawodzi w przypadku orkiestracji procesów, ponieważ operacje biznesowe są niekomutatywne (np. „anuluj zamówienie” w przeciwieństwie do „wysyłka zamówienia” nie mogą być rekonsyliowane tylko na podstawie znacznika czasowego). Prawidłowa implementacja wykorzystuje Wektory Wersji lub Kropkowane Wektory Wersji osadzone w metadanych stanu procesu. Kiedy partia sieciowa się goi, system wykrywa współbieżne gałęzie poprzez porównanie wektorów wersji i stosuje funkcje łączenia specyficzne dla dziedziny. W przypadku nierozwiązywalnych konfliktów (takich jak równoczesne anulowanie i wysyłka), architektura wdraża wzorzec kompensacji sagi, gdzie późniejsza operacja wywołuje wycofanie wcześniejszej akcji z kompleksowym logowaniem audytowym. Alternatywnie, wykorzystanie domyślnej izolacji serializowanej CockroachDB całkowicie zapobiega odmienności, odrzucając konflikty zapisu podczas partycji, wymuszając explicite pętle ponownego próbowania z wykładniczym opóźnieniem, a nie pozwalając na cichą korupcję danych.

Jak rozwiązujesz problem wersjonowania kodu procesu, gdy 7-dniowy proces uruchomiony na v1.0 musie być zakończony po wdrożeniu v2.0 z zmienionymi semantykami aktywności?

Kandydaci często przeoczają wymagania Deterministycznego Odtwarzania, które są fundamentalne dla trwałego wykonania. Po prostu aktualizowanie kodu funkcji Lambda przerywa procesy w toku, ponieważ logika odtwarzania (wykorzystywana do rekonstrukcji stanu po awariach) odchodzi od pierwotnej ścieżki wykonania, powodując wyjątki niedeterministyczne. Rozwiązanie wdraża wyraźne Wersjonowanie Procesu poprzez znaczniki pochodzenia zdarzeń. Podczas wdrożenia v2.0, pracownicy muszą równocześnie wspierać zarówno implementacje aktywności v1.0, jak i v2.0 w ramach piaskownic WebAssembly lub oddzielnych kontenerów Docker. Rekordy stanu procesu określają, która wersja kodu wykonała każdą historyczną aktywność; podczas odtwarzania, pracownik ładuje specyficzną historyczną wersję piaskownicy, aby zapewnić deterministyczne ponowne wykonanie wcześniejszych kroków, podczas gdy nowe procesy wykorzystują v2.0. Po maksymalnym czasie trwania procesu (7 dni plus 24 godziny na bezpieczeństwo), kod v1.0 może zostać wycofany. To wymaga utrzymania podpisów aktywności wstecznie kompatybilnych na zawsze lub zastosowania Testowania Umów Pact, aby zweryfikować równoważność zachowania między wersjami.

Jak chronisz przed "trucizną" poleceń zawierających nieskończone pętle lub wycieki pamięci w kodzie użytkownika, nie łamiąc gwarancji dokładnie raz dla zdrowych procesów?

Proste Kolejki Zmarłych Listów (DLQ) faktycznie naruszają semantykę dokładnie raz, ponieważ przeniesienie wiadomości do DLQ wymaga potwierdzenia oryginalnej wiadomości, co naraża na ryzyko utratę wiadomości, jeśli zapis DLQ się nie powiedzie lub jeśli konsument zawiedzie w trakcie operacji. Solidne rozwiązanie stosuje Śledzenie Postępu z idempotentnym punktowaniem. Pracownicy wykonują sygnały co 30 sekund, zapisując tokeny postępu w etcd lub CockroachDB przy użyciu operacji porównania i wymiany. Jeśli pracownik zawiedzie trzy razy pod rząd na tym samym zadaniu procesu (wykrywane poprzez licznik prób wykonania przechowywany w bazie danych), zadanie jest oznaczane jako "zatrute", ale pozostaje w kolejce z wykładniczo zwiększającym się opóźnieniem widoczności (1 minuta, 5 minut, 30 minut). Oddzielna pula pracowników "chirurgicznych" z zaawansowaną widocznością, ograniczeniami pamięci i szczegółowym śledzeniem OpenTelemetry następnie podejmuje próbę wykonania. Dopiero po 24 godzinach uporczywych awarii proces przechodzi w stan "zawieszony", wymagający manualnej interwencji operatora, zachowując dalej invariant dokładnie raz, ponieważ wszystkie przejścia stanu wykorzystują znaczniki czasu MVCC w CockroachDB do atomowych operacji porównania i wymiany.