Antwoord op de vraag.

De architectuur is gecentreerd rondom het Durable Execution patroon, waarbij ephemerale compute wordt gescheiden van duurzame staat door middel van een event-sourced controlepaneel. In zijn kern worden workflowdefinities uitgevoerd als deterministische toestandsmachines waarbij elke toestandsverandering wordt vastgelegd als een ongewijzigde gebeurtenis in Apache Kafka (write-ahead log) voordat deze wordt erkend, wat deterministische replay tijdens fouten mogelijk maakt. De compute-laag maakt gebruik van AWS Lambda of Azure Functions georganiseerd in tenant-specifieke VPC's en IAM-grenzen, die isolatie garanderen terwijl ze ingestelde concurrentie warm pools benutten om koude starten te verminderen. Voor exact-eens semantiek over regio's, maakt het systeem gebruik van CockroachDB met de standaard isolatie voor serialiseerbaarheid om de workflowstaat op te slaan, met behulp van Raft consensus voor cross-region consistentie zonder een aparte coördinatiedienst te vereisen. Evenementcorrelatie bereikt sub-seconde latentie via een gelaagd systeem: Redis clusters met RedisJSON indexing behandelt hete evenementmatching in het geheugen, terwijl Elasticsearch dient als de koude opslag voor historische correlatie queries, met Cloudflare Workers die randzijde evenementbuffering bieden om verkeerspieken op te vangen.

Situatie uit het leven

Tijdens Black Friday 2023 ondervond SwiftCart (een wereldwijde e-commerceplatform) catastrofale fouten in hun legacy Step Functions implementatie terwijl ze 50M gelijktijdige leveringsworkflows verwerkten die 3-7 dagen duurden. Toen us-east-1 een regionale onderbreking ervoer, resulteerde failover naar us-west-2 in 12.000 gedupliceerde zendingen omdat workflowstaat reconciliatie afhankelijk was van DynamoDB uiteindelijke consistentie met 5-minuten TTL-vensters. Tegelijkertijd ondervonden carrier webhook gebeurtenissen vertragingen van 30 seconden in correlatie, waardoor realtime tracking beloften aan klanten werden geschonden en $2M aan SLA-straffingen werden opgelopen.

Oplossing A: Kubernetes-gebaseerde orchestrator met Airflow op EKS

Deze aanpak beloofde volledige controle en volwassen tooling door Apache Airflow draaiend op Amazon EKS met PostgreSQL als de metadata-opslag. Voordelen omvatten uitgebreide plug-in ecosystemen en eenvoudige lokale ontwikkelomgevingen. Echter, de nadelen bleken fataal: pod scheduling latentie gemiddeld 45 seconden, wat de scale-to-zero vereiste vereiste dat inactieve workflows bijna nul compute-kosten zouden veroorzaken. Bovendien voegde het onderhouden van PostgreSQL synchronisatie replicatie tussen regio's 200ms toe aan elke taakstaatovergang, en het gebrek aan ingebouwde exact-eens semantiek vereiste complexe applicatieniveauvergrendeling die vaak vastliep tijdens regionale failovers.

Oplossing B: Pure event-gedreven choreografie met Kafka en Lambda

Deze serverless-native aanpak maakte gebruik van Amazon MSK (Kafka) als de bron van waarheid met Lambda functies die reageerden op gebeurtenissen zonder een centrale orchestrator. Voordelen omvatten ware pay-per-use economieën en natuurlijke veerkracht door log-gebaseerde persistentie. Echter, het implementeren van exact-eens semantiek vereiste gedistribueerde transacties die DynamoDB (voor idempotentie) en Kafka overspanden, wat 500ms+ latentie per operatie introduceerde. Bovendien vereiste het reconstrueren van de workflowstaat voor langlopende processen (dag 5 van een 7-daagse workflow) het opnieuw afspelen van miljoenen evenementen uit S3 archieven, waardoor de hersteltijden meer dan 10 minuten overschreden en het debuggen van "gedistribueerde spaghetti" onmogelijk maakte wanneer fouten zich voordeden midden in de volgorde.

Oplossing C: Duurzaam Uitvoeringsplatform met gesharded staatbeheer

De gekozen architectuur implementeerde een aangepaste Temporal-geïnspireerde controlepaneel die duurzame staat (CockroachDB met geo-gepartitioneerde tabellen) scheidde van ephemerale Lambda werkers. Consistent Hashing verdeelde workflow shards over regionale databasenodes, terwijl Redis Streams sub-miliseconde evenement correlatie buffering leverden. Voordelen omvatten native exact-eens door CockroachDB's serialiseerbare transacties, deterministische replay voor debugging, en ware scale-to-zero waar inactieve workflows alleen in goedkope S3 snapshots resideerden. Nadelen omvatten significante operationele complexiteit bij het onderhouden van etcd clusters voor service discovery en de noodzaak voor geavanceerd cachen om donderslagen tijdens massale wakker-scenario's te voorkomen.

Resultaat

Door Oplossing C te implementeren met per-tenant SQS-queues en 1-seconde zichtbaarheid timeouts, bereikte SwiftCart nul workflow duplicatie tijdens het daaropvolgende Prime Day evenement ondanks een 45-minuten us-west-2 onderbreking. Evenement correlatie p95 latentie daalde tot 400ms door Redis rand caching. Infrastructuurkosten daalden met 70% vergeleken met de altijd-aan EKS aanpak, waarbij 85% van de workflows uitsluitend bestonden als gecomprimeerde staat snapshots in S3 tijdens inactieve wachtperioden, resulterend in $1,4M jaarlijkse besparingen.

Wat kandidaten vaak missen

Hoe voorkom je divergentie van workflowstaat wanneer beide regio's gelijktijdig gebeurtenissen verwerken tijdens een netwerk partition?

De meeste kandidaten suggereren ten onrechte last-write-wins semantiek in DynamoDB of Cassandra, wat faalt voor workflow orchestratie omdat bedrijfsoperaties niet-commutatief zijn (bijvoorbeeld, "annuleer bestelling" versus "verzend bestelling" kan niet simpelweg door tijdstempel worden verzoend). De juiste implementatie maakt gebruik van Vector Clocks of Dotted Version Vectors die binnen de metadata van de workflowstaat zijn ingebed. Wanneer de netwerkpartition herstelt, detecteert het systeem gelijktijdige takken via versievector vergelijking en past domeinspecifieke merge-functies toe. Voor onverklaarbare conflicten (zoals gelijktijdige annulering en verzending), implementeert de architectuur een saga compensatie patroon waarbij de latere operatie een terugrol van de eerdere actie met uitgebreide audit logging triggert. Alternatief, het gebruik van CockroachDB's standaard serialiseerbare isolatie voorkomt divergentie volledig door conflicterende schrijfacties te verwerpen tijdens de partition, wat expliciete retry loops met exponentiële backoff afdwingt in plaats van stille gegevenscorruptie toe te staan.

Hoe ga je om met versiebeheer van workflowcode wanneer een 7 dagen durende workflow die op v1.0 is gestart, moet worden voltooid nadat v2.0 met gewijzigde activiteitsemantiek is uitgerold?

Kandidaten negeren vaak de Deterministic Replay vereiste die fundamenteel is voor duurzame uitvoering. Simpelweg de Lambda functiecode bijwerken verbreekt de workflows in uitvoering omdat de replaylogica (die wordt gebruikt om de staat na crashes te reconstrueren) afwijkt van het oorspronkelijke uitvoeringspad, wat niet-deterministische uitzonderingen veroorzaakt. De oplossing implementeert expliciete Workflow Versiebeheer door middel van evenement sourcing markeringen. Wanneer v2.0 wordt uitgerold, moeten werkers zowel v1.0 als v2.0 activiteit implementaties binnen WebAssembly sandboxen of aparte Docker sidecars gelijktijdig ondersteunen. De workflowstaat registreert welke codeversie elke historische activiteit heeft uitgevoerd; tijdens replay laadt de werker de specifieke historische versie's sandbox om deterministische heruitvoering van eerdere stappen te waarborgen, terwijl nieuwe workflows gebruikmaken van v2.0. Na de maximale workflowduur (7 dagen plus een 24-uur veiligheidsbuffer) kan v1.0 code buiten gebruik worden gesteld. Dit vereist het handhaven van achterwaarts-compatibele activiteitssignaturen voor onbepaalde tijd of het toepassen van Pact Contract Testing om gedrags equivalentie tussen versies te verifiëren.

Hoe bescherm je je tegen "poison pill" workflows die oneindige lussen of geheugenlekken in gebruikerscode bevatten zonder exact-eens garanties voor gezonde workflows te schenden?

Eenvoudige Dead Letter Queues (DLQ) schenden eigenlijk de exact-eens semantiek omdat het verplaatsen van een bericht naar een DLQ vereist dat het oorspronkelijke bericht wordt erkend, wat het risico op berichtverlies met zich meebrengt als de DLQ schrijfoperatie mislukt of de consument crasht midden in de operatie. De robuuste oplossing maakt gebruik van Progress Tracking met idempotente checkpointing. Werkers heartbeat elke 30 seconden, schrijven voortgangstokens naar etcd of CockroachDB met behulp van vergelijk-en-wissel operaties. Als een werker drie keer achtereenvolgens crasht op dezelfde workflowtaak (gedetecteerd via een uitvoering pogings teller die in de database is opgeslagen), wordt de taak gemarkeerd als "vergiftigd" maar blijft in de wachtrij met een exponentieel toenemende zichtbaarheidvertraging (1 minuut, 5 minuten, 30 minuten). Een aparte "chirurgische" werkerpool met verbeterde observability, geheugenlimieten en gedetailleerde OpenTelemetry tracing probeert dan uitvoering. Pas na 24 uur van aanhoudende fouten gaat de workflow over naar een "onderbroken" staat die handmatige operator interventie vereist, waarbij de exact-eens invariant behouden blijft omdat alle staatsovergangen gebruikmaken van MVCC timestamps in CockroachDB voor atomische vergelijk-en-wissel operaties.