Risposta alla domanda

Storia della Domanda

Gli approcci tradizionali di test manuale si sono evoluti dalla convalida delle transazioni SQL monolitiche, dove un singolo database garantiva coerenza. Con il passaggio a Microservizi e un’Architettura Basata su Eventi, il controllo della qualità affronta ora la sfida di verificare i modelli di Saga distribuiti in cui le modifiche di stato si propagano in modo asincrono oltre i confini del servizio, richiedendo nuove metodologie per garantire l'integrità dei dati senza i blocchi a due fasi.

Il Problema

La sfida principale risiede nel rilevare le condizioni di race e gli stati di errore parziale quando le garanzie ACID sono isolate ai database dei singoli servizi. In particolare, verificare che le riserve di inventario in PostgreSQL, le autorizzazioni di pagamento tramite API esterne e le conferme degli ordini tramite argomenti Apache Kafka mantengano la coerenza durante le partizioni di rete, il riequilibrio dei consumatori Kafka, o i fallimenti di invalidazione della cache Redis richiede di comprendere i compromessi del teorema CAP e le finestre di coerenza eventuale.

La Soluzione

Una metodologia di test manuale ispirata all'Ingegneria del Caos esaustiva che combina la manipolazione precisa dei tempi con la mappatura delle transizioni di stato. Ciò comporta l'iniezione manuale di latenza nei gruppi di consumatori Kafka utilizzando strumenti Proxy, simulando le espulsioni dalla cache Redis durante transazioni attive e verificando che le transazioni di compensazione Saga annullino correttamente le operazioni quando si verificano errori a valle, garantendo che il sistema mantenga la coerenza senza consentire inventari fantasma o addebiti duplicati.

Situazione dalla vita reale

Un mercato di orologi di lusso si stava preparando per un rilascio in edizione limitata di 100 orologi esclusivi con una domanda prevista di oltre 10.000 utenti. L'architettura utilizzava microservizi Spring Boot in cui il Servizio di Inventario gestiva le scorte in PostgreSQL, il Servizio di Pagamento si integrava con l'API Stripe, e Apache Kafka facilitava la comunicazione asincrona tra di essi. Durante la simulazione di pre-produzione, il team scoprì un difetto critico in cui due utenti acquistarono contemporaneamente l'ultima unità disponibile perché la verifica e la riserva dell'inventario avvennero in messaggi asincroni separati, creando uno scenario di brain split in cui entrambi i pagamenti furono catturati prima che il servizio ordini confermasse la deduzione dello stock.

Soluzione 1: Scalabilità orizzontale dei consumatori Kafka

Questo approccio prevedeva l'aumento delle istanze di consumatori per ridurre il ritardo nel processo dei messaggi e minimizzare la finestra per le condizioni di race. Il principale vantaggio era il miglioramento della portata e la riduzione della latenza sotto carico normale. Tuttavia, questo non risolveva fondamentalmente la condizione di race; semplicemente rendeva la collisione statisticamente meno probabile, rimanendo possibile durante picchi di traffico o eventi di riequilibrio dei consumatori.

Soluzione 2: Implementazione di lock distribuiti tramite Redis Redlock

Questa strategia ha introdotto meccanismi di locking atomici in cui il Servizio di Inventario acquisiva un lock distribuito prima di elaborare qualsiasi richiesta di checkout. Anche se questo impediva modifiche concorrenti allo stesso articolo di stock, introduceva una latenza significativa nel flusso di checkout, creava un potenziale punto di guasto unico se il cluster Redis sperimentava partizioni di rete e complicava gli scenari di ripristino dai guasti in cui i lock potrebbero non essere rilasciati a causa di crash dell'applicazione.

Soluzione 3: Iniezione manuale di guasti orchestrati con controllo delle partizioni Kafka

Questa metodologia richiedeva ai tester di mettere in pausa manualmente specifiche partizioni Kafka utilizzando strumenti amministrativi come Kafdrop mentre si iniettava latenza di rete tramite politiche di rete Docker. Questo consentiva di riprodurre esattamente la finestra temporale tra l'autorizzazione del pagamento e l'impegno dell'inventario. L'approccio era intensivo in termini di tempo e richiedeva privilegi elevati per manipolare le politiche di rete di Kubernetes, ma forniva una riproduzione deterministica delle condizioni di race e un'osservazione diretta dei trigger delle transazioni di compensazione Saga.

Soluzione scelta e motivazione

La soluzione 3 è stata selezionata perché solo un intervento manuale deterministico poteva rivelare la vulnerabilità di temporizzazione al microsecondo tra i servizi. Mettendo deliberatamente in pausa il consumatore di inventario mentre si permetteva al consumatore di pagamento di elaborare, abbiamo confermato che il sistema non disponeva di un lock di riserva pre-pagamento e che i flussi di lavoro di compensazione non si attivavano automaticamente quando si rilevavano conflitti di inventario.

Risultato

Il team di sviluppo ha implementato un modello di commit a due fasi con uno stato di inventario In attesa che riservava scorte prima dell'elaborazione del pagamento. Il testing manuale poi ha verificato che forzare un riequilibrio Kafka durante un checkout attivo attivasse correttamente la compensazione Saga, rilasciando sia le riserve di inventario che le trattenute di pagamento senza perdita di dati. Il successivo lancio del prodotto è avvenuto con successo senza segnalazioni di vendite duplicate e tutte le 100 unità sono state contabilizzate nel verbale finale.

Cosa spesso i candidati trascurano

Come verifichi le proprietà ACID quando i Microservizi implementano la Coerenza Eventuale piuttosto che le transazioni distribuite?

I candidati spesso confondono la conformità ACID ai database locali con la coerenza globale del sistema. Nel testing manuale, devi deliberatamente ingegnerizzare scenari in cui una transazione PostgreSQL si completa con successo ma il successivo invio del messaggio Apache Kafka fallisce, il che può essere ottenuto utilizzando partizioni di rete Docker per isolare il broker di messaggi. Verifica che il servizio implementi il Modello Outbox o la messaggistica transazionale per garantire che i commit del database e la pubblicazione degli eventi rimangano atomici. Controlla i record orfani interrogando direttamente il database mentre blocchi il broker di messaggi e conferma che meccanismi di ripetizione sincronizzino eventualmente lo stato senza intervento manuale o corruzione dei dati.

Cosa distingue il test dell'Idempotenza dal test della semantica Exactly-Once nelle Code di Messaggi, e perché è critico per la QA manuale?

Molti tester trattano erroneamente questi concetti come intercambiabili. L'Idempotenza assicura che l'elaborazione dello stesso messaggio più volte produca un risultato identico a quello di un'elaborazione singola, che testi riproducendo manualmente un messaggio Kafka da Offset Explorer e verificando che non si verifichino addebiti duplicati o deduzioni di inventario. La semantica Exactly-Once garantisce che l'infrastruttura stessa prevenga la consegna duplicata, il che convalidi osservando il comportamento dei produttori transazionali Kafka durante scenari di guasto del broker. La QA manuale deve verificare entrambe le dimensioni: che l'applicazione gestisca i duplicati in modo fluido tramite logica idempotente e che i filtri di deduplicazione basati su UUID funzionino correttamente quando il broker riconsegna legittimamente messaggi a causa di timeout di riconoscimento.

Come convalidi le Transazioni di Compensazione all'interno di un modello Saga senza rischiare l'integrità dei dati finanziari in produzione?

Questo richiede di costruire ambienti di test isolati che rispecchiano gli Schemi di produzione e i contratti API, ma utilizzano credenziali sandbox per i fornitori di pagamento. Attiva manualmente sequenze di guasti terminando contenitori Docker immediatamente dopo il passaggio di autorizzazione del pagamento ma prima della conferma del servizio di inventario. Verifica che il flusso di lavoro di compensazione emetta correttamente rimborsi e rilasci lock distribuiti Redis. I candidati spesso trascurano di verificare che il meccanismo di compensazione stesso possa fallire; devi testare bloccando il percorso di compensazione, come simulare un'interruzione di rete durante la fase di rollback, e assicurarti che il sistema entri in uno stato di allerta Compensazione Fallita chiaramente definito con avvisi di monitoraggio appropriati piuttosto che in uno stato incoerente indefinito che potrebbe portare a discrepanze finanziarie.