Risposta.

L'aggiornamento di massa dei dati in più tabelle correlate è un compito classico nella programmazione industriale SQL. Con lo sviluppo delle applicazioni aziendali è emersa la necessità di aggiornare grandi volumi di dati contemporaneamente, garantendone al contempo la coerenza. Storicamente si è fatto fronte con scenari ciclici, il che portava a basse prestazioni e lunghi blocchi. In seguito, sono emersi operatori DML avanzati (ad esempio, MERGE), costrutti di transazione e approcci con tabelle di staging.

Problema consiste nel fatto che l'aggiornamento dei dati coinvolge numerose tabelle con relazioni (ad esempio, ordini e dettagli dell'ordine), il che rischia di creare "righe orfane", perdite di prestazioni a causa di blocchi e carichi imprevedibili sul DBMS.

Soluzione si basa sull'uso di transazioni atomiche, operazioni UPDATE/DELETE/MERGE con condizioni JOIN, così come sul trattamento batch dei dati. Una buona prassi è quella di ritardare le modifiche aggregate in tabelle di staging temporanee e poi applicarle in modo batch tramite una transazione. Esempio per SQL Server utilizzando MERGE:

BEGIN TRANSACTION;

-- Esempio di aggiornamento di massa della tabella principale e della tabella correlata utilizzando MERGE
MERGE INTO orders AS tgt
USING temp_order_updates AS src
  ON tgt.id = src.id
WHEN MATCHED THEN
  UPDATE SET tgt.status = src.status, tgt.updated_at = src.updated_at;

MERGE INTO order_details AS tgt
USING temp_detail_updates AS src
  ON tgt.order_id = src.order_id AND tgt.sku = src.sku
WHEN MATCHED THEN
  UPDATE SET tgt.price = src.price, tgt.qty = src.qty;

COMMIT;

Caratteristiche chiave:

Isolamento delle operazioni in una transazione: nessuna incoerenza intermedia.
Uso di tabelle di staging per la preparazione dei dati modificabili.
Applicazioni batch per ridurre i blocchi e ottimizzare il carico.

Domande ingannevoli.

È possibile semplicemente eseguire l'aggiornamento della tabella principale e poi separatamente delle correlate, senza transazioni, se i requisiti di velocità sono rigorosi?

Aggiornamenti separati al di fuori di una transazione provocano una grave incoerenza dei dati in caso di errore in qualsiasi fase — ad esempio, se gli ordini sono stati aggiornati ma i dettagli no, la logica si rompe. Nei moderni DBMS, l'uso delle transazioni non aumenta quasi i costi per l'elaborazione batch.

La performance potrebbe diminuire se si esegue un grande UPDATE con una sottoquery? Può portare a blocchi?

Sì, gli UPDATE monolitici su grandi tabelle! portano all'innalzamento dei blocchi, lock a livello di tabella e a fermi per altri utenti. È meglio suddividere il trattamento in batch con un limite tramite WHERE ... AND rownum/id/limit.

Esempio di batch:

UPDATE orders
SET status = 'closed'
WHERE status = 'pending' AND id BETWEEN 100000 AND 199999;

MERGE garantisce atomicità e ordine corretto nel trattamento delle tabelle correlate?

No, MERGE funziona all'interno di una singola tabella. Per aggiornare tabelle correlate è necessario un MERGE o UPDATE separato, e deve necessariamente essere inserito all'interno di una transazione.

Errori comuni e anti-pattern

Mancanza di transazioni durante le modifiche di massa, che porta all'incoerenza dei dati
Grandi UPDATE/DELETE singoli su enormi selezioni senza LIMIT/BATCH: blocchi e fermi
Ordine scorretto delle operazioni (ad esempio, prima aggiornare i dettagli, poi la tabella principale)

Esempio dalla vita reale

Caso negativo

Un'azienda aggiornava lo stato ("Completato") in un milione di ordini con richieste separate al di fuori della transazione: prima gli ordini principali, poi i dettagli order_details. Sotto carico, il server "crollava" — in caso di errore, i dettagli rimanevano con stato "aperto". Vantaggi:

Facile da implementare
Codice minimo

Svantaggi:

Incoerenza dei dati e difficoltà nel successivo debug
Complessità nel rollback

Caso positivo

È stata implementata l'uso di tabelle di staging e il trattamento di gruppo all'interno di una transazione. Prima tutte le modifiche sono state calcolate e accumulate in tabelle temporanee, poi aggiornate in modo batch in entrambe le tabelle principali. In caso di errore — rollback completo. Vantaggi:

Garanzia di coerenza e integrità dei dati
Facilità di controllo e rollback