Réponse

L'insertion massive de données (bulk insert) est une tâche typique lors de la migration, de l'importation ou du remplissage de grandes tables. L'efficacité de cette opération dépend de plusieurs facteurs :

Utilisation des insertions par lots (Batch Insert) : Divisez les données en lots raisonnables — généralement des milliers de lignes à la fois. Cela réduit la pression sur les journaux de transactions et diminue les verrouillages.
Désactivation des index et des contraintes lors de l'insertion massive : La suppression temporaire ou la désactivation des index secondaires et des clés étrangères peut accélérer l'insertion. Après la fin de l'opération, reconstruisez les index.
Contrôle des transactions : Effectuez les insertions au sein de transactions avec un nombre fixe de lignes afin d'éviter l'accumulation de journaux trop volumineux (log file).
Utilisation d'outils spéciaux : Par exemple, BULK INSERT ou COPY (PostgreSQL) — ils fonctionnent plus rapidement que les INSERT traditionnels en boucle.
Chargement uniquement des colonnes nécessaires : Excluez les données superflues — cela réduit le volume de trafic et le temps de traitement.

Exemple (SQL Server) :

BULK INSERT my_table
FROM 'C:\data\bulkdata.csv'
WITH (
  FIELDTERMINATOR = ',',
  ROWTERMINATOR = '
',
  BATCHSIZE = 5000,
  TABLOCK
);

TABLOCK réduit les conflits de verrouillage lors des insertions massives.

Question piège

Question : Peut-on à tout moment désactiver et reconstruire des index pour accélérer l'insertion massive, si la table participe à des transactions ?

Réponse : Non, si la table participe à des transactions actives, la désactivation ou la reconstruction des index peut entraîner des verrouillages, une violation de l'intégrité des données ou même une perte de données si la transaction est annulée. Cette opération doit être effectuée uniquement en dehors des transactions, ou planifiée à l'avance dans des fenêtres de maintenance.

Exemple de code :

-- Incorrect :
BEGIN TRAN;
ALTER INDEX ALL ON my_table DISABLE;
-- ... bulk insert ...
ALTER INDEX ALL ON my_table REBUILD;
COMMIT;

Une telle désactivation est inacceptable dans de longues transactions !

Exemples d'erreurs réelles dues à l'ignorance des subtilités du sujet

Histoire 1 : Dans un projet, des insertions massives parallèles dans une table avec plusieurs index uniques ont conduit à des blocages fréquents et à une forte chute des performances. La solution a été la désactivation temporaire des index non clés pendant la période d'importation et la réduction de la taille des opérations par lots.

Histoire 2 : Les développeurs ont oublié de désactiver le contrôle des clés étrangères pendant la période de chargement des données, et chaque insertion vérifiait l'existence d'enregistrements associés dans d'autres grandes tables. Cela a augmenté le temps de chargement de 40 minutes à 9 heures. Après avoir désactivé les contraintes, l'insertion a pris 12 minutes.

Histoire 3 : Tenter d'insérer un grand fichier en une seule requête (sans mise en lot et sans transactions) a entraîné un débordement du journal des transactions (transaction log full) et un arrêt brutal du serveur de base de données. Après être passé à un traitement par lots, le problème a disparu.

Décrivez les caractéristiques de la mise en œuvre des insertions massives de données en SQL en termes d'optimisation des performances, d'intégrité et de verrouillages. Quels points doivent être particulièrement pris en compte lors du traitement de grandes quantités de données ?

Réponse

Exemple (SQL Server) :

Question piège

Exemple de code :

Exemples d'erreurs réelles dues à l'ignorance des subtilités du sujet