Réponse à la question

L'architecture repose sur un coordinateur de requêtes distribué qui met en œuvre une planification de requêtes adaptative en utilisant un optimiseur basé sur les coûts avec collecte de statistiques en temps réel de toutes les sources fédérées. Les résultats des requêtes sont mis en cache dans un système de stockage en plusieurs niveaux composé d'un cache en mémoire pour les données chaudes et d'un stockage colonne distribué pour les résultats pré-agrégés. Un point d'application des politiques intercepte toutes les requêtes pour injecter des prédicats de sécurité au niveau des lignes sans modifier les sources de données sous-jacentes.

Situation vécue

Une institution financière multinationale avait besoin de détecter la fraude inter-produits en corrélant des transactions de cartes de crédit en temps réel, des métadonnées de demande de prêt et des signaux comportementaux de banque mobile. Chaque équipe de domaine possédait ses données dans différentes régions : cartes dans AWS US-East, prêts dans Azure Europe, et journaux mobiles dans GCP Asie — avec des exigences réglementaires strictes empêchant la consolidation des données centralisées.

Entrepôt de données centralisé : Consolidation de toutes les données dans une seule instance Snowflake avec des pipelines ETL nocturnes. Cette approche simplifie la gouvernance en centralisant le contrôle d'accès et assure une performance de requête cohérente grâce à un stockage optimisé. Cependant, cela viole l'autonomie des domaines en obligeant les équipes à renoncer à la propriété des données, crée des coûts de transfert de données conséquents pour la réplication inter-région, et introduit des problèmes de données obsolètes pour les scénarios de détection de fraude en temps réel.

Fédération de requêtes basique : Déploiement d'un cluster Presto léger qui interroge les systèmes sources directement sans déplacer de données. Cela maintient l'autonomie des domaines et réduit les coûts de stockage en évitant la duplication. Cependant, cela souffre de performances imprévisibles dues à la latence réseau entre les régions, manque de mise en cache intelligente entraînant des scans coûteux répétés, et ne peut pas appliquer des politiques de sécurité cohérentes à travers des systèmes sources disparates avec différents modèles d'authentification.

Couches fédérées intelligentes avec Passerelles de Domaine : Mise en œuvre de Passerelles API spécifiques au domaine avec des moteurs OLAP intégrés qui exposent des produits de données orientés domaine, combinés avec un planificateur de requêtes global qui utilise l'optimisation basée sur les coûts pour décider entre pushdown et mise en cache. Cela préserve la propriété des domaines tout en offrant des performances via des vues matérialisées au niveau du domaine et un cache de résultats inter-domaines. Cela ajoute de la complexité opérationnelle et nécessite une normalisation des contrats de produits de données à travers les domaines.

Solution choisie : Option 3, car elle équilibre les exigences d'autonomie avec les besoins de performance. La banque disposait d'équipes orientées domaine existantes capables de gérer leurs propres passerelles, rendant cette approche opérationnellement faisable. De plus, le chemin de migration incrémental permettait aux domaines d'opter progressivement sans une réécriture massive.

Le système a atteint une latence inférieure à 500 ms pour 95 % des requêtes de fraude inter-domaines, réduit les coûts de transfert de données de 70% par rapport à la réplication complète et maintenu la conformité GDPR en gardant les données des clients de l'UE au sein des régions européennes tout en permettant aux analystes américains d'interroger des résultats agrégés et anonymisés.

Ce que les candidats manquent souvent

Comment gérez-vous le déséquilibre des données lors de la jointure d'un domaine à haute cardinalité (par exemple, transactions) avec un domaine à faible cardinalité (par exemple, catégories de commerçants) à travers les régions sans déplacer l'ensemble du jeu de données de transactions vers un nœud central ?

Implémentez des jointures de diffusion pour le plus petit jeu de données et des jointures partitionnées pour le jeu de données plus important utilisant un hachage cohérent sur les clés de jointure. L'optimiseur de requêtes devrait analyser les statistiques de cardinalité provenant des catalogues de métadonnées de domaine pour sélectionner automatiquement la stratégie optimale. Pour les clés biaisées elles-mêmes, appliquez des techniques de salage pour distribuer les clés chaudes sur plusieurs partitions, puis agrégez les résultats après jointure. Cela garantit que le travail intensif se produit aux nœuds de domaine où se trouvent les données, tandis que seuls des résultats de jointure minimaux traversent le réseau.

Comment maintenez-vous la cohérence du cache lorsque les données sous-jacentes dans les domaines sources changent fréquemment, surtout lorsque ces domaines ne prennent pas en charge les mécanismes de capture de données de changement (CDC) ?

Utilisez un modèle de cache-aside avec une invalidation basée sur TTL combinée à une validation des checksums pour les requêtes critiques. Pour les domaines sans CDC, implémentez un TTL adaptatif basé sur les modèles de volatilité des données observés—les tables changeant fréquemment obtiennent des TTL plus courts. Utilisez des vecteurs de version ou des timestamps de dernière modification stockés dans un service de métadonnées distribué pour valider les entrées de cache avant de servir. Lorsqu'une requête touche un cache obsolète, revenez au domaine source et régénérez le cache de manière asynchrone pour éviter la surcharge de cache.

Comment appliquez-vous des politiques de sécurité cohérentes au niveau des lignes (RLS) à travers les domaines lorsque l'un utilise RBAC (contrôle d'accès basé sur les rôles), un autre utilise ABAC (contrôle d'accès basé sur les attributs), et un troisième n'a pas de support RLS natif ?

Abstraire les politiques de sécurité dans un moteur de politique unifié utilisant Open Policy Agent (OPA) qui évalue les politiques au niveau de la requête avant l'exécution. Transformez les attributs utilisateur en un format de revendications standardisé (comme des tokens JWT) au niveau de la passerelle. Pour les domaines sans RLS natif, déployez des adaptateurs de virtualisation qui injectent des prédicats de sécurité dans les requêtes générées—ajoutant efficacement des clauses WHERE qui filtrent en fonction des droits d'accès utilisateur. Maintenez un cache de politique distribué à chaque passerelle régionale pour éviter des pénalités de latence pendant l'évaluation des politiques, et implémentez une simulation de politique pendant CI/CD pour détecter les conflits entre les règles spécifiques aux domaines.