Réponse à la question

Établir une source unique de vérité dans des scénarios de post-fusion nécessite une approche de Design Axé sur le Domaine pour la gouvernance des données plutôt qu'une consolidation physique immédiate. Implémentez une architecture de Gestion des Données de Base (MDM) fédérée utilisant une stratégie de réplication pilotée par les événements, où les mécanismes de Capture de Données de Changement (CDC) diffusent les modifications de chaque CRM de filiale vers un cluster central Apache Kafka. Cela crée un référentiel "d'enregistrement doré" grâce à une convergence incrémentale, permettant aux systèmes hérités de rester opérationnels pendant que le modèle canonique mûrit.

Déployez un Patron Fig Strangler via une Passerelle API qui intercepte les demandes de données clients, dirigeant les lectures vers le nouveau hub MDM tout en migrant progressivement les écritures. Cette approche satisfait la contrainte réglementaire de six mois en fournissant des capacités de reporting immédiates à partir du hub, tandis que la contrainte de zéro temps d'arrêt du conseil d'administration est respectée grâce à une synchronisation asynchrone qui ne fige jamais les bases de données source.

Situation de la vie réelle

Contexte. Une société de capital-investissement a acquis cinq entreprises de logistique régionales pour former un transporteur national, chacune fonctionnant sur des plateformes CRM distinctes. La division Ouest utilisait un Salesforce fortement personnalisé, le Midwest fonctionnait sur Microsoft Dynamics 365 hérité avec des plugins propriétaires, le Sud-Est utilisait le SAP Sales Cloud, le Nord-Est dépendait d'une application Ruby on Rails personnalisée soutenue par MySQL, et le Sud-Ouest fonctionnait avec Zoho CRM avec des extensions complexes de Zoho Creator. Les autorités réglementaires ont imposé un reporting unifié sur la Diligence Raisonnée des Clients (CDD) pour la conformité à la lutte contre le blanchiment d'argent (AML) dans les 180 jours, tandis que le conseil d'administration interdisait explicitement toute interruption opérationnelle qui violerait les SLAs de disponibilité de 99,9% avec des clients Fortune 500.

Problème. Aucun identifiant unique commun n'existait à travers les cinq écosystèmes ; Salesforce utilisait des ID de 18 caractères, Dynamics employait des GUID, et le cadre Rails personnalisé reposait sur des entiers auto-incrémentés. La qualité des données variait énormément, certaines filiales stockant des adresses sous forme de texte non structuré tandis que d'autres maintenaient des schémas normalisés. Une migration traditionnelle par extraits-transformations-chargements (ETL) nécessiterait de geler les données pendant le basculement, ce qui était impossible compte tenu des opérations de dispatch 24/7 et des pénalités contractuelles pour les interruptions de service.

Solution 1 : Migration Big Bang. Cette stratégie proposait un basculement complet sur un week-end où tous les cinq systèmes hérités exporteraient simultanément leurs ensembles de données clients vers un entrepôt de données central Snowflake. Pendant cette fenêtre, une logique de transformation complexe standardiserait les schémas et dédupliquerait les enregistrements avant de synchroniser les données nettoyées vers une nouvelle instance unifiée de Salesforce. Cette approche promettait une élimination immédiate de la dette technique, mais nécessitait un gel complet du système pendant la fenêtre de migration.

Avantages : Élimination immédiate de la dette technique ; maintenance à long terme simplifiée ; relation unique avec un vendeur pour le support.

Inconvénients : Exposition simultanée aux risques sur les cinq flux de revenus ; complexité catastrophique de retour en arrière si la synchronisation échouait ; violation directe de la contrainte de zéro temps d'arrêt du conseil d'administration ; perte de données potentielle si la fenêtre de 48 heures s'avérait insuffisante pour les ensembles de données de plus de 2 millions d'enregistrements.

Verdict : Rejeté en raison de risques inacceptables pour la continuité des affaires.

Solution 2 : Couche de Fédération des Données Virtuelles. Cette alternative proposait d'implémenter un middleware utilisant Denodo ou TIBCO Data Virtualization pour créer une couche d'abstraction en temps réel qui agrège les données sans consolidation physique. La couche de virtualisation présenterait des vues unifiées aux outils de reporting tout en gardant les données réelles dans les plateformes CRM source, créant ainsi efficacement un entrepôt de données logique. Bien que cela évite le déplacement de données, cela repose entièrement sur la stabilité du réseau et la disponibilité du système source pour chaque requête.

Avantages : Aucune perturbation opérationnelle pour les flux de travail des utilisateurs existants ; capacité de reporting de conformité immédiate ; aucune formation requise pour le personnel des filiales.

Inconvénients : Dégradation sévère des performances des requêtes pendant les périodes de dispatch matinales de pointe en raison de jointures inter-systèmes ; latence réseau entre les régions entraînant des délais d'attente pour le reporting ; échec dans la résolution des problèmes de qualité des données sous-jacents ou des enregistrements de clients dupliqués ; création d'une dette technique permanente plutôt qu'une résolution architecturale.

Verdict : Rejeté comme solution permanente, bien qu'il soit conservé comme un pont temporaire de conformité pour les 90 premiers jours.

Solution 3 : Consolidation Incrémentale Basée sur le Domaine avec Sourcing d'Événements. Cette approche hybride établit un hub central MDM utilisant Informatica MDM, déployant des agents CDC tels que Debezium pour MySQL et des API de streaming natives pour Salesforce et Dynamics. Ces agents diffusent toutes les modifications de données dans un cluster Apache Kafka où Apache Spark MLlib effectue un appariement probabiliste pour identifier les doublons entre les filiales et créer des enregistrements survivants. L'architecture utilise un modèle d'écriture différée du service de migration de base de données AWS DMS pour maintenir la compatibilité du système hérité tout en migrant lentement les processus métier pour consommer à partir de l'API d'enregistrement doré.

Avantages : Isolation des risques en migrant une filiale à la fois ; maintien d'un temps de fonctionnement à 100 % grâce à la synchronisation asynchrone ; capacité de fonctionnement parallèle pour validation ; conformité réglementaire obtenue grâce au hub tout en préservant l'indépendance opérationnelle.

Inconvénients : Coûts d'infrastructure initiaux plus élevés ; complexité temporaire de maintien de systèmes doubles ; conflits potentiels de synchronisation bidirectionnels nécessitant une intervention manuelle.

Solution Choisie et Raisonnement. Nous avons sélectionné la Solution 3 car elle a équilibré de manière unique la pression réglementaire agressive avec les contraintes opérationnelles non négociables. Nous avons priorisé les deux plus grandes filiales pour la première phase, tirant parti de la fonction de compression de journal de Kafka pour maintenir des historiques d'événements immuables qui ont permis aux équipes opérationnelles de rejouer toute erreur de synchronisation sans perte de données. Le hub MDM est devenu le système d'enregistrement pour tous les nouveaux enregistrements clients, tandis que AWS DMS a propagé ces changements vers les interfaces héritées, garantissant que les utilisateurs pouvaient continuer avec des flux de travail familiers pendant que les données convergeaient en dessous.

Résultat. La consolidation a été réalisée en cinq mois sans temps d'arrêt imprévu dans aucune des filiales. Les rapports de conformité AML générés exclusivement par le hub MDM ont réussi l'audit réglementaire sans exception. Les enregistrements de clients dupliqués ont diminué de 73 % grâce aux algorithmes d'appariement, et le chiffre d'affaires des ventes croisées a augmenté de 18 % au cours du premier trimestre suivant la réalisation en raison de la visibilité client enfin unifiée.

Ce que les candidats manquent souvent

Comment résolvez-vous les conflits de propriété des données lorsque deux filiales affirment des limites de crédit différentes pour le même client, avec les deux valeurs étant légalement valides dans leurs contrats régionaux respectifs ?

Ce scénario teste la compréhension du modèle de données bi-temporelles et des enregistrements dorés contextualisés. Plutôt que d'imposer une valeur unique par une consolidation destructive, le MDM doit implémenter des Attributs Multi-Valués qui préservent les deux limites de crédit avec des périodes de validité et un contexte d'entité légale. La solution nécessite la création d'un Comité de Gouvernance des Données avec des représentants de chaque filiale pour définir des règles de précédence — comme "la limite la plus restrictive s'applique pour l'évaluation du risque d'entreprise" — tout en maintenant les deux valeurs d'origine pour le reporting spécifique aux filiales. Techniquement, cela implique d'ajouter des champs de métadonnées de juridiction et de validité contractuelle au modèle canonique, garantissant que le système peut rendre à la fois la vue d'entreprise (exposition au risque conservatrice) et la vue de la filiale (obligations contractuelles) sans perte de données.

Quelle stratégie garantit l'intégrité référentielle lors de la consolidation de bases de données relationnelles avec des contraintes de clés étrangères dans une architecture pilotée par les événements qui utilise Apache Kafka ?**

Les candidats négligent souvent l'analyse des frontières de transaction et le patron Saga. Lorsqu'une opération commerciale s'étend sur plusieurs filiales — comme la mise à jour d'une hiérarchie d'entreprise client qui existe en partie dans Salesforce et en partie dans SAP — l'analyste métier doit concevoir des transactions compensatoires. Si la mise à jour de Salesforce réussit mais que la mise à jour de SAP échoue, le système doit émettre un événement de retour en arrière compensatoire pour maintenir la cohérence. Cela nécessite d'implémenter des orchestrateurs Saga dans le hub MDM qui gèrent les transactions distribuées sur les sujets Kafka. De plus, l'incorporation de clocks vectoriels ou de horodatages de Lamport dans le schéma d'événements permet de détecter des violations de causalité lorsque les filiales mettent à jour simultanément la même entité, permettant la résolution des conflits en fonction des règles commerciales (comme "le dernier horodatage gagne" ou "la filiale avec le volume de revenus le plus élevé gagne").

Expliquez comment vous validez l'exactitude des données pendant les périodes de fonctionnement parallèle sans doubler la charge de travail de vérification manuelle pour les utilisateurs métiers qui doivent confirmer les enregistrements à la fois dans les anciens systèmes CRM et le nouveau hub MDM.

Cela aborde le Paradoxe de Vérification inhérent aux migrations sans temps d'arrêt. La solution implique la surveillance des transactions synthétiques et l'empreinte statistique des données plutôt que la réconciliation manuelle. Implémentez des comparaisons de somme de contrôle automatisées en utilisant des frameworks comme Great Expectations ou Deequ pour générer des profils statistiques des distributions de données dans les systèmes source et cible. Pour les champs critiques tels que les numéros d'identification fiscale, déployez un appariement déterministe avec des rapports d'exception automatisés. L'analyste métier doit définir des seuils de tolérance — acceptant un taux de correspondance de 99,5 % pour les champs non critiques tout en exigeant une précision de 100 % pour les identifiants financiers — et mettre en œuvre des tableaux de bord de qualité des données dans Tableau ou Power BI qui mettent en évidence les anomalies en temps réel, permettant aux utilisateurs de se concentrer uniquement sur les écarts significatifs.