質問への答え。

質問の歴史：GDPRやCCPAなどのプライバシー規制の急速な成長は、組織が分析のために機密データを共有する方法を根本的に変えました。ビジネスユニットは、AI開発のために現実的なデータセットをますます必要としていますが、生データへの法的禁止が合成代替品の需要を生み出しています。差分プライバシーがプライバシー保証の数学的基準として浮上したことで、特にソースデータが数十年の技術的債務を持つレガシーCOBOLベースのメインフレームにある場合、複雑なトレードオフが生じています。この質問は、現代のプライバシーを保護するMLパイプラインと、現代の合成アルゴリズムが必要とする参照整合性やメタデータが欠けている古いデータ構造をつなぐ必要性から生まれました。

問題：核心的な緊張は、数学的プライバシー（ε ≤ 0.1）、モデルユーティリティ（≥95％の正確性保持）、および信頼できる主キーがない状態での参照整合性の3つの矛盾する制約を同時に満たすことにあります。レガシーIBM Zシステムには、COMP-3パック十進数および自由形式のフィールドを含むVSAMファイルが多く含まれており、現代のPythonライブラリではネイティブに解析できません。一方、NLPベースのPII検出は、プライバシー予算の消費を追加し、エプシロンの閾値を超えるリスクがあります。さらに、30年間のデータにわたって一貫したキーが欠如しているため、合成リレーショナルデータベース内の親子関係の維持が難しくなり、下流のSQLベースの分析が有効な結合のために依存する外部キー制約を違反する可能性があります。

解決策：差分プライバシー予算計算による逐次合成を採用した多層の検証フレームワーク、欠損キーを扱うためのBloomフィルタを介した確率的レコードリンク、およびCOBOLコピーブック用のJRecordパーサーを使用した前処理パイプライン。フレームワークでは、ノイズ注入前に高次元カテゴリーデータの次元削減にオートエンコーダを使用することを義務付け、希少イベントの信号を保持しつつプライバシーの境界を維持します。構造化されていないテキストについては、合成前にPIIを特定するためにDP-SGD（差分プライバシー確率的勾配降下法）で訓練されたBERTベースのNERモデルを実装し、生成フェーズでは生の識別子を処理しないことを保証します。最後に、Jensen-ShannonダイバージェンスおよびKolmogorov-Smirnovテストを使用した統計的検証により、合成データがMLエンジニアリングチームにリリースされる前に95％のユーティリティ閾値を満たしていることを確認します。