Cevap

Sorunun tarihi: Modern veri yoğun mimarilerde, ETL (Çıkart, Dönüştür, Yükle) boru hatları, iş zekası ve makine öğrenimi girişimleri için bel kemiğini oluşturur. Geleneksel otomasyon testleri, uygulama davranışına yoğun bir şekilde odaklanırken veri bütünlüğünü göz ardı etmekte, bu da analitik panoların UI düzgün çalışsa bile yanlış rakamlar göstermesine neden olmaktadır. Bu soru, veri dönüşümlerini uygulama kodu ile aynı titizlikle doğrulamak gereğinden doğmuştur; böylece şema değişikliklerinin, referans kısıtlamalarının ve işletme mantığı dönüşümlerinin, verinin üretim depolarına ulaşmadan önce otomatik olarak doğrulandığından emin olmaktadır.

Sorun: Veri boru hatlarını doğrulamak, verilerin farklı şemalar ve gecikme karakteristikleri olan heterojen sistemler arasında akması nedeniyle standart API veya UI testlerinden farklı benzersiz zorluklar sunar. Yukarı akış kaynak sistemlerdeki şematik kaymalar, dönüşümleri sessizce bozabilir ve veri bozulmasına neden olabilir; bu, iş kullanıcıları tutarsızlıkları bildirmedikçe fark edilmez. Ayrıca, dağıtılmış veritabanları arasında referans bütünlüğünü sağlamak ve uçtan uca veri kökenini manuel olarak doğrulamak hata yapmaya açıktır ve modern CI/CD iş akışlarının hızıyla ölçeklenmez.

Çözüm, şema sözleşmesi testlerini, otomatik veri uzlaştırmayı ve köken meta verisi doğrulamayı boru hatları orkestrasyon katmanında doğrudan birleştiren bir çerçeve tasarlamaktır. Bu yaklaşım, her dönüşüm aşamasında şema kısıtlamalarını, istatistiksel dağılımları ve referans bütünlüğünü doğrulamak için Great Expectations kullanarak otomatik kontrolleri entegre eder. Bu doğrulamalar, Apache Airflow veya Prefect DAG'lerinde otomatik kapılar olarak yerleştirilmiştir; bu da herhangi bir şematik kayma veya veri kalitesi ihlalinin hemen boru hattının sonlandırılmasına ve mühendislik ekibine uyarı gitmesine neden olmasını sağlar.

import great_expectations as gx
from great_expectations.expectations import ExpectColumnToExist, ExpectForeignKeysToMatchSetOfColumnIdentifiers

context = gx.get_context()
suite = context.add_expectation_suite("etl_validation_suite")

# Şematik kayma tespiti: kritik sütunların varlığını sağla
suite.add_expectation(ExpectColumnToExist(column="customer_id"))

# Referans bütünlüğü: yabancı anahtar ilişkilerini sistemler arasında doğrula
suite.add_expectation(
    ExpectForeignKeysToMatchSetOfColumnIdentifiers(
        foreign_keys=["order_customer_id"],
        column_identifier_set=["customer_id"],
        result_format="SUMMARY"
    )
)

# Doğrulamayı boru hattı parçası olarak çalıştır
checkpoint = context.add_or_update_checkpoint(
    name="etl_checkpoint",
    validations=[{"batch_request": batch_request, "expectation_suite_name": "etl_validation_suite"}]
)
results = checkpoint.run()
assert results.success, "Veri doğrulama başarısız oldu - boru hattı durduruldu"

Hayattan bir durum

Bir çok uluslu e-ticaret şirketi, analitik yığınını yerel Oracle veritabanlarından bulut tabanlı Snowflake veri ambarına Apache Airflow tarafından yönetilen bir şekilde taşıyordu. Boru hattı, Salesforce REST API'lerinden müşteri verilerini, PostgreSQL'den işlem kayıtlarını ve Amazon S3'ten envanter kayıtlarını alarak karmaşık birleştirmeler ve toplama işlemleri gerçekleştirdikten sonra Snowflake tablolarına yükleniyordu.

Kritik problem, Salesforce ekibinin bir minor sürüm sırasında Customer_ID sütununu Account_ID olarak yeniden adlandırmasıyla ortaya çıktı; bu durum Python dönüşüm scriptlerinin tüm müşteri referansları için NULL değerleri doldurmasına neden oldu ve yürütme hatası vermedi. Ayrıca, PostgreSQL'den gelen siparişlerin, API gecikmesi nedeniyle Salesforce'tan henüz senkronize edilmemiş müşterileri referans alması durumunda referans bütünlüğü ihlalleri meydana geldi; bu da üç gün boyunca gelir hesaplamalarını %12 oranında çarpıttı.

İlk düşünülen çözüm, her sürümden önce QA mühendisleri tarafından çalıştırılacak manuel SQL sorgu doğrulama scriptleri uygulamaktı. Bu yaklaşım basitlik sağladı ve yeni bir altyapı gerektirmedi, ancak veri ekibinin on boru hattından elli boru hattına ölçeklenmesiyle sürdürülemez hale geldi ve doğrulama üç gün sürdü; sıkça insan gözden kaçırmaları nedeniyle kenar durumlarını atladı.

İkinci çözüm, Great Expectations adlı açık kaynaklı Python kütüphanesini benimsemekti; bu kütüphane doğrudan Airflow DAG'lerine entegre edilerek şema tutarlılığını otomatik olarak doğrulamak, kaynak ve hedef tablolar arasında referans bütünlüğünü kontrol etmek ve anormal veri dağılımlarını tespit etmek için kullanıldı. Bu başlangıçta karmaşık bir kurulum gerektirdi ve ekibi beklenti kümeleri konusunda eğitmeyi gerektirdi, ancak denetim gereksinimlerini karşılayan otomatik belge ve tarihsel veri kalitesi metrikleri sağladı.

Üçüncü çözüm, dbt (data build tool) testlerini Soda Core ile izleme için kullanmaktı; bu, mükemmel SQL yerel test yetenekleri sundu. Bu yaklaşım, basit sütun düzeyindeki doğrulamalar için hafif bir yük sağladı ve analitik ekibin aşina olduğu SQL söz dizimini kullandı. Ancak, bu kombinasyon, kutu içinden güçlü bir köken görselleştirmesi ve karmaşık şematik kayma tespiti sunmuyordu. Mevcut Airflow orkestrasyon katmanıyla ve DataHub meta veri platformuyla entegre olmak için önemli ölçüde özel Python geliştirme gerektirecekti, bu da bakım yükünü artırıyordu.

Sonuç olarak, ekip Great Expectations yaklaşımını seçti çünkü otomatik şema tespiti ve köken takibi için DataHub ile yerleşik entegrasyon içeren kapsamlı doğrulama yetenekleri sağlıyordu. Bu karar, şema değişikliklerini çıkartma esnasında derhal yakalama gereği ve teknik olmayan paydaşlarla paylaşılabilecek kendiliğinden doküman niteliğinde veri kalitesi raporları ihtiyacıyla yönlendirildi.

Sonuç olarak, üretime ulaşan veri kalitesi olaylarında %95'lik bir azalma yaşandı ve artık şematik kaymalar, boru hattı yürütmesinden beş dakika içinde tespit ediliyordu. Otomatik çerçeve, veri mühendisliği ekibinin değişiklikleri haftalık yerine günlük olarak dağıtmasını sağlarken, QA ekibi manuel veri doğrulamadan beklenti kümelerini optimize etmeye ve karmaşık iş mantığı dönüşümlerini test etmeye odaklandı.

Adayların sıklıkla gözden kaçırdığı şeyler

Mevcut otomasyon kümelerini bozmadan kaynak sistemlerde şema evrimini nasıl yönetiyorsunuz?

Adaylar genellikle şema kayıtları ve versiyonlu sözleşme testlerinin gerekliliğini göz ardı etmektedir. Confluent Schema Registry veya AWS Glue Schema Registry uygulayarak, veriler boru hattına girmeden önce Avro, JSON Schema veya Protobuf formatlarında geriye ve ileriye uyumluluk kontrollerini zorunlu kılın. Şema sürümlerini Git kodunda saklayın ve GitOps iş akışlarını kullanarak uyumluluk kontrollerini CI'de tetikleyin; bunun sonucunda kaynak şemasındaki herhangi bir kırıcı değişiklik, ETL ortamına ulaşmadan önce derlemeyi başarısız kılacaktır.

Dağıtılmış boru hatları mimarisinde veri kökeninin doğru doğrulanmasını sağlamak için hangi stratejiyi uygulayabilirsiniz?

Birçok aday, birden fazla dönüşüm adımı ve depolama sistemi arasında veri akışını izlemek konusunda zorluk çekmektedir. Orkestrasyon aracınızla OpenLineage'i entegre ederek, veri kümeleri, işler ve çalıştırmalar hakkında otomatik olarak meta veri yakalayın ve ardından, her çıktı veri kümesinin belgelenmiş yukarı akış bağımlılıklarının ve dönüşüm mantığının doğrulanmasını sağlayacak otomatik testler yazın. Bu meta verileri kullanarak, yukarı akış kaynağındaki bir şema değişikliğinin hangi aşağı akış raporlarını etkileyeceğini tanımlayan otomatik etki analizi testleri oluşturun.

ETL test otomasyonunda idempotansıyı ve tekrarlanabilirliği nasıl sağlarsınız?

Sıklıkla gözden kaçırılan bir nokta, aynı giriş verileriyle birden fazla yürütme arasında tutarlı sonuçlar üreten testler tasarlamamaktır. Test çalıştırmalarını benzersiz yürütme zaman damgaları veya toplu ID'leri kullanarak izole ederek, ve aynı giriş veri kümesiyle aynı dönüşümü yeniden çalıştırmadan önce çıktı tablolarının kontrol toplamlarını veya satır sayılarını karşılaştırarak idempotansı doğrulayın. Docker Compose kullanarak, dondurulmuş altın veri kümeleri ile doldurulmuş geçici veritabanı örnekleri oluşturun ve doğrulama kümenizin harici sistem değişikliklerine rağmen tutarlı bir veri durumuna karşı çalışmasını sağlayın.