Cevap

Soru tarihi.

ETL testi, basit veri taşınma doğrulamasından türedi ancak veri ambarları SCD Type 2 kalıplarını benimsemeye başladıkça karmaşık boru hattı doğrulamasına evrildi. Erken yaklaşımlar yalnızca satır sayısına dayanıyordu ve bu da yavaş değişen boyutlarda ince referans bütünlüğü kopmaları veya zamansal anormallikleri tespit edemiyordu. Modern manuel ETL testi, dönüşümlerin iş mantığını ve Snowflake gibi dağıtık bulut ambarlarının teknik kısıtlamalarını anlamayı gerektirir.

Sorun.

Temel zorluk, veri bütünlüğünü zamansal sınırlar boyunca doğrularken yukarı akış sistemlerinden gelen format heterojenliğini yönetmektir. SCD Type 2 uygulamaları, etkili tarih aralıkları ve artı anahtarların atıl hale gelmesini önlemek için yabancı anahtar ilişkilerinin korunması gerektiğinden, karmaşıklık getirir. Ayrıca, ISO-8601 ile Unix epoch temsilleri arasındaki zaman damgası formatı tutarsızlıkları, gizli veri bozulmalarına veya tarihsel izleme içindeki zamansal yanlış hizalanmalara neden olabilir.

Çözüm.

Birinci aşama olan şemayı doğrulama ve artı anahtar eşleştirme doğrulamasını içeren üç aşamalı manuel test metodolojisi uygulayın. Kaynak sahneleme tabloları ile ambar hedefleri arasındaki satır sayılarını ve toplamları uzlaştırmak için hedeflenen SQL sorguları yürütün, özellikle geçersiz zamansal durumları gösteren SCD Type 2 tarih aralıklarındaki örtüşmeleri kontrol edin. Son olarak, manuel olarak kenar vakalarla birlikte zaman damgaları olan kayıtlar ekleyerek artımlı yükler üzerinde sınır analizi yapın ve CDC (Change Data Capture) mekanizmalarının süresi dolmuş kayıtları doğru bir şekilde kapattığını doğrulayın ve çocuk tablo girişlerini atıl hale getirmediğinden emin olun.

Gerçek hayat durumu

Bir perakende şirketi, müşteri ve işlem verilerini eski bir POS sisteminden ve modern bir REST API tabanlı e-ticaret platformundan Snowflake'e verileri analiz etmek üzere aktarıyordu. SCD Type 2 uygulaması, her siparişi doğru tarihsel adres versiyonuna bağlayarak müşteri adresi tarihini izliyordu. Artımlı yükleme testleri sırasında, eski sistemin zaman damgalarını AA/GG/YYYY formatında çıkartırken API'nin ISO-8601 kullandığını keşfettik ve bu durum dönüşüm katmanının bazı tarihleri geçersiz olarak yorumlayarak varsayılan olarak NULL değerini almasına ve siparişlerin tarihsel müşteri bağlamlarından atıl hale gelmesine neden oldu.

Bir çözüm olarak, Python betikleri ile hashing algoritmaları kullanarak tam otomatik satır-başına karşılaştırma yapılması düşünüldü. Bu yaklaşım taşıyıcı ve hedef arasındaki her alanı karşılaştırarak kapsamlı bir kapsam sağlayacaktı. Ancak, titizlik gereksinimlerinin önemli dezavantajlarla aşıldığı ortaya çıktı: Betik, günlük yükler için on iki saat sürüyor, şema değişiklikleri için kapsamlı bakım gerektiriyor ve yalnızca değerlerin tam olarak eşleştiğinden emin olunabiliyordu, yani SCD Type 2 tarih aralığı örtüşmelerinin anlamsal doğruluğunu doğrulayamıyordu.

Başka bir çözüm, belirli iş kurallarını hedef alan anlık SQL sorgularıyla saf örneklemeyi içermekteydi; örneğin, hiçbir müşterinin çakışan aktif adres kayıtlarının olmamasını veya sipariş toplamlarının toplam hesaplamalarla eşleşmesini doğrulamak. Bu yaklaşım, hızlı geri bildirim sağlarken minimal kurulum gerektirdi, ancak veri ilişkilerindeki kenar vakaları kaçırma riski yüksekti, özellikle de ebeveyn SCD kayıtları zaman dilimi dönüşüm kenar vakalarında beklenmedik bir şekilde kapandığında kayıtların ince bir şekilde atıl hale gelmesi noktalarında.

Seçilen çözüm, otomatik olarak satır sayıları ve kritik toplamlar için uzlaştırma ile yoğun manuel SCD zamansal sınır denetimi kombinasyonu olan hibrit bir manuel metodolojiydi. Bu yaklaşımı seçmemizin nedeni, hız ihtiyacı ile karmaşık zamansal mantık yanlışlarını yakalama gereksinimini dengelemesiydi. Şüpheli tarih desenleri olan kayıtları tespit etmek için SQL sorguları yazdık; etkili tarihlerin başlangıçlarından önce bitmesi veya kapsama alanında boşluklar gibi. Sonra, kaynak CSV'den nihai ambar tablosuna kadar tam bir soy ağacında elli rastgele örneği izledik.

Sonuç, mobil uygulamadaki epoch zaman damgalarının saniyeler yerine milisaniye olarak yorumlandığı kritik bir hatanın tespit edilmesiydi, bu durum tüm mobil siparişlerin 2050 yılına tarihli gelecekteki işlemler gibi görünmesine neden oluyordu. Dönüşüm mantığını düzelttikten ve manuel doğrulama çerçevesinde tekrar işleme alındıktan sonra, 2.3 milyon kayıt arasında sıfır veri kaybı sağlandı ve tüm tarihsel müşteri adresi ilişkileri için referans bütünlüğü korundu.

Adayların genellikle kaçırdığı şeyler

Üretim verilerine erişim sağlayamadığınızda SCD Type 2 uygulamalarını nasıl doğruluyorsunuz? GDPR veya HIPAA gizlilik kısıtlamaları nedeniyle?

Cevap: Gerçek PII kullanmadan üretim verilerinin kardinalite ve dağıtım kalıplarını yansıtan sentetik veri setleri oluşturun. Özel olarak kenar vakaları oluşturarak: bir günde birden çok kez değişen kayıtlar, sonsuza kadar açık kalması gereken NULL etkili son tarihleri olan kayıtlar ve silindikten sonra iş anahtarının geri döndüğü kayıtlar oluşturun. Referans ilişkilerini korumak için üretim dışı ortamlarda gizleme teknikleri kullanın ve duyarlı alanları karıştırarak sağlamayacağınızdan emin olun. Aynı iş anahtarı yeniden göründüğünde çakışmalar yaratmadığından emin olun çünkü bu, belirli veri yaşam döngüleri ile ortaya çıkan yaygın bir hata modudur.

Dönüşüm mantığı dışsal Python betikleri ile veritabanı özgü SQL saklanan prosedürler arasında bölündüğünde, veri soy ağacını doğrulayan bir metodoloji nedir?

Cevap: Her dönüşüm katmanında benzersiz tanımlayıcılar kullanarak temsilci bir örnek kayıt grubunu manuel olarak izleyin ve Python ile SQL katmanları arasındaki aktarma noktalarında durum değişikliklerini belgelendirin. Her iş kuralını uygulama konumuna - veriyi çıkarma betiğinde, dönüşüm katmanında veya yükleme prosedüründe - eşlemeyi sağlayan bir izlenebilirlik matrisinin oluşturulması. Bu aktarma noktalarındaki sınır durumlarını test edin, örneğin Python UTF-8 dizgeleri SQL Server Latin-1 sütunlarına girdiğinde karakter kodlaması değişimlerini veya Python kaymalarının SQL DECIMAL türlerine dönüşümünde veri türü hassasiyet kaybını doğrulayın. Python katmanındaki hata işleme için SQL katmanında kısmi yüklemeleri önleyecek geri alma prosedürlerini tetikler.

Çapraz platform ETL süreçlerinde serbest metin alanlarında sessiz karakter kodlama bozulmasını nasıl tespit edersiniz?

Cevap: Kaynak sistemlere uzatılmış ASCII karakterler (şekillendirilmiş alıntılar, em-tireler ve uluslararası para birimi sembolleri gibi) içeren canary kayıtları ekleyin, ardından hedef ambar içindeki onaltılık temsilini doğrulayın. SQL'de HEX() veya ENCODE() işlevlerini kullanarak bayt düzeyinde çıktıları karşılaştırın, çünkü birçok UTF-8 bozulma sorunu, insan gözlerine benzer şekilde görünebilir ancak farklı altındaki bayt dizileri vardır. Latin-1'in UTF-8 olarak yorumlandığı durumlarda meydana gelen Mojibake kalıplarını özellikle test edin ve Windows kaynaklarından Linux tabanlı bulut ambarlarına CSV dosyaları işlerken ETL araçlarının BOM (Bayt Sırası Belirteci) başlıklarını doğru bir şekilde işlediğini doğrulayın.