Sorunun Cevabı.

Mimari, her Kubernetes düğümünde dağıtılmış bir Sağlık İzleme Ajanı gerektirir. Bu ajan, merkezi bir Çevre Sağlık Orkestratörü'ne sürekli telemetri — CPU, bellek, disk I/O, ağ gecikmesi ve veritabanı bağlantı havuzu durumu — akıtır. Bu orkestratör, kademeli kaynak tükenmesi ile ani arızalar arasında ayrım yapmak için anomali tespit algoritmaları uygular ve eşiklerin aşılması durumunda Kendi Kendine İyileştirme Oyun Kitaplarını tetikler. Bu oyun kitapları, etkilenen düğümü kapatır, aktif testleri Pod Kesinti Bütçeleri kullanarak nazikçe boşaltır, Altyapı-kod Olarak şablonlar aracılığıyla çevreyi bilinen iyi bir duruma geri yükler ve düğümü havuza geri göndermeden önce sentetik duman testlerini gerçekleştirir. Ön-Test Çevresi Kapısı, herhangi bir test yürütülmeden önce, stabiliteyi kanarya işlemleri ile doğrular, böylece test çalışmaları sırasında başarısızlıkların kesinlikle uygulama hataları olduğunu garanti eder.

class EnvironmentHealthCorrelator:
    def __init__(self, prometheus_client):
        self.prometheus = prometheus_client
        self.thresholds = {'memory_percent': 85, 'db_conn_percent': 90}
    
    def classify_failure(self, test_failure_time, node_id, error_type):
        # Hata öncesinde 60s boyunca çevresel metrikleri sorgula
        metrics = self.prometheus.query_range(
            f'node_resource_usage{{node="{node_id}"}}',
            start=test_failure_time - 60,
            end=test_failure_time
        )
        if any(m > self.thresholds['memory_percent'] for m in metrics):
            return {'type': 'ENVIRONMENT_FAILURE', 'retry_allowed': True}
        return {'type': 'APPLICATION_DEFECT', 'retry_allowed': False}

Hayattan bir durum

Günde 500'den fazla derlemeyi destekleyen Selenium Grid altyapımız, yoğun CI saatlerinde kesintili zaman aşımları sergilemeye başladı ve ChromeDriver düğümleri uygulama sağlıklı olmasına rağmen rastgele bağlantıları reddetti. Soruşturma, video kayıt Sidecar konteynerlerinde, düğüm kaynaklarını 8 saatlik periyotlar boyunca kademeli olarak tüketen bir bellek sızıntısı buldu ve bu, Kubernetes'in test ortasında podları tahliye etmesine neden oldu ve geliştiricileri gereksiz yere çabalara yönlendiren yanlış pozitif hata raporları üretti.

İlk düşünülen çözüm, bellek %80'i aştığında manuel DevOps müdahalesi için PagerDuty uyarıları uygulamaktı. Bu yaklaşım, mühendislerin düğümleri manuel olarak boşaltmasını ve yeniden başlatmasını gerektiriyordu ve bu, off-hours sırasında 15-30 dakikalık kurtarma gecikmeleri getiriyordu ve testlerin uyarı oluşturma ile insan yanıtı arasında başarısız olmasını engelleyemiyordu. Ayrıca, bu yöntem, çevresel bozulma nedeniyle önemli bir iş yükü yaratıyordu ve 24/7 CI boru hattı için sürdürülebilir olmaktan uzak bir durumdu.

İkinci yaklaşım, sağlıklı olmayan podları otomatik olarak yeniden başlatmak ve CPU metriklerine dayalı olarak ölçeklendirmek için yerel Canlılık Probları ve Yatay Pod Otomasyonu kullandı. Bu, temel otomasyon sağlasa da, tamamen reaktiftir — testler, probun sağlıksızlığı tespit etmesinden önce sık sık başarısız oldu ve ölçeklendirme, sidecar konteynerlerindeki temel bellek sızıntısını çözmedi. Ayrıca, bu yöntem nazik test boşaltma özelliğinden yoksundu, bu da raporları çevresel ilgili hatalarla kirletmeye neden olan ani test sonlandırmalarına yol açtı.

Sonuç olarak, Prometheus, Grafana anomali tespiti ve özel bir Kubernetes Operatörü kombinasyonu ile bir Proaktif Çevre Sağlık Mimarisi uyguladık. Operatör, düğümleri yeni testler için kullanılamaz olarak işaretleyen bir Kapatma İş Akışını tetikler, yürütülen testlerin tamamlanmasına uzatılmış zaman aşım süreleri verir, zorunlu bellek limitleriyle döngüsel yeniden başlatmalar gerçekleştirir ve düğümleri havuza geri döndürmeden önce sentetik duman testleri aracılığıyla çevre sağlığını doğrular. Bu çözüm, başarısızlıkları tamamen önlediği için, sıklığını azaltmak yerine tercih edildi; hiçbir insan müdahalesine ihtiyaç duymadı ve sağlıklı düğümlere yükü kesintisiz bir şekilde yeniden dağıtarak yürütme hızını korudu.

Sonuç, çevresel kaynaklı test başarısızlıklarını toplam başarısızlıkların %23'ünden %0.3'e düşürdü. Tespit için ortalama süremiz 45 dakikadan 15 saniyeye düştü, otomatik iyileştirme 90 saniye içinde tamamlandı ve geliştiriciler, kırmızı derlemelerin acil kod düzeltmeleri gerektiren gerçek gerilemeleri belirttiğine dair güvenlerini yeniden kazandılar.

Adayların Sıkça Gözden Kaçırdıkları

Bir test başarısızlığının uygulama hatalarından mı yoksa çevresel istikrarsızlıktan mı kaynaklandığını programatik olarak nasıl ayırt edersiniz, çünkü ikisi de benzer zaman aşımı hatası olarak ortaya çıkar?

Test başarısızlığı anında çevresel telemetri yakalayan bir Hata Bağlantı Korelasyon Katmanı uygulayın. Bir test zaman aşımına uğradığında, çerçeve, son 60 saniye için metrikleri almak üzere Sağlık İzleme Ajanı'na sorgu yapar — bellek baskı zirveleri, ağ bölünmesi olayları veya ChromeDriver işlem çökmesi kontrolü yapılır. Eğer çevresel anormallikler_failure zaman damgasıyla ilişkiliyse (örneğin, bellek kullanımı zaman aşımından 10 saniye önce %95'e yükseldiyse), çerçeve sonucu "Çevresel Hata" olarak işaretler ve otomatik olarak farklı bir düğümde tekrar dener. Uygulama hataları için, birçok düğümde tutarlı hata desenleriyle temiz çevresel metrikler görürken, çevresel hatalar bir düğüme özgü kaynak tükenme metrikleri gösterir.

Tek bir sağlıksız test ortamının paralelize edilmiş test suite'inin tamamındaki test sonuçlarını kirletmesini engellemek için hangi mimari kalıbı uyguluyorsunuz?

Test yürütümü için Bulkhead Pattern'ı uygulayarak, Düğüm Uygunluk Kurallarını Test İzolasyonu İsim Alanları ile birleştirin. Her paralel test iş parçacığı, Kubernetes düğüm seçicileri veya Docker ağ segmentasyonu aracılığıyla belirli bir çevre düğümüne bağlı olmalıdır, bu da Düğüm A'daki kaynak tükenmesinin Düğüm B'de çalışan testleri etkileyemeyeceğini garanti eder. Test planlayıcı seviyesinde bir Devre Kesici uygulayın — bir düğüm, sağlık kontrollerini üç ardışık kez geçmezse planlayıcı, otomatik olarak onu mevcut havuzdan çıkarır ve onarım için karantinaya alır. Bu, bir sızan konteynerin, ilgisiz testler için paylaşılan kaynakları bozduğu "gürültülü komşu" etkisini önler.

Kendi kendine iyileştiren onarıcınızın gerçekten çevreyi sağlıklı bir duruma geri getirdiğini nasıl doğruluyorsunuz, sadece belirtileri maskeler?

Bir çevreyi onarım sonrası kullanılabilir olarak işaretlemeden önce bir Sentetik İşlem Doğrulama adımı uygulayın. Kendi kendine iyileştirme oyun kitabı yürütüldükten sonra — ister bir konteyner yeniden başlatma, önbellek temizleme veya PostgreSQL bağlantı havuzu sıfırlama olsun — sistem, kritik yolları (kimlik doğrulama, veritabanı yazma, harici API bağlantısı) test eden hızlı, belirleyici duman testlerinden oluşan bir Kanarya Testi Takımı çalıştırmalıdır. Bu testler, bir yazılımın gerçekten kalıcı olup olmadığını doğrulayarak işlevsel doğruluğu doğrulamalıdır; sadece bağlantının başarılı olması değil, aynı zamanda kayıtların doğrulanması gerekir. Kaos Mühendisliği ilkelerini kullanarak, onarım sonrası kasıtlı olarak küçük hatalar ekleyerek, izleme sisteminin bunları algıladığından emin olun, böylece sağlık kontrollerinin gerçekten çalıştığını ve yanlış negatif bildirdiğini anlayabilirsiniz. Sadece kanarya ekibi geçtikten ve anomali uyarıları olmadan 60 saniyelik bir stabilite penceresi geçtikten sonra ortam, üretim test havuzuna döndürülmelidir.