Cevap

Sorunun geçmişi

Monolitik mimarilerden dağıtılmış bulut yerel mikro hizmetlere geçiş, ağ güvenilirliği ve kaynak kullanılabilirliğinde doğuştan belirsizlik getirdi. Netflix, ideal altyapı koşullarını varsaymak yerine, gerçek dünya karmaşasına karşı sistem dayanıklılığını doğrulamak için Kaos Mühendisliği uygulamalarını başlattı. Bu özel soru, işletmelerin bu ilkeleri sürekli entegrasyon boru hatları içinde operasyonel hale getirme istekleriyle ortaya çıktı ve gündüz düzenlenen vakalar dışında, dağıtımları kalite kapısı olarak hizmet edebilecek otomatik, tekrarlanabilir dayanıklılık doğrulama yöntemlerine geçiş yaptı.

Problem

Geleneksel işlevsel otomasyon, temiz altyapı varsayar, laboratuvar koşullarında testlerin geçmesi durumunda sahte bir güven oluşturur, ancak bu testler üretim ortamında küçük ağ kesintileri veya konteyner atma durumlarında felaketle sonuçlanır. Dağıtılmış sistemler, sadece gerçek altyapı stresinin altında ortaya çıkan zincirleme zaman aşımı, yeniden deneme fırtınaları ve devre kesici arızaları gibi ortaya çıkan davranışlar sergiler; ancak bu koşulları elle simüle etmek ne tekrarlanabilir ne de ölçeklenebilir. Temel zorluk, paylaşılan CI altyapısını istikrarsızlaştırmadan veya altyapı gürültüsü arkasında gerçek fonksiyonel gerilemeleri gizlemeden, geçici test ortamlarına gerçekçi hataları güvenli bir şekilde enjekte eden bir boru hattı tasarlamaktır.

Çözüm

Hizmet ağı API'lerini veya hafif düğüm ajanlarını tüketen bir bildirim Kaos Kontrolörü tasarlayın, belirli test aşamalarında gecikme, paket kaybı veya örnek iptali enjekte ederek test çalıştırıcısının yaşam döngüsüyle senkronize edin. Sistem, patlama yarıçapını sınırlamak için katı ad alanı düzeyinde izolasyonu zorunlu hale getirmeli, hata tetikleme için bir koordinasyon protokolü uygulamalı ve yalnızca istisnaları yakalamak yerine, önbelleğe alınmış verilere gerileme gibi iş sürekliliğini doğrulayan doğrulama kancaları sağlamalıdır. Test yürütmesi sonrasında, otomatik bir uzlaştırma döngüsü enjekte edilen hataları temizlemeli ve sonraki test paketlerinin sıfırdan bir ortamla karşılaşmasını sağlamak için sistemin homeostazını doğrulamalıdır.

# chaos_controller.py - pytest fixture entegrasyonu
import pytest
import requests
from chaos_mesh_client import ChaosMeshClient

@pytest.fixture
def inject_payment_latency():
    client = ChaosMeshClient(namespace="e2e-test-ns")
    # Bu test için ödeme hizmetine 5s gecikme enjekte et
    exp = client.create_network_delay(
        target_app="payment-service",
        latency="5s",
        duration="1m"
    )
    yield
    # Temizlik: diğer testlere etki edecek herhangi bir kalıntı gecikmenin olmadığını doğrula
    client.delete_experiment(exp.metadata.name)
    # Sistem iyileşmesini doğrula
    assert client.check_service_health("payment-service")

def test_checkout_graceful_degradation(inject_payment_latency):
    order = create_order()
    # Test, hata yokluğunu değil iş sürekliliğini doğrular
    result = checkout_service.process(order)
    assert result.status == "COMPLETED_WITH_CACHE"
    assert result.payment_status == "DEFERRED"

Hayattan bir durum

Hayattan bir senaryo

Bir çevrimiçi seyahat rezervasyon platformu, tarihsel olarak rezervasyon hacminde üç kat artışa ve ilişkili sistem stresine neden olan bir tatil trafik artışına hazırlanıyordu. Önceki zirve sezonlarında, üçüncü taraf vergi hesaplama hizmetinin ara sıra yavaşlaması nedeniyle rezervasyon hizmeti sonsuz bir şekilde beklemeye girmiş ve bağlantı havuzunu tüketmişti. Bu kesinti, satın almayı tamamlamaya çalışan kullanıcılara 504 gateway zaman aşımı hataları göndererek ciddi gelir kaybı ve müşteri memnuniyetsizliğine yol açtı.

Sorun tanımı

Mevcut otomasyon paketi, yanıt veren anında sahte bir sonraki bağımlılıkla işlevsel mantığı doğruluyor, bu da rezervasyon hizmetindeki senkronize HTTP çağrılarını tamamen maskelemekteydi. Mühendislik ekibi, devre kesicilerin üç saniyede açıldığını doğrulamak ve rezervasyon akışının kullanıcı yolculuğunu bloke etmeden yaklaşık bir yerel vergi hesaplamasına geri dönebildiğini görmek için bir çözüme ihtiyaç duydu. Her regresyon çalışmasında bu ağ parçalanmalarını tekrarlanabilir bir şekilde simüle edebilen ancak on iki diğer mühendislik ekibi tarafından eşzamanlı olarak kullanılan paylaşılan sahne ortamının istikrarını tehlikeye atmayan bir çözüm gereksinimi ortaya çıktı.

Düşünülen farklı çözümler

İlk seçenek, mühendislerin üretim benzeri kapsamlara Secure Shell ile bağlanarak manuel olarak süreçleri kapatmasını içeren bir hata enjekte etme işlemi oldu. Bu, gerçekçi hata modları sağladı, ancak derlemeler arasında tekrarlanabilir değildi, en az ayrıcalık ilkesini ihlal eden yüksek güvenlik izinleri gerektiriyordu ve çekme isteği doğrulama kapılarına entegre edilemiyordu. İkinci yaklaşım, 503 yanıtlarını simüle etmek için uygulama kodunda statik bir sıraya yerleştirilmesi önerisiydi; bu, uygulanması kolay ve hızlı bir şekilde gerçekleştirilmesine rağmen, gerçek TCP sıkışmasına dair davranışları test edemedi ve geliştiricilerin testle ilgili dallar içeren kırılgan koşullu mantıkları sürdürmesini gerektiriyordu, bu da üretim kod tabanını kirletiyordu. Üçüncü alternatif, yalnızca her çekme isteği için oluşturulan geçici ad alanları içinde trafiği kesen bir hizmet ağı yan hizmetiyle otomatik kaos entegrasyonunu içermekteydi ve bunu, Kubernetes ad alanı sınırlarını ve kaynak kotalarını koruyarak yeniden üretilebilirlik ve gerçekçi ağ yığını testi sunarak izolasyon sağlayarak yapıyordu.

Seçilen çözüm ve sonuç

Ekip, ilgili test durumlarını özelleştirilmiş @Resilience işaretleyici ile not ederek, ödeme aşamasında vergi hizmetine belirli beş saniyelik gecikmeler ekleyen yan hizmeti tetiklemeyi seçti. Bu yaklaşım, geliştirme ortamının hızlı yerel ağ koşullarında maskelenmiş olan HTTP istemci kütüphanesindeki kritik bir zaman aşımı yapılandırmasını belirledi. Üç haftalık otomatik kaos çalışmaları ile birlikte yapılan düzeltmeler sonrasında, platform, önceki yıldaki üç büyük kesintiye göre sıfır zaman aşımı ile tatil artışını başarıyla karşıladı ve önbelleğe alınmış vergi hesaplamaları için alt saniye tepki sürelerini korudu.

Adayların sıklıkla gözden kaçırdığı noktalar

Bir paylaşılan CI kümesindeki kaos deneyimlerinin, eşzamanlı boru hatlarını etkileyen kaynak açlığına yol açmasını nasıl önlersiniz?

Birçok aday, test edilen uygulamaya yalnızca odaklanır, ancak birden fazla boru hattının altında yatan hesaplama düğümlerini paylaştığı modern Kubernetes tabanlı CI altyapısının çok kiracılı yapısını göz ardı eder. Çözüm, diğer yapı ajanlarının ihtiyaç duyduğu CPU veya bellek stres deneylerinin düğüm kaynaklarını tekelleştirmesini önlemek için ad alanı düzeyinde katı Kaynak Kotaları ve Limit Aralıkları uygulamayı gerektirir. Ek olarak, belirli düğümleri kaos iş yüklerine ayırmak için düğüm seçicileri veya lekeleri kullanmak gereklidir; bu, gürültü komşu etkilerini önleyerek bir kum havuzu oluşturarak deneysel aparatın altyapı sınırlarına saygı gösterdiğinden emin olur.

Hata yönetimini doğrulamakla zarif gerileme arasındaki fark nedir ve bu, test doğrulamalarınızı nasıl değiştirir?

Adaylar, genellikle 500 İç Sunucu Hatasının yokluğunu doğrulayan yalnızca doğrulamaları yazarlar ve bunun sistem dayanıklılığını oluşturduğunu varsayarlar, ancak bu yalnızca sunucunun çökmediğini belirtir. Ancak zarif gerileme, iş sürekliliği doğrulama gerektirir; örneğin, öneri motoru kullanılamıyorsa, test, ürün sayfasının yine de önbelleğe alınmış popüler ürünler listesiyle yüklenmesini ve fatal hata sayfası göstermeden satın alma işlemini tamamlamasına izin vermelidir. Bu, QA mühendislerinin alanla ilgili düşme stratejilerini anlamasını ve veri varlığı veya UI durumu sürekliliği üzerinde doğrulama yapmasını gerektirir ve böylece doğrulamayı teknik HTTP kodlarından içe aktarılan finansal sonuçlara yönlendirir ve kısmi kesintiler sırasında gelir akışlarını korur.

Neden kaos deneyimlerinin yalnızca planlı oyun günlerinde çalıştırılması CI/CD için yetersizdir ve çerçeve başarısızlıkların istatistiksel doğasını nasıl ele almalıdır?

Genç mühendisler, kaos mühendisliğini manuel bir yıllık etkinlik olarak görme hatasına düşerler; oysa bu, her kod değişikliği üzerine çalışan sürekli bir otomasyon kapısı olmalıdır. Otomasyonda, arızalar her regresyon koşusunda stokastik olarak enjekte edilmelidir; böylece yalnızca belirli zamanlama koşullarında ortaya çıkabilecek yeniden deneme mantığı veya devre kesici yapılandırmalarındaki ince gerilemeleri yakalayabiliriz. Çerçeve, dağıtılmış sistemlerin olasılıksal doğasını göz önünde bulundurarak birden fazla çalışmadan sonuçları toplamalı ve işlevsel doğrulamalar geçerse bile performans düşüşünü tespit etmek için kanarya analizi teknikleri kullanmalıdır; örneğin p99 gecikmesinin yirmi yüzde artması gibi, böylece ince performans düşüşleri üretime sızmaz.