Cevap

Sorunun tarihi

CRDT'ler (Çatışmasız Replikalı Veri Türleri), geleneksel OT (Operasyonel Dönüşüm) ile değişerek ortak düzenleme ve çevrimdışı öncelikli mobil uygulamalar için baskın çözüm haline geldi; Yjs ve Automerge gibi çerçevelerde yer aldı. Erken test stratejileri, gerçek dünya mobil dağıtımlarında kaotik ağ koşullarını yeniden üretmede başarısız olan manuel uçak modu değiştirme işlemlerine dayanıyordu. Disiplin, basit işlevsellik testlerinden matematiksel olarak belirleme özelliklerinin doğrulanmasına doğru evrildi.

Problem

Geleneksel ACID uyumluluk testleri anlık tutarlılık varsayıyor, oysa CRDT'ler yalnızca replikaların geçici olarak farklılaşabileceği güçlü nihai tutarlılığı garanti ediyor. Test edilmesi gereken, rastgele ağ bölünmelerinin simüle edilmesi, aynı imleç pozisyonlarında eşzamanlı güncellemelerin (örneğin, aynı anda metin eklemeleri) veri kaybı olmadan birleştirildiğinin doğrulanması ve mezar taşlarının çöp toplayıcısı tarafından korunarak birleşme sağlandığını gözlemlemektir. Standart sahte oluşturma teknikleri, taşıma katmanındaki serileştirme farklılıklarını, neden-sonuç izleme üzerindeki saat kaymalarını veya TCP sıkışma davranışlarını yakalayamaz çünkü bunlar günlük testlerde test edilemez.

Çözüm

Toxiproxy'yi ağ bölünmesi enjektiyonu için kullanarak çok katmanlı bir çerçeve tasarlayın, Property-based testing (örneğin fast-check veya Hypothesis aracılığıyla) rastgele operasyon dizileri üretmek için kullanın ve tüm replikaları sıklıkla anlık görüntü ile kontrol eden bir Birleşme İzleyicisi oluşturun. Çerçeve kontrollü kaos sırasında (rastgele gecikme, düşürülen paketler) işlemleri gerçekleştirir, ardından katılma yarı alt kümesinin matematiksel özelliklerini doğrular: birleştirme fonksiyonlarının komutativity, associativity ve idempotency.

const fc = require('fast-check');
const { setupPartitionedReplicas, healPartition } = require('./test-helpers');

test('Ağ kaosu altında CRDT birleşmesi', async () => {
  await fc.assert(
    fc.asyncProperty(
      fc.array(fc.tuple(fc.string(), fc.nat()), { minLength: 1, maxLength: 100 }),
      async (operations) => {
        const [replicaA, replicaB] = await setupPartitionedReplicas();
        
        // Toxiproxy tarafından enjekte edilen rastgele gecikme ile işlemleri uygulayın
        await Promise.all([
          applyWithChaos(replicaA, operations.filter((_, i) => i % 2 === 0)),
          applyWithChaos(replicaB, operations.filter((_, i) => i % 2 === 1))
        ]);
        
        await healPartition();
        await waitForConvergence(5000); // 5sn zaman aşımı
        
        // Güçlü nihai tutarlılığı doğrulayın
        return JSON.stringify(replicaA.state) === JSON.stringify(replicaB.state);
      }
    ), 
    { numRuns: 1000, timeout: 60000 }
  );
});

Hayattan bir durum

Senaryo

Bir telemedicine girişimi, React Native ve Yjs CRDT'leri ile tabletler arasında hasta vital verilerini senkronize eden bir mobil uygulama geliştirdi. Aynı hastanın kan basıncı değerini çevrimdışı olarak düzenleyen iki doktor, kütüphanenin çatışmasız özelliklerini iddia etmesine rağmen biri diğerini gizlice silerken bağlantı kurdu. Sorun, kırsal kliniklerin kesintili bağlantı ile kritik veri kaybı bildirmesi üzerine üç hafta boyunca tespit edilmedi.

Problem Açıklaması

Ekip, Yjs belgesinin etrafında oluşturdukları özel sarmalayıcının, sayısal alanlar için LWW (Son-Yazar-Kazanan) kaydını yanlış uyguladığını, bir PN-Counter (Pozitif-Negatif Sayaç) kullanmak yerine yaptıklarını keşfetti. Standart birim testleri, tek kullanıcı senaryolarını ardışık olarak test ettikleri için geçti; buna karşın sahte ağlar kullanan entegrasyon testleri, 'gecikmeli senkronizasyon' penceresini yakalamadan hemen senkronize oldu. Bu yarış durumu, yalnızca her iki doktor, milisaniyeler içinde çevrimiçi olduğu zaman gerçekleşti ve bulut senkronizasyon katmanında bir zaman damgası çakışmasına neden oldu.

Çözüm 1: Manuel Cihaz Laboratuvarı Testi

Tıbbi araştırmacılar, fiziksel tabletlerde uçak modunu manuel olarak etkinleştirip, hasta kayıtlarına çelişkili düzenlemeler yaptı ve ardından eşzamanlı olarak uçak modunu devre dışı bırakarak senkronizasyonu zorladı. Bu yaklaşım, kontrol edilebilir bir laboratuvar ortamında birden fazla fiziksel cihaz koordine etmeyi gerektiriyordu ve insanların yeniden bağlantı zamanlamasını senkronize etmek için insan refleksine bağımlıydı.

Artılar: Bu yöntem, aslında donanım radyo davranışlarını, iOS arka plan uygulama yenileme farklılıklarını ve WebSocket yeniden bağlantı zamanlaması üzerindeki batarya optimizasyonu etkilerini yakalayarak maksimum gerçekçilik sağladı.

Eksiler: Yaklaşım, insan tepki gecikmeleri nedeniyle yeniden üretilemeyen zamanlamalardan etkilendi, iki cihazdan fazlasına ölçeklenmek için pahalı cihaz çiftlikleri gerekiyordu ve milisaniye pencerelerinde eşzamanlı yeniden bağlantılar gibi belirli kenar durumlarını sistematik bir şekilde test edemedi.

Çözüm 2: Sahte Saatlerle Deterministik Birim Testi

Geliştiriciler, CRDT operasyonları arasında saati manuel olarak ilerletmek için Jest birim testleri ve Sinon sahte saatler uyguladı, gerçek ağ katılımı olmadan programla çevrimdışı dönemleri simüle etti. Bu testler, mobil cihaz durumunu temsil etmek için bellek içi veri yapılarını kullanarak izole Node.js süreçlerinde çalıştı. Bu yaklaşım, çalıştırma ortamı üzerinde tam kontrol sağladı ve geliştirme sırasında anında geri bildirim aldı.

Artılar: Çalıştırma milisaniyeler içinde tamamlandı, belirli birleştirme senaryolarının hata ayıklanması için deterministik yeniden üretilebilirlik sundu ve ağ altyapısı veya konteyner orkestrasyonuna ihtiyaç duymadı.

Eksiler: Testler, Protocol Buffers taşıma katmanındaki serileştirme hatalarını yakalamadı, TCP geri basıncı ve tekrar davranışlarını göz ardı etti, ayrıca gerçek Android ve iOS cihazlarındaki SQLite'dan önemli ölçüde farklı sahte depolama kullandı.

Çözüm 3: Property-Tabanlı Test ile Otomatik Kaos Mühendisliği

Ekip, Android emülatörleri ile Node.js senkronizasyon sunucusu arasında rastgele gecikme, paket kaybı ve bölünme senaryoları enjekte etmek için bir Docker Compose kümesi kurdu. Fast-check kullanarak farklı zamanlama özelliklerine sahip binlerce rastgele işlem dizisi ürettilerken, özel bir sağlık izleyici, birleşme ihlallerini tespit etmek için replikaların durumunu hata ayıklama API'leri aracılığıyla kontrol etti. Bu kurulum, kırsal hücresel ağların kaotik ağ koşullarını doğru bir şekilde modelledi ve tohumlanmış rastgelelik ile tam yeniden üretilebilirlik sağladı.

Artılar: Bu, ağ bölünmeleri üzerinde hassas kontrol sağladı, eşzamanlı artışlar gibi kenar durumlarının property-tabanlı üretilmesini sağladı, ve TLS el sıkışma zaman aşımı ve MTU parçalanma sorunları dahil gerçek ağ yığın davranışını yakaladı.

Eksiler: Kurulum, konteynerleştirilmiş emülatör çiftliklerini sürdürmek için önemli DevOps uzmanlığı gerektiriyordu, test yürütme, Docker aşırı yüklenmesi nedeniyle birim testlerden daha yavaştı ve hataları hata ayıklamak, Toxiproxy, emülatörler ve senkronizasyon sunucusu arasında dağıtılmış günlükleri ilişkilendirmeyi gerektiriyordu.

Seçilen Çözüm ve Gerekçe

Ekip, Yjs güncelleme mesajlarının hücresel MTU limitlerini aştığını, senkronizasyon sırasında sessiz parçalanmalara neden olduğunu kanıtlayan bir üretim olayının ardından Çözüm 3'ü seçti. Korunması pahalı olsa da, kaos mühendisliği yaklaşımı, vektör saat karşılaştırmalarını içeren düzeltmeyi doğrulamak için gerekli hassasiyeti sağladı ve birleşme özelliklerinde hiçbir gerilemenin olmadığından emin olundu.

Sonuç

Çerçeve, aynı sistem zaman damgalarının eşzamanlı güncellemelerin LWW kaydının geçerli tıbbi verileri silmesine neden olduğunu tespit etti ve bu, duvar saatine göre değil, sebep geçmişi ile birleştirilen Çok Değerli Kayıtlara geçişi teşvik etti. Dağıtımın ardından otomatik kaos testleri, yüksek bölüm sıklığı altında mezar taşlarının birikmesiyle ilgili üç ek kenar durumunu tespit etti ve veri kaybı olaylarını %99.7 azaltarak, tespit için geçen ortalama süreyi günlerden dakikalara düşürdü.

Adayların Sıklıkla Gözden Kaçırdığı Noktalar

Bellek sızıntılarını test ederken, State-tabanlı CRDT'ler gibi Replicated Growable Array (RGA) için çöp toplama eşiklerini nasıl ele alırsınız?

Birçok aday, çöp toplamanın (mezar taşlarını kaldırma) deterministik olduğunu ve bir silme işleminden sonra hemen tetiklenebileceğini varsayıyor. Gerçekte, RGA'nın çöp toplama işlemi, neden-sonuç dengesinin sağlanmasına bağlıdır; bu durum da, tüm replikaların silme işareti ile vektör saat üstünlüğünü gözlemlemesini gerektirir. Doğru test yaklaşımı, tüm düğümler arasında vektör saat sınırlarını izleyen bir Neden-Sonuç Dengeleyici uygulamaktır; mezar taşlarının kaldırılmasını yalnızca denetleyici, evrensel kabulü doğruladığında tetikler. Testler, yalnızca bellek sızıntılarını önlemek için çöp toplama gerçekleşip gerçekleşmediğini değil, aşırı kaldırmanın korunmasını sağlamak için de doğrulama yapmalıdır - bir mezar taşını çok erken silmek, derin bağlantıların yalnızca saatler sonra ortaya çıkacağı kalıcı bir farklılığa neden olur.

Neden standart eşitlik doğrulamalarını (===) kullanarak CRDT birleşmesini doğrulayamazsınız ve test çerçevenizin hangi matematiksel özelliği doğrulaması gerekir?

Adaylar sıklıkla expect(replicaA.state).toEqual(replicaB.state) gibi doğrulamalar yazar; bu, CRDT'ler için geçersizdir çünkü içsel meta veriler (vektör saatleri, işlem geçmişleri veya düğüm kimlikleri gibi) kullanıcı görünür durumlar birleştirildiğinde farklı olabilir. Birleşme İşleci'nin En Küçük Üst Sınırı (LUB) özelliğini doğrulamanız gerekir. B bunu yapmak için üç matematiksel ilkeye doğrulama yapmalısınız: komutativity (merge(A, B) == merge(B, A)), associativity (merge(A, merge(B, C)) == merge(merge(A, B), C)), ve idempotency (merge(A, A) == A). Test çerçeveniz, birleştikten sonra gözlemlenebilir kullanıcı durumunu çıkarırken iç CRDT meta verilerini yok saymalıdır, ardından tüm replikaların birleşim düzeni veya bölüm geçmişine bakılmaksızın aynı LUB durumlarına ulaşmasını doğrulamalıdır. Bu yaklaşım, birleştirmenin matematiksel olarak sağlam olmasını garanti eder, tesadüfen eşit olmasını sağlamaz.

Sonsuz beklemeler veya geçici ağ gecikmeleri nedeniyle yanlış pozitifler yaratmadan, birleşme canlılığını—replikaların nihayetinde senkronize olma garantisini—nasıl test edersiniz?

Bu zorluk, dağıtık sistemler için duraklama sorununu temsil eder; adayler sıklıkla await sleep(5000) gibi rastgele zaman aşım süreleri uygulayarak flake testler veya yanlış negatifler oluşturur. Çözüm, eksponansiyel geri çekilme istemcisi ile Toxiproxy metriklerini izleyen bir Ağ Durulsuzluğu Dedektörü ile birlikte birleşme koşulu uygulamaktır; bu, tüm replikaların aynı vektör saat sınırlarını bildirdiğini doğrulamak için gönderilen işlemlerin olmadığını doğrular. Ağ durulmaz hale geldiğinde ve tüm replikalar aynı vektör saat sınırlarını raporladığında birleşmenin tamamlandığını ilan edilebilir; (işlem_sayısı * maksimum_gecikme) + saat_skew_buffer üzerinden hesaplanan uyarlamalı bir zaman aşımı kullanarak. Belirlenen üst sınır içinde birleşme sağlanmazsa, test deterministik bir şekilde başarısızdır ve takılı durumların hata ayıklaması için net sinyaller sağlar.

Güçlü nihai tutarlılığı ve CRDT'ler kullanarak çevrimdışı öncelikli mobil uygulamalarda çatışmasız uzlaşmayı doğrulamak için otomatik bir test çerçevesi kurun ve simüle edilmiş ağ bölünmesi senaryolarını kullanın?