Odpowiedź na pytanie

Historia pytania

Testowanie WebSocketów ewoluowało z prostych modeli zapytań HTTP do walidacji trwałych połączeń. Wczesna automatyzacja traktowała gniazda jako czarne skrzynki z aktualizacjami HTTP, ignorując semantykę strumieni. Nowoczesne aplikacje w czasie rzeczywistym wymagają weryfikacji gwarancji kolejności, binarnych protokołów takich jak Protobuf w ramach oraz odporności na degradację TCP. Pytanie pojawiło się w wyniku obserwacji wadliwych potoków CI, gdzie testy niepowodzenia występowały sporadycznie z powodu warunków wyścigu w konsumowaniu wiadomości. Zespoły zmagały się z pogodzeniem deterministycznych asercji z istotnie asynchronicznymi, oparty na push, architekturami.

Problem

Kluczowym wyzwaniem jest walidacja właściwości temporalnych (kolejność, opóźnienie) bez wprowadzania nieokreślonych opóźnień. Połączenia WebSocket utrzymują stany sesji, które kolidują z równoległym wykonywaniem testów, powodując kolizje portów i zanieczyszczenie subskrypcji. Ładunki binarne wymagają deserializacji ze znajomością schematu, co różni się od asercji JSON, co komplikuje logikę weryfikacji. Testowanie odporności sieci wymaga wstrzykiwania błędów na warstwie transportowej bez modyfikowania kodu aplikacji. Tradycyjne wzorce oparte na ankietach Selenium lub REST Assured zawodzą, ponieważ zakładają cykle zapytanie-odpowiedź, a nie strumienie wysyłane przez serwer.

Rozwiązanie

Zaprojektuj reaktywny zestaw testowy używając Project Reactor lub RxJava, aby modelować strumienie wiadomości jako obserwowalne sekwencje z wirtualnymi możliwościami czasowymi. Wdróż TestContainers z Toxiproxy, aby symulować podziały sieci i opóźnienia, jednocześnie izolując każdy test w dedykowanej przestrzeni nazw sieci Docker. Zaimplementuj strategię korelacji UUID, w której każdy test generuje unikalny identyfikator sesji, zapewniając izolację routingu wiadomości wśród równoległych pracowników. W przypadku walidacji binarnej użyj matcherów ByteBuf lub niestandardowych matcherów Hamcrest, które deserializują według schematów Protobuf przed asercją. Wykonaj testy używając StepVerifier z wyraźnymi oczekiwaniami co do liczby sygnałów i kolejności.

@Testcontainers
public class WebSocketResilienceTest {
    
    @Container
    private static final ToxiproxyContainer toxiproxy = new ToxiproxyContainer("ghcr.io/shopify/toxiproxy:2.5.0");
    
    private WebSocketClient client;
    private ToxiproxyClient proxyClient;
    
    @BeforeEach
    void setUp() {
        client = new ReactorNettyWebSocketClient();
        proxyClient = new ToxiproxyClient(toxiproxy.getHost(), toxiproxy.getControlPort());
    }
    
    @Test
    void shouldMaintainMessageOrderingUnderNetworkLatency() throws IOException {
        Proxy proxy = proxyClient.createProxy("ws", "0.0.0.0:8666", "host.testcontainers.internal:8080");
        proxy.toxics().latency("latency", ToxicDirection.DOWNSTREAM, 2000);
        
        StepVerifier.create(
            client.execute(
                URI.create("ws://" + toxiproxy.getHost() + ":" + toxiproxy.getMappedPort(8666) + "/stream"),
                session -> session.receive()
                    .map(WebSocketMessage::getPayloadAsText)
                    .filter(msg -> msg.contains("sequence"))
                    .take(3)
                    .collectList()
            )
        )
        .assertNext(messages -> {
            assertThat(messages)
                .extracting(json -> JsonPath.read(json, "$.sequence"))
                .containsExactly(1, 2, 3);
        })
        .verifyComplete();
    }
}

Sytuacja z życia

Platforma handlu o wysokiej częstotliwości migrowała z odpytywania REST na strumieniowe przesyłanie danych marketowych za pomocą WebSocket. Zespół QA musiał zweryfikować, że aktualizacje cen przybywają w poprawnej kolejności temporalnej, nawet podczas wzrostu zmienności rynku powodującego 10k+ wiadomości/sekundę. Istniejący pakiet REST potrzebował ośmiu minut na zatwierdzenie scenariuszy, które WebSockety mogłyby obsługiwać w kilka sekund, co wymagało całkowitej zmiany architektonicznej frameworku automatyzacji.

Początkowa implementacja używała Thread.sleep(), aby czekać na wiadomości, co skutkowało 30-sekundowymi zestawami testów i 40% wskaźnikiem awaria. Równoległe wykonywanie powodowało, że testy konsumowały wzajemnie swoje wiadomości z dzielonych podkładów Redis pub/sub. Binarne ładunki Protobuf były porównywane jako ciągi Base64, co prowadziło do niepowodzeń z powodu nieokreślonej kolejności pól w powtarzanych elementach.

Zespół rozważał użycie LinkedBlockingQueue do zbierania wiadomości i odpytywania z limitami czasowymi. Dawało to prostą logikę asercji, ale wprowadzało nieokreślone opóźnienia. Testy pozostawały wolne, a warunki wyścigu podczas opróżniania kolejki powodowały sporadyczne błędy asercji, gdy wiadomości przychodziły szybciej niż były konsumowane. Podejście to również nie weryfikowało prawdziwej semantyki kolejności, weryfikując jedynie ostateczne przyjęcie.

Użycie WireMock lub MockWebServer do przeczytania uchwyconych klatek WebSocket oferowało deterministyczne wykonanie i szybki feedback. Jednak nie wychwytywało rzeczywistych problemów z odpornością sieci, takich jak utrata pakietów TCP lub logika ponownego połączenia. Mocks nie testowały rzeczywistej logiki obsługi Netty w serwerze aplikacyjnym, co pozwalało na błędy w ponownym połączeniu dotrzeć do produkcji.

Implementacja TestScheduler z Reactor do programowego manipulowania czasem połączona z TestContainers uruchamiającymi rzeczywisty serwer WebSocket za pomocą Toxiproxy umożliwiła szybkie wykonanie w czasie milisekund, jednocześnie weryfikując rzeczywiste zachowanie sieci. Wirtualny harmonogram czasu pozwalał na testowanie 5-minutowych okien czasowych w mniej niż 50 ms, podczas gdy Toxiproxy wstrzykiwał precyzyjne opóźnienia i limity przepływności. To podejście wymagało więcej wstępnej konfiguracji, ale zapewniało najwyższą wierność.

Zespół wybrał reaktywną metodę wirtualnego czasu, ponieważ pozwoliła zachować wierność produkcyjną bez poświęcania prędkości wykonania. W przeciwieństwie do mocków, weryfikowała rzeczywistą linię Netty i mechanizmy ponownego łączenia. W przeciwieństwie do zablokowanych kolejek, zapewniała deterministyczne asercje kolejności za pomocą operatorów sekwencji Flux. Izolacja zapewniana przez sieci Docker wyeliminowała konflikty w równoległym wykonywaniu.

Czas wykonywania testów spadł z 4 minut do 12 sekund na zestaw. Wskaźnik wpadek zredukowano do zera w ciągu trzech miesięcy biegów CI. Framework wychwycił krytyczny błąd, w którym aplikacja nie dawała sobie rady z deduplikacją wiadomości po zdarzeniach ponownego połączenia TCP, co dotychczasowe testy manualne przegapiły. Rozwiązanie skaluje się do 50 równoległych pracowników CI bez konfliktów portów.

Czego często brakuje kandydatom

Jak zapobiec kontaminacji wiadomości podczas równoległego wykonywania testów WebSocket?

Kandydaci często sugerują użycie blokad synchronized lub ReentrantLock na instancji klienta. To szeregowo wykonuje operacje i niweczy cel równoległego CI. Poprawne podejście polega na izolacji architektonicznej: każda klasa testowa instancjonuje swój własny TestContainer z dedykowaną przestrzenią nazw sieci i dynamiczną alokacją portów. Użyj kluczy routingu opartych na UUID, gdzie test subskrybuje tylko wiadomości oznaczone swoim unikalnym identyfikatorem korelacji. To zapewnia zerowy stan współdzielony bez wąskich gardeł wydajności.

Dlaczego porównywanie binarnych klatek WebSocket jako ciągów Base64 prowadzi do fałszywych negatywów i jak należy walidować ładunki binarne?

Kodowanie Base64 ładunków Protobuf lub MessagePack zawiera metadane formatu, które mogą różnić się między implementacjami (kolejność pól, przechowywanie nieznanych pól). Porównanie ciągów zawodzi, gdy semantycznie identyczne wiadomości mają różne reprezentacje binarne. Zamiast tego zdeserializuj ByteBuf do wygenerowanej klasy Java/Kotlin przy użyciu oficjalnego kompilatora Protobuf, a następnie wykonaj głębokie porównanie pól za pomocą rekurencyjnego porównania AssertJ. W przypadku nieznanych pól użyj ProtoTruth (rozszerzenie biblioteki Truth Google), które poprawnie obsługuje równoważność protokołów.

Jak symulować podział sieci w testowaniu WebSocket bez modyfikowania reguł zapory aplikacji?

Modyfikowanie iptables lub kodu aplikacji wymaga uprawnień administratora i powoduje rozbieżności w środowisku. Kandydaci często pomijają Toxiproxy lub Pumba (narzędzie do testowania Chaos dla Dockera). Te uruchamiają się jako kontenery sidecar w sieci testowej, umożliwiając programowe wstrzykiwanie opóźnień, limitów przepustowości i resetów połączeń za pomocą interfejsów API REST. Skonfiguruj klienta WebSocket do łączenia się przez punkt końcowy proxy. Podczas testu wywołaj toksyczny punkt końcowy, aby przerwać połączenia lub wywołać 100% utratę pakietów, a następnie zweryfikuj, czy klient wyzwala oczekiwaną strategię ponownego łączenia i kontynuuje z poprawnym identyfikatorem sekwencji wiadomości.