Odpowiedź na pytanie

Historia pytania

Zmiany schematu bazy danych były dotychczas najbardziej niepożądaną częścią wdrożenia oprogramowania, często wymagając okien serwisowych i ręcznych skryptów weryfikacyjnych. W miarę jak organizacje wprowadzały mikroserwisy i praktyki ciągłego wdrażania, częstość zmian schematu znacznie wzrosła, co sprawiło, że ręczna walidacja stała się niepraktyczna i podatna na błędy. Pojawienie się wzorców wdrożeń bez przestojów wymagało, aby schematy utrzymywały zgodność wsteczną pomiędzy wieloma wersjami jednocześnie, co wymusiło automatyczną walidację, która mogłaby wykryć zmiany łamiące działanie przed dotarciem do środowisk produkcyjnych.

Problem

Podstawowym wyzwaniem jest weryfikacja, że nowa migracja schematu nie narusza domniemanego kontraktu pomiędzy bazą danych a wieloma wersjami serwisu, które mogą z niej korzystać podczas wdrożenia stopniowego. Tradycyjne testowanie weryfikuje kod aplikacji wobec statycznego schematu, ale nie potrafi wykryć sytuacji, w których wersja N+1 serwisu zapisuje dane, które wersja N nie może odczytać, lub gdzie zmiany nazw kolumn łamią istniejące zapytania w trakcie okna przejściowego. Dodatkowo, procedury rollbacku rzadko są testowane automatycznie, co pozostawia zespoły z niezweryfikowanymi ścieżkami odzyskania, które mogą zawieść dokładnie wtedy, gdy są najbardziej potrzebne, co skutkuje wydłużonymi przerwami w działaniu i ryzykiem uszkodzenia danych.

Rozwiązanie

Solidna pipeline weryfikacyjna wdraża mechanizm bramkowania w trzech etapach, wykorzystując efemeryczne klony baz danych i zasady testowania kontraktów. Po pierwsze, migracja jest stosowana do instancji TestContainers wypełnionej danymi podobnymi do produkcyjnych, aby wykryć błędy w czasie działania oraz degradację wydajności. Po drugie, zgodność wsteczna jest weryfikowana poprzez uruchomienie zestawu testów integracyjnych poprzedniej wersji serwisu w stosunku do nowego schematu, zapewniając, że stare ścieżki kodu nadal mogą odczytywać i zapisywać ważne dane. Po trzecie, skrypty rollbacku są automatycznie wykonywane w stosunku do zmigrowanego schematu, aby zweryfikować, że ścieżka downgrade'u przywraca bazę danych do spójnego stanu bez utraty danych, korzystając z sum kontrolnych dla liczby wierszy tabeli i integralności krytycznych pól.

@Test
public void testSchemaMigrationBackwardCompatibility() {
    // Etap 1: Zastosuj migrację do świeżego kontenera
    DatabaseContainer oldDb = new DatabaseContainer("postgres:13");
    oldDb.start();
    Flyway.configure().dataSource(oldDb.getJdbcUrl(), "user", "pass")
          .target("V1__baseline").load().migrate();
    
    // Wstaw dane używając starego schematu
    User legacyUser = oldDb.insertUser("legacy@example.com");
    
    // Etap 2: Zastosuj nową migrację
    Flyway.configure().dataSource(oldDb.getJdbcUrl(), "user", "pass")
          .load().migrate(); // Migracja do V2__add_profile
    
    // Etap 3: Zweryfikuj, że stary serwis nadal może odczytywać/zapisywać
    LegacyUserService oldService = new LegacyUserService(oldDb.getDataSource());
    User fetched = oldService.findById(legacyUser.getId());
    assertNotNull("Stary serwis musi odczytać istniejących użytkowników", fetched);
    
    // Etap 4: Zweryfikuj integralność rollbacku
    Flyway.configure().dataSource(oldDb.getJdbcUrl(), "user", "pass")
          .target("V1__baseline").load().migrate(); // Rollback
    int countAfterRollback = oldDb.countUsers();
    assertEquals("Rollback musi zachować liczbę danych", 1, countAfterRollback);
}

Sytuacja z życia

Firma fintechowa doświadczyła poważnej trzygodzinnej awarii, gdy z pozoru prosta migracja zmieniła nazwę kolumny account_balance na balance w bazie danych ich serwisu płatności. Wdrożenie używało strategii aktualizacji stopniowej, w której instancje uruchamiające nowy kod zapisywały do zmienionej kolumny, podczas gdy instancje wciąż wdrażające próbowały odczytać z dawnych nazw kolumn. Ta niespójność spowodowała kaskadowe błędy transakcji i częściowe uszkodzenie danych, które wymagały ręcznej interwencji w celu uzgodnienia.

Zespół rozważył trzy różne podejścia, aby zapobiec powtórzeniu się sytuacji: wdrożenie ręcznych list kontrolnych QA dla każdej migracji, przyjęcie wdrożeń w modelu blue-green z klonowaniem baz danych lub stworzenie zautomatyzowanej pipeline weryfikacyjnej. Ręczne listy kontrolne zostały odrzucone z powodu potencjału błędów ludzkich oraz ograniczeń skalowania, gdy zespół się zwiększał. Wdrożenia w modelu blue-green uznano za zbyt kosztowne ze względu na ich objętość danych, wymagające podwójnej pojemności pamięci i skomplikowanej obsługi opóźnień replikacji, które wprowadzały własne ryzyko.

Ostatecznie zdecydowali się wdrożyć automatyczną pipeline przy użyciu TestContainers i callbacków Flyway, które weryfikowały każdą migrację w stosunku do poprzednich dwóch wersji aplikacji w konfiguracji budowy macierzowej. To rozwiązanie wykryło kolejną próbę usunięcia kolumny, która była nadal odniesiona przez poprzednią wersję API, automatycznie blokując żądanie scalania przed dotarciem do produkcji. Wynikiem było 90% zmniejszenie incydentów związanych z migracją i możliwość wdrażania zmian w schemacie 50 razy częściej bez konieczności stosowania okien serwisowych.

Co często umykają kandydatom

Dlaczego testowanie zgodności wstecznej jest niewystarczające bez weryfikacji również zgodności w przód w pipeline migracji bazy danych?

Wielu kandydatów koncentruje się wyłącznie na zapewnieniu, że stary kod działa z nowymi schematami, ale pomija fakt, że nowy kod również musi obsługiwać dane zapisywane przez stary kod w trakcie okresu przejściowego. Problemy z zgodnością w przód występują, gdy nowy schemat wprowadza ograniczenia, takie jak kolumny NOT NULL bez domyślnych wartości, co powoduje, że nowa wersja aplikacji się zawiesza, napotykając rekordy legacy. Rozwiązanie polega na wdrażaniu wzorców rozwijania-kontraktów, gdzie nowe kolumny są dodawane jako nullable lub z domyślnymi wartościami w jednej wersji, a następnie ograniczane dopiero po migracji wszystkich instancji.

Jak wybór poziomu izolacji transakcji w testach weryfikacji migracji potencjalnie ukrywa warunki wyścigu, które wystąpią w produkcji?

Kandydaci często używają domyślnych poziomów izolacji w bazach testowych, które różnią się od konfiguracji produkcyjnych, co prowadzi do fałszywych pozytywów w testach współbieżności. Jeśli produkcja używa READ COMMITTED, podczas gdy testy używają SERIALIZABLE, testy mogą przejść pomimo tego, że skrypty migracji zawierają nieatomowe operacje DDL, które powodują blokady tabel pod rzeczywistym obciążeniem. Szczegółowe rozwiązanie wymaga skonfigurowania kontenerów testowych tak, aby odpowiadały produkcyjnym poziomom izolacji i wdrażania symulacji równoczesnego wykonania, które stosują migracje, podczas gdy symulowany ruch wykonuje odczyty i zapisy, sprawdzając konkretnie na martwe blokady i przekroczenia czasu blokady.

Jaka jest fundamentalna różnica między testowaniem skryptu rollbacku a testowaniem zgodności downgrade'u między wersjami aplikacji?

To rozróżnienie myli wielu inżynierów, którzy zakładają, że jeśli wykonanie flyway undo nie zgłasza błędu, system jest bezpieczny, ale pomyślny rollback bazy danych nie gwarantuje, że poprzednia wersja aplikacji może poprawnie zinterpretować przywrócony stan danych. Jeśli nowa wersja transformowała dane podczas swojej operacji, poprzednia wersja może napotkać niespodziewane wartości null lub formaty po rollbacku, co prowadzi do wyjątków w czasie działania. Rozwiązanie wymaga testowania integracyjnego, w którym aplikacja jest aktualizowana, przetwarza transformacje danych, a następnie baza danych jest przywracana, a poprzednia wersja aplikacji zostaje ponownie połączona, aby zweryfikować, że działa poprawnie ze przywróconym stanem.