История вопроса

Предприятия, проходящие цифровую трансформацию, часто работают в сложных "коричневых полях", где критически важные транзакции основного банкинга продолжают обрабатываться десятилетиями старыми мейнфрейками на COBOL в системах IBM z/OS. В то же время взаимодействия с клиентами, такие как onboarding и сервисные процессы, все больше обрабатываются современными веб-порталами на React и мобильными приложениями. Эта технологическая дифференциация создает значительные трудности валидации для команд QA, которым необходимо обеспечивать бесперебойный поток данных и транзакционную согласованность между этими различными архитектурами.

Как правило, усилия по автоматизации в таких средах становятся сильно изолированными, при этом специализированные группы поддерживают отдельные инструменты для эмуляции терминалов мейнфрейков (таких как Jagacy или Extra!), универсальной автоматизации пользовательских интерфейсов (Selenium или Cypress) и валидации API (Rest-Assured или Postman). Эта фрагментация приводит к хрупким интеграционным системам, написанным на высокопрофессиональном жаргоне, который не может быть просмотрен или проверен непрофессиональными бизнес-аналитиками с точки зрения требований. Более того, катастрофические проблемы целостности данных часто возникают, когда тест не проходит в середине выполнения, что потенциально оставляет учетную запись мейнфрейка, созданную в то время как соответствующая проверка веб-портала остается незавершенной, что загрязняет потоки данных с помощью сиротских тестовых данных.

Этот конкретный вопрос возник у финансовой фирмы из Fortune 500, испытывающей трудности с валидацией сложного процесса "нового клиента", который охватывал мобильное приложение на React, шину событий Kafka, уровень микросервисов на Java и окончательное создание учетной записи на мейнфрейме IBM z/OS. Организация требовала единой стратегии автоматизации, которая могла бы преодолевать эти технические преграды, сохраняя при этом гибкость, ожидаемую в современных процессах DevOps. Задача дополнительно усложнялась необходимостью для бизнес-аналитиков составлять и понимать тестовые сценарии без понимания основных технических реализаций каждой системы.

Проблема

Основная задача заключается в фундаментальном несовпадении между синхронной автоматизацией веба, которая ожидает немедленных обновлений DOM и событийно управляемыми взаимодействиями, и блочным режимом эмуляции терминала мейнфреймов 3270, который полагается на явный скрапинг экрана и точное позиционирование курсора. RESTful API добавляют дальнейшую сложность, работая в безсостоявшейся парадигме запросов и ответов, которая не имеет непрерывности сессии, присущей терминальным сессиям. Преодоление этих архитектурных стилей требует слоя абстракции, способного переводить высокоуровневые бизнес-действия в системные команды без утечки деталей технической реализации в тестовые сценарии.

Поддержание единого специфического для домена языка (DSL) с помощью инструментов, таких как Gherkin, становится крайне сложным, когда технические реализации шагов теста сильно различаются между системами. Веб-элементы обычно идентифицируются с использованием CSS-селекторов или выражений XPath, валидации API полагаются на утверждения JSON Path и валидацию схем, в то время как взаимодействия с мейнфрейком зависят от координат полей, экранных меток или специфических последовательностей клавиш, таких как F1 или Enter. Без надежной стратегии абстракции DSL быстро превращается в набор технических локаторов и системного жаргона, что противоречит его назначению как средства общения между бизнесом и техническими заинтересованными сторонами.

Кроме того, гарантирование истинной транзакционной целостности между этими распределенными системами требует реализации шаблона Saga или Устранения транзакций прямо в архитектуре тестового фреймворка, что является нетривиальной задачей, когда тестовый уровень не имеет встроенных хуков в двухфазные протоколы подтверждения мейнфрейка или менеджеры распределенных транзакций. Когда ошибка теста происходит на веб-портале после того, как транзакция мейнфрейка уже была зафиксирована, фреймворк должен иметь возможности и ум, чтобы инициировать явные процедуры отката, чтобы восстановить согласованность среды. Это требует сложных механизмов отслеживания состояния и обработки ошибок, которые выходят далеко за рамки стандартных блоков try-catch.

Наконец, фреймворк автоматизации должен надежно обрабатывать различные механизмы аутентификации без встраивания конфиденциальных учетных данных прямо в тестовые скрипты. Веб-порталы часто используют современные потоки OAuth2 или SAML с многофакторной аутентификацией (MFA), REST API полагаются на ключи API или JWT токены, в то время как устаревшие мейнфрейки аутентифицируются с помощью провайдеров RACF или ACF2 с использованием статических профилей пользователей. Центральный, зашифрованный хранилище учетных данных с возможностью инъекции, специфичной для среды, является необходимым для поддержания безопасности при осуществлении бесшовной кросс-системной аутентификации.

Решение

Чтобы справиться с этими сложностями, фреймворк должен быть спроектирован с использованием шаблона Шестигранной архитектуры (Порты и адаптеры), который обеспечивает строгую изоляцию между логикой домена тестирования и взаимодействиями с внешними системами. Определите абстрактный интерфейс порта ApplicationDriver, объявляющий высокоуровневые доменные методы, такие как enterCustomerData(), verifyAccountCreation() и rollbackTransaction(). Этот интерфейс становится единственным контрактом, с которым разрешено взаимодействовать вашей DSL-слою (такой как определения шагов Cucumber или привязки SpecFlow), обеспечивая полную изоляцию от специфики реализации.

Конкретные реализации адаптеров обрабатывают технические аспекты, специфические для системы: SeleniumWebAdapter переводит методы порта в взаимодействия с браузером, RestAssuredAdapter выполняет HTTP-запросы и разбирает JSON-ответы, а HllapiMainframeAdapter использует API высокого уровня для отправки клавиш, чтения экранных буферов и валидации содержимого полей на эмуляторе 3270. Каждый адаптер инкапсулирует свою логику повторной попытки, явные механизмы ожидания и стратегии обработки ошибок, соответствующие своей технологии. Когда адаптер успешно завершает действие, изменяющее состояние, он публикует событие домена (например, AccountCreatedEvent) в центральном TestEventBus, а не возвращает примитивные типы данных.

Для обеспечения транзакционной целостности реализуйте Saga-оркестратор тестирования, который ведет упорядоченный журнал всех выполненных объектов CompensableAction в процессе тестового сценария. Если любой шаг в процессе работы завершается исключением, оркестратор автоматически выполняет метод compensate() ранее успешных действий в обратном порядке, эффективно выполняя компенсирующую транзакцию для удаления учетной записи мейнфрейка или отмены резервирования API. Этот шаблон гарантирует, что тестовая среда останется чистой даже при сбоях тестов в процессе, предотвращая накопление сиротских данных, которые становятся проблемой для традиционных сквозных систем.

Управление состоянием между неоднородным стеком осуществляется путем хранения TestContext в качестве первоклассного сущности, используя ThreadLocal<DomainContext> для хранения богатых доменных объектов вместо примитивных строк, что предотвращает жесткую связку между шагами тестов. Адаптер React может заполнять объект CustomerProfile в контексте, который затем мейнфрейковый адаптер извлекает, чтобы выполнить свою часть рабочего процесса. Такой подход обеспечивает, чтобы DSL оставался ориентированным на бизнес-сущности, а не на технические идентификаторы, такие как идентификаторы сессий или координаты экранов.

Чтобы связать эти компоненты вместе, используйте легкий шина сообщений, такой как Google Guava EventBus, или реактивный поток, чтобы позволить адаптерам обмениваться изменениями состояния без прямого вызова методов, тем самым обеспечивая декомпозирование потока мейнфрейка от потока валидации веба. Когда HllapiMainframeAdapter успешно создает учетную запись, он публикует событие, содержащее детали учетной записи, которое SeleniumWebAdapter потребляет для автоматического перехода на соответствующий экран проверки. Этот событийно-ориентированный подход внутри тестового фреймворка отражает современную архитектуру микросервисов и значительно снижает затраты на обслуживание при изменении интерфейсов отдельных систем.

// Определение интерфейса порта
public interface BankingDriver {
    void enterCustomerData(Customer customer);
    AccountDetails submitAccountCreation();
    void verifyAccountInPortal(AccountDetails account);
    void rollbackAccountCreation(AccountDetails account);
}

// Адаптер мейнфрейка с использованием HLLAPI
public class MainframeAdapter implements BankingDriver {
    private final HllapiWrapper hllapi;
    private final EventBus eventBus;
    
    @Override
    public AccountDetails submitAccountCreation() {
        hllapi.sendKey("@E"); // Симуляция клавиши Enter
        waitForScreen("Учетная запись создана");
        String accountId = hllapi.getTextByLabel("Номер счета:");
        AccountDetails details = new AccountDetails(accountId);
        eventBus.post(new AccountCreatedEvent(details));
        return details;
    }
    
    @Override
    public void rollbackAccountCreation(AccountDetails account) {
        hllapi.sendKeys("DELETE " + account.getId());
        hllapi.sendKey("@E");
        verifyScreen("Удаление подтверждено");
    }
}

// Оркестратор Saga для транзакционной целостности
public class TestSagaOrchestrator {
    private final List<CompensableAction> executedActions = new ArrayList<>();
    
    public void execute(Runnable action, Runnable compensation) {
        try {
            action.run();
            executedActions.add(new CompensableAction(action, compensation));
        } catch (Exception e) {
            compensate();
            throw new TestFailureException(e);
        }
    }
    
    private void compensate() {
        Collections.reverse(executedActions);
        for (CompensableAction action : executedActions) {
            try {
                action.compensate();
            } catch (Exception ex) {
                publishToDeadLetterQueue(action, ex);
            }
        }
    }
}

Ситуация из жизни

Во время консультационного сотрудничества в 2022 году с глобальным страховым провайдером, проходящим цифровую трансформацию, я столкнулся с критическим бизнес-процессом "Первое сообщение о потере" (FNOL), который иллюстрировал эти самые проблемы. Рабочий поток требовал от держателя полиса отправки иска через мобильное приложение на React, загрузив фотографии аварии, что запускало микросервис для оценивания ущерба и обнаружения мошенничества на базе Python, прежде чем, в конечном итоге, обновить устаревшую систему мейнфрейка Unisys для выделения финансовых резервов и проверки покрытия полиса. Существующая стратегия автоматизации полагалась на три отдельных, несообщающихся набора: Cypress для мобильного приложения, Pytest для API и Jagacy для эмуляции терминала мейнфрейка.

Изолированный подход требовал ручной корреляции номеров исков между командами с использованием общих Excel-таблиц, и загрязнение среды стало серьезной проблемой во время регрессионных циклов. Кризисный момент произошел, когда тайм-аут мобильной сети вызвал сбой теста после того, как мейнфрейк уже зафиксировал выделение резерва в $50,000, оставив финансовые данные в несогласованном состоянии, которое потребовало четырех часов ручной очистки со стороны программиста мейнфрейка. Этот инцидент непосредственно нарушил политику команды "чистой среды" и заблокировал CI/CD-процесс на целый производственный день.

Мы оценили три потенциальные стратегии исправления, чтобы предотвратить будущие случаи. Первый вариант включал написание сценариев очистки базы данных после теста для ручного отката транзакций мейнфрейка, но он был отклонен, поскольку политики безопасности запрещали прямой SQL-доступ к среде UAT, подобной производственной. Второй подход предлагал внедрение общего пула тестовых данных с механизмами пессимистичной блокировки для сериализации выполнения тестов, но это увеличило бы время выполнения тестов с двадцати минут до более четырех часов, полностью аннулируя преимущества параллелизации в CI/CD. Третий вариант, который мы в конечном итоге выбрали, заключался в реализации шаблона Saga непосредственно в фреймворке автоматизации тестирования, отражая собственную модель окончательной согласованности приложения, сохраняя возможность выполнять сотни тестов параллельно.

Внедренное решение представило оркестратор ClaimSaga, который перехватывал каждое действие, выполняемое мобильными и мейнфрейковыми адаптерами. Когда мобильный адаптер выдавал StaleElementReferenceException из-за тайм-аута сети, сага сразу же запускала компенсирующую транзакцию reverseReserveAllocation() на мейнфрейковом адаптере с использованием идентификатора иска, хранящегося в контексте ThreadLocal. Этот автоматический механизм отката снизил загрязнение данных среды на девяносто восемь процентов и позволил команде уверенно запускать пятьсот параллельных потоков в их Jenkins-пайплайне без страха создания сиротских финансовых записей.

Это резкое улучшение в надежности тестирования позволило команде QA переключить внимание с ручной очистки данных на исследовательское тестирование и анализ крайних случаев. Бизнес-аналитики наконец могли создавать и проверять тестовые сценарии, написанные на понятном английском языке, такие как Предположим, что держатель полиса сообщает о крупной аварии, когда фотографии загружаются, но служба оценки ИИ выдает тайм-аут, тогда финансовый резерв не должен быть выделен. Это гарантировало, что пакет автоматизации служит точной живой документацией, отражающей сложные бизнес-правила на всех трех технологических уровнях.

Что кандидаты часто упускают

Как вы обрабатываете сохранение состояния сессии между эмулятором и веб-порталом, не создавая жесткой связи между адаптерами?

Новice-кандидаты часто пытаются решить эту проблему, возвращая сырые идентификаторы сессий или первичные ключи базы данных непосредственно из методов определения шагов, создавая хрупкие зависимости, когда Шаг B не может быть выполнен, пока Шаг A не вернул конкретное строковое значение. Такой подход фундаментально нарушает принципы проектирования на основе домена и заставляет шаги Gherkin, читаемые бизнесом, быть упорядоченными в строго технической последовательности, а не в логическом бизнес-потоке. Более того, он утечет детали реализации в слой DSL, делая тесты хрупкими при изменении формата технических идентификаторов.

Надежное архитектурное решение реализует Контекст сценария или Контекст тестовых данных, который выступает в роли временного реестра на время выполнения теста, обычно реализуется с использованием ThreadLocal<Map<Class<?>, Object>>, чтобы обеспечить безопасность потоков во время параллельного выполнения. Адаптеры не возвращают примитивные значения слою DSL; вместо этого они публикуют строго типизированные события или объекты домена в этот контекст. Например, когда мейнфрейковый адаптер успешно создает учетную запись, он публикует событие AccountCreatedEvent, содержащее весь объект учетной записи, который веб-адаптер затем извлекает, слушая шину событий или запрашивая контекст.

Этот событийно-ориентированный подход обеспечивает полную независимость слоя DSL относительно источника данных, независимо от того, было ли номер полиса извлечен из зеленого экрана или возвращен в ответе JSON. Оперируя абстракциями, а не конкретными реализациями, фреймворк соблюдает принцип инверсии зависимости. Это позволяет отдельным адаптерам быть переработанными или замененными без влияния на тестовые сценарии, читаемые бизнесом, что значительно снижает долгосрочные затраты на обслуживание.

Какой конкретный механизм предотвращает сбой компенсирующей транзакции, который потенциально оставляет систему в несогласованном состоянии?

Многие младшие инженеры упускают критический режим сбоя, когда логика компенсации сама сталкивается с ошибкой. Такие ошибки могут включать тайм-ауты сети при попытке удалить запись мейнфрейка или сбои валидации, потому что запись уже была изменена конкурентным фоновым процессом. Этот сценарий приводит к накоплению "токсичных данных", при котором исходное действие увенчалось успехом, но откат не удался, оставляя тестовую среду в состояниях постоянной порчи.

Решение требует внедрения идемпотентных компенсирующих действий, которые спроектированы так, чтобы их можно было безопасно повторять несколько раз без возникновения ошибок дублирования удаления. Эти действия должны быть связаны с надежным механизмом повторной попытки с экспоненциальной задержкой и паттернами размыкателя для аккуратного управления временными сбоями инфраструктуры. Если все попытки повторения исчерпаны, фреймворк должен публиковать детали сбоя компенсации в постоянную Очередь неудач (DLQ). Эта DLQ может быть реализована в виде таблицы базы данных или темы сообщений, содержащей полные корреляционные идентификаторы и трассировки стека.

Кроме того, внедрите ворота валидации перед тем, как пытаться провести компенсацию, чтобы проверить текущее состояние системы на нижнем уровне. Например, подтвердите, что учетная запись мейнфрейка существует, имеет нулевой баланс и не имеет недавних изменений со стороны пользователя перед тем, как выдать команду на удаление. Ночной автоматизированный процесс сверки может затем обрабатывать DLQ для ручной обработки этих сиротских записей, обеспечивая, чтобы тестовая среда самовосстанавливалась и предотвращая критические регрессии от того, чтобы быть замаскированными существующим загрязнением данных.

Почему использование координатного экранного скрапинга (HLLAPI) для мейнфрейков считается риском, и как вы абстрагируете это для снижения затрат на обслуживание, когда макет экранов неизбежно меняется?

Кандидаты часто выступают за хардкодирование координат строки и столбца, таких как getText(10, 45, 10), чтобы прочитать десять символов, начиная с десятой строки и сорок пятого столбца. Они предпочитают этот подход, поскольку он кажется точным и детерминированным на этапе первичной разработки теста. Однако эта стратегия создает серьезные затраты на обслуживание, поскольку приложения на мейнфрейках часто претерпевают изменения экранов, когда новые поля добавляются, что приводит к сдвигу всех последующих смещений координат и делает все тестовые наборы недействительными без предупреждения.

Надежное архитектурное решение реализует Модель объектов экрана, которая сопоставляет логические имена полей (такие как ACCOUNT_NUMBER_FIELD) с динамическими критериями поиска, а не статическими координатами. Она использует возможности Идентификации поля мейнфрейкового эмулятора, доступные через функции HLLAPI, такие как FindFieldPosition или SearchField, чтобы находить поля по их ассоциированным меткам (например, осуществляя поиск текста "Номер счета:"). Во время выполнения адаптер ищет текст метки в экранном буфере и вычисляет относительное смещение к соответствующему полю ввода. Когда макет экрана изменяется, требуется обновить только файл конфигурации JSON, сопоставляющий метки со смещениями, оставляя скомпилированный код Java нетронутым.

Для большей устойчивости реализуйте механизм Хеша экрана или Контрольной суммы, который фиксирует криптографический хеш незащищенного содержимого поля в начале взаимодействия. Если хеш не совпадает с ожидаемым опорным значением, фреймворк быстро выдаст ясную ошибку "Несоответствие экрана", а не будет пытаться считать данные из неправильных позиций. Это предотвращает продолжение тестов с мусорными данными, которые могут вызвать ложные отрицательные или положительные результаты, и немедленно уведомляет команду автоматизации о необходимости обновления конфигурации экрана.