Ответ на вопрос.

История вопроса

До C++20 модель компиляции C++ полагалась на текстовое включение через директивы препроцессора. Когда файл заголовка включался, препроцессор буквально копировал текст этого заголовка в включаемый файл. Этот механизм приводил к тому, что макросы, определенные в заголовках, просачивались в глобальное пространство имен каждой единицы трансляции, которая их включала, что приводило к тонким ошибкам и конфликтам имен, которые было трудно диагностировать.

Проблема

Утечка макросов создавала ночной кошмар при обслуживании в крупных кодовых базах. Макрос, определенный в библиотеке третьей стороны, мог тихо переопределить ключевые слова или общие идентификаторы в коде клиента, вызывая ошибки компиляции или ошибки времени выполнения, которые казались не связанными с реальной причиной. Традиционные способы обхода, такие как защитные директивы #undef, были ручными, подверженными ошибкам и не масштабировались при сложных графах зависимостей. Основная проблема заключалась в том, что препроцессор не имел понятия о границах области видимости или интерфейса.

Решение

Модули C++20 вводят семантический механизм импорта, который работает на уровне языка, а не на уровне препроцессора. При импорте модуля с помощью import module_name; компилятор обрабатывает экспортируемый интерфейс модуля, не выполняя директивы препроцессора из импортирующей единицы трансляции. Макросы, определенные внутри модуля, остаются частными для реализации этого модуля, если они не экспортированы явно. Это свойство обеспечивает то, что макросы не просачиваются за пределы единиц трансляции, обеспечивая истинную инкапсуляцию и предотвращая загрязнение имен.

// mathlib.cpp (реализация модуля)
module;
#define INTERNAL_CALC_FACTOR 3.14  // Личный макрос, не просачивается

export module mathlib;

export double compute(double x) {
    return x * INTERNAL_CALC_FACTOR;
}

// main.cpp (потребитель)
import mathlib;

// INTERNAL_CALC_FACTOR НЕДОСТУПЕН здесь
// #ifdef INTERNAL_CALC_FACTOR будет ложным

int main() {
    double result = compute(10.0);  // Работает отлично
}

Ситуация из жизни

Финансовая торговая компания поддерживала большую кодовую базу с миллионами строк кода во множестве модулей. Они полагались на устаревшую библиотеку математических функций, которая определяла макросы, такие как MIN и MAX, в своих публичных заголовках. Эти макросы часто конфликтовали с функциями стандартной библиотеки и сторонними библиотеками парсинга JSON, которые использовали min и max в качестве имен переменных или шаблонов функций.

Первый подход, который рассматривался, состоял в обертывании всех заголовков третьих сторон защитными директивами #pragma once и ручном #undef проблемных макросов после каждого включения. Это требовало от разработчиков запоминания, какие заголовки определяли какие макросы, и очистки после каждого включения. Этот подход был ненадежным, потому что пропуск одного #undef мог привести к сбоям в не связанных частях кодовой базы. Он также значительно увеличивал время компиляции из-за того, что препроцессор многократно обрабатывал один и тот же текст заголовка через единицы трансляции.

Второй подход заключался в преобразовании математической библиотеки для использования встроенных функций и шаблонов вместо макросов. Хотя это решало проблему утечек, требовалось значительно модифицировать устаревшую библиотеку. Математическая библиотека использовалась несколькими командами, и изменение ее рискнуло бы сломать существующие вычисления, полагающиеся на конкретную семантику оценки макросов или побочные эффекты. Оценка усилий по рефакторингу составляла шесть месяцев, и это считалось слишком рискованным для торговой платформы.

Выбранным решением стало переход к модулям C++20. Команда преобразовала математическую библиотеку в модуль, экспортирующий математические функции, одновременно сохраняя макросы внутренними для реализации модуля. Используя import mathlib; вместо #include <mathlib.h>, единицы трансляции, потребляющие этот модуль, больше не видели макросы MIN и MAX. Этот подход требовал минимальных изменений в реализации библиотеки — только добавления операторов экспорта и преобразования заголовков в единицы интерфейса модуля. Миграция заняла две недели вместо шести месяцев. В результате были устранены конфликты имен, связанные с макросами, по всей кодовой базе, и время компиляции сократилось на 15% благодаря скомпилированному интерфейсу модуля.

Что часто упускают кандидаты

Как скомпилированный бинарный формат единицы интерфейса модуля предотвращает утечку макросов по сравнению с текстовым включением заголовков?

Кандидаты часто упускают из виду, что модули C++20 производят скомпилированные единицы интерфейса модуля (CMI) — это бинарные представления экспортируемого интерфейса модуля. В отличие от текстовых заголовков, которые обрабатываются препроцессором и содержат определения макросов в виде текста, CMI хранят семантическую информацию об экспортируемых функциях, типах и шаблонах. Препроцессор не обрабатывает содержимое импортированного модуля; он видит только объявление импорта. Поэтому макросы, определенные в реализации модуля или даже в его единице интерфейса, недоступны для импортера. Это принципиально отличается от #include, который буквально копирует текст, включая директивы #define. Понимание этого требует осознания того, что модули переходят от модели текстового включения к модели семантического импорта.

Почему экспортированные из модуля макросы с использованием export import ведут себя иначе, чем макросы из директив #include?

Кандидаты часто путают export import макросов с обычным поведением макросов. Хотя C++20 позволяет экспортировать макросы с помощью export import, эти макросы влияют только на код, который импортирует модуль, и не утечка за пределы этого импорта. В отличие от #include, где макросы остаются в единице трансляции до тех пор, пока не будут явно отменены или до конца файла, экспортированные макросы из модулей ограничены областью видимости единицы трансляции, импортирующей этот модуль. Более того, если несколько модулей экспортируют конфликтующие макросы, конфликт обнаруживается во время импорта, а не вызывает тихие ошибки переопределения позже в процессе компиляции. Это поведение области видимости обеспечивает гигиену, которой не хватает текстовому включению.

Как независимость модуля от препроцессора влияет на интеграцию с системами сборки и сканирование зависимостей?

Кандидаты часто упускают, что модули C++20 требуют от систем сборки понимания зависимостей модуля до начала компиляции, в отличие от заголовков, зависимости которых обнаруживаются во время компиляции. Поскольку модули являются скомпилированными единицами, а не текстовыми файлами, системе сборки необходимо анализировать единицы интерфейса модуля, чтобы определить, что они экспортируют и что импортируют. Это требует двухфазного процесса сборки: сначала сканирование единиц интерфейса модуля для построения графа зависимостей, затем компиляция в порядке зависимостей. Независимость от препроцессора означает, что традиционные защитные директивы #ifdef для включения заголовков становятся неактуальными, а макроориентированная конфигурация интерфейсов модуля ограничена. Системы сборки должны отслеживать скомпилированные артефакты модуля (BMI - Бинарный интерфейс модуля), а не только исходные файлы, что коренным образом изменяет то, как осуществляется отслеживание зависимостей и инкрементальные сборки.

Какое конкретное свойство модулей C++20 устраняет утечки макросов через границы единиц трансляции?