Antwoord op de vraag.

Geschiedenis van de vraag

Voor C++20 was het compilatiemodel van C++ afhankelijk van tekstuele inclusie via preprocessor-instructies. Wanneer een headerbestand werd opgenomen, kopieerde de preprocessor letterlijk de tekst van die header in het opnemende bestand. Dit mechanisme zorgde ervoor dat macro's die in headers waren gedefinieerd, lekt naar de globale naamruimte van elke vertaaleenheid die ze opnam, wat leidde tot subtiele bugs en naamconflicten die moeilijk te diagnosticeren waren.

Het probleem

Macro-lekkage creëerde onderhoudsnachtenmerries in grote codebases. Een macro gedefinieerd in een derde partijbibliotheek kon stilletjes sleutelwoorden of gangbare identificatoren in consumentencode redefiniëren, waardoor compilatiefouten of runtime-fouten ontstonden die ogenschijnlijk niet gerelateerd waren aan de werkelijke oorzaak. Traditionele oplossingen zoals #undef guards waren handmatig, foutgevoelig en schalen niet goed in complexe afhankelijkheidsstructuren. Het fundamentele probleem was dat de preprocessor geen concept van scope of interfacegrenzen had.

De oplossing

C++20-modulen introduceren een semantisch importmechanisme dat op taalcategorie-niveau werkt in plaats van op preprocessor-niveau. Wanneer een module wordt geïmporteerd met import module_name;, verwerkt de compiler de geëxporteerde interface van de module zonder preprocessor-instructies uit de opnemende vertaaleenheid uit te voeren. Macro's gedefinieerd binnen de module blijven privé voor de implementatie van die module, tenzij expliciet geëxporteerd. Deze eigenschap zorgt ervoor dat macro's niet oversteken over de grenzen van vertaaleenheden, wat echte encapsulatie biedt en naamvervuiling voorkomt.

// mathlib.cpp (Module-implementatie)
module;
#define INTERNAL_CALC_FACTOR 3.14  // Privémacro, niet gelekt

export module mathlib;

export double compute(double x) {
    return x * INTERNAL_CALC_FACTOR;
}

// main.cpp (Consument)
import mathlib;

// INTERNAL_CALC_FACTOR is HIER NIET zichtbaar
// #ifdef INTERNAL_CALC_FACTOR zou fout zijn

int main() {
    double result = compute(10.0);  // Werkt goed
}

Situatie uit het leven

Een financieel handelsbedrijf onderhield een grote codebase met miljoenen regels code over honderden modules. Ze vertrouwden op een legacy-wiskundebibliotheek die macro's zoals MIN en MAX in zijn publieke headers definieerde. Deze macro's botsten vaak met standaardbibliotheekfuncties en derde partij JSON-parserbibliotheken die min en max als variabelenamen of functietemplates gebruikten.

De eerste overweging was om alle derde partij headers te omhullen met #pragma once style guards en handmatig problematische macro's na elke include te #undefen. Dit vereiste dat ontwikkelaars zich herinnerden welke headers welke macro's definieerden en om op te ruimen na elke opname. De aanpak was fragiel omdat het missen van een enkele #undef kon leiden tot fouten in ongebruikte delen van de codebase. Het verhoogde ook aanzienlijk de compilation-tijden omdat de preprocessor dezelfde headertekst herhaaldelijk verwerkte in verschillende vertaaleenheden.

De tweede overweging was om de wiskundebibliotheek om te zetten naar inline-functies en templates in plaats van macro's. Hoewel dit het lekkageprobleem oploste, vereiste het uitgebreide aanpassingen aan de legacy-bibliotheek. De wiskundebibliotheek werd door meerdere teams gebruikt en het wijzigen ervan liep het risico bestaande berekeningen die afhankelijk waren van specifieke macro-evaluatie-semantiek of bijeffecten, te breken. De inschatting van de refactoring-inspanning was zes maanden en werd als te risicovol voor het handelsplatform beschouwd.

De gekozen oplossing was migreren naar C++20-modulen. Het team zette de wiskundebibliotheek om in een module die wiskundige functies exporteerde, terwijl de macro's intern voor de module-implementatie bleven. Door import mathlib; in plaats van #include <mathlib.h> te gebruiken, zagen de consumerende vertaaleenheden de MIN en MAX macro's niet meer. Deze aanpak vereiste minimale wijzigingen in de bibliotheekimplementatie—alleen het toevoegen van exportinstructies en het omzetten van headers naar moduleinterface-eenheden. De migratie duurde twee weken in plaats van zes maanden. Het resultaat was de eliminatie van macro-gerelateerde naamconflicten in de codebase en een vermindering van 15% in de compilation-tijden door de gecompileerde interface van de module.

Wat kandidaten vaak missen

Hoe voorkomt het gecompileerde binaire formaat van de module-interface-eenheid dat macro-lekkage vergeleken met tekstuele header-inclusie?

Kandidaten missen vaak dat C++20-modulen gecompileerde module-interface-eenheden (CMI) produceren die binaire representaties zijn van de geëxporteerde interface van de module. In tegenstelling tot tekstuele headers die door de preprocessor worden verwerkt en macro-definities als tekst bevatten, slaan CMI's semantische informatie op over geëxporteerde functies, typen en templates.

De preprocessor verwerkt de inhoud van een geïmporteerde module niet; hij ziet alleen de importverklaring. Daarom zijn macro's die in de implementatie van de module of zelfs in zijn interface-eenheid zijn gedefinieerd, niet zichtbaar voor de importeur. Dit is fundamenteel anders dan #include, dat letterlijk tekst kopieert inclusief #define instructies.

Dit begrijpen vereist dat men erkent dat modules verschuiven van een tekstueel inclusiemodel naar een semantisch importmodel. Het binaire formaat zorgt ervoor dat alleen expliciet geëxporteerde entiteiten zichtbaar zijn, en macro's maken geen deel uit van de geëxporteerde interface tenzij specifiek geëxporteerd met macro-instructies.

Waarom gedragen macro's die vanuit een module zijn geëxporteerd met export import zich anders dan macro's van #include-instructies?

Kandidaten verwarren vaak export import van macro's met regulier macrogedrag. Terwijl C++20 het mogelijk maakt om macro's te exporteren met export import, beïnvloeden deze macro's alleen de code die de module importeert en lekken niet verder dan die importscope.

In tegenstelling tot #include waarbij macro's in de vertaaleenheid blijven totdat ze expliciet zijn gedefinieerd of het einde van het bestand, zijn geëxporteerde macro's vanuit modules beperkt tot de blootstelling van de opnemende vertaaleenheid aan die module. De preprocessor behandelt geïmporteerde macro's alsof ze op het punt van import zijn gedefinieerd, maar ze beïnvloeden niet de volgende imports of de globale preprocessorstatus op dezelfde manier als tekstuele inclusie.

Bovendien, als meerdere modules conflicterende macro's exporteren, wordt het conflict detecteerd op het moment van import in plaats van later stilletjes hergedefinieerd te worden tijdens de compilatie. Dit scoping-gedrag biedt de hygiëne die tekstuele inclusie mist, en zorgt ervoor dat macro's zich meer gedragen als eigen namespace-scoping entiteiten.

Hoe beïnvloedt de onafhankelijkheid van de module van de preprocessor de integratie van buildsystemen en afhankelijkheidsscan?

Kandidaten missen vaak dat C++20-modulen vereisen dat buildsystemen module-afhankelijkheden begrijpen voordat de compilatie begint, in tegenstelling tot headers waarbij afhankelijkheden tijdens de compilatie worden ontdekt. Omdat modules gecompileerde eenheden zijn in plaats van tekstbestanden, moet het build-systeem module-interface-eenheden parseren om te bepalen wat ze exporteren en wat ze importeren.

Dit vereist een bouwproces in twee fasen: eerst het scannen van module-interface-eenheden om een afhankelijkheidsstructuur te bouwen, en vervolgens in afhankelijkheidsvolgorde te compileren. De onafhankelijkheid van de preprocessor betekent dat traditionele #ifdef guards voor header-inclusie irrelevant zijn, en macro-gebaseerde configuratie van moduleinterfaces beperkt is. Buildsystemen moeten gecompileerde module-artifacten (BMI - Binaire Module-interface) bijhouden in plaats van alleen bronbestanden.

Dit verandert fundamenteel hoe afhankelijkheidstracking en incrementele builds werken. Het build-systeem moet nu BMI-bestanden beheren als tussenliggende artefacten met eigen afhankelijkheidsketens, wat updates aan buildtools zoals CMake of Bazel vereist om module-bewuste compilatiegrafieken te ondersteunen.

Welke specifieke eigenschap van C++20-modules voorkomt dat preprocessor-macro's lekken over de grenzen van vertaaleenheden?