Respuesta a la pregunta.

Historia de la pregunta

Antes de C++20, el modelo de compilación de C++ se basaba en la inclusión textual a través de directivas del preprocesador. Cuando se incluía un archivo de encabezado, el preprocesador copiaba literalmente el texto de ese encabezado en el archivo que lo incluía. Este mecanismo provocaba que las macros definidas en los encabezados se filtraran en el espacio de nombres global de cada unidad de traducción que las incluía, lo que conducía a errores sutiles y colisiones de nombres que eran difíciles de diagnosticar.

El problema

La filtración de macros creaba pesadillas de mantenimiento en grandes bases de código. Una macro definida en una biblioteca de terceros podría redefinir silenciosamente palabras clave o identificadores comunes en el código del consumidor, causando fallos de compilación o errores en tiempo de ejecución que parecían no estar relacionados con la causa real. Las soluciones tradicionales como los guardias #undef eran manuales, propensas a errores y no escalaban en gráficos de dependencia complejos. El problema fundamental era que el preprocesador no tenía concepto de límites de ámbito o interfaz.

La solución

Los módulos C++20 introducen un mecanismo de importación semántica que opera a nivel de lenguaje en lugar de a nivel de preprocesador. Al importar un módulo con import module_name;, el compilador procesa la interfaz exportada del módulo sin ejecutar las directivas del preprocesador de la unidad de traducción importadora. Las macros definidas dentro del módulo permanecen privadas para la implementación de ese módulo a menos que se exporten explícitamente. Esta propiedad asegura que las macros no se filtren a través de los límites de la unidad de traducción, proporcionando verdadera encapsulación y evitando la contaminación de nombres.

// mathlib.cpp (Implementación del módulo)
module;
#define INTERNAL_CALC_FACTOR 3.14  // Macro privada, no filtrada

export module mathlib;

export double compute(double x) {
    return x * INTERNAL_CALC_FACTOR;
}

// main.cpp (Consumidor)
import mathlib;

// INTERNAL_CALC_FACTOR NO es visible aquí
// #ifdef INTERNAL_CALC_FACTOR sería falso

int main() {
    double result = compute(10.0);  // Funciona bien
}

Situación de la vida real

Una firma de trading financiero mantenía una gran base de código con millones de líneas de código en cientos de módulos. Dependían de una biblioteca matemática heredada que definía macros como MIN y MAX en sus encabezados públicos. Estas macros frecuentemente chocaban con funciones de la biblioteca estándar y bibliotecas de análisis de JSON de terceros que utilizaban min y max como nombres de variables o plantillas de funciones.

El primer enfoque considerado fue envolver todos los encabezados de terceros con guardias al estilo #pragma once y eliminar manualmente macros problemáticas después de cada inclusión. Esto requería que los desarrolladores recordaran qué encabezados definían qué macros y limpiaran después de cada inclusión. El enfoque era frágil porque perder un solo #undef podría causar fallos en partes no relacionadas de la base de código. También aumentaba significativamente los tiempos de compilación debido a que el preprocesador procesaba el mismo texto de encabezado repetidamente en diferentes unidades de traducción.

El segundo enfoque considerado fue convertir la biblioteca matemática para usar funciones en línea y plantillas en lugar de macros. Aunque esto resolvía el problema de filtración, requería modificar extensivamente la biblioteca heredada. La biblioteca matemática era utilizada por múltiples equipos y cambiarla corría el riesgo de romper cálculos existentes que dependían de la evaluación de macros específica o efectos secundarios. Se estimó que el esfuerzo de refactorización tomaría seis meses y se consideró demasiado arriesgado para la plataforma de trading.

La solución elegida fue migrar a los módulos C++20. El equipo convirtió la biblioteca matemática en un módulo que exportaba funciones matemáticas mientras mantenía las macros internas a la implementación del módulo. Al usar import mathlib; en lugar de #include <mathlib.h>, las unidades de traducción consumidoras ya no veían las macros MIN y MAX. Este enfoque requirió cambios mínimos en la implementación de la biblioteca: solo agregar declaraciones de exportación y convertir encabezados en unidades de interfaz de módulo. La migración tomó dos semanas en lugar de seis meses. El resultado fue la eliminación de colisiones de nombres relacionadas con macros en toda la base de código y una reducción del 15% en los tiempos de compilación gracias a la interfaz compilada del módulo.

Lo que los candidatos a menudo pasan por alto

¿Cómo evita el formato binario compilado de la unidad de interfaz del módulo la filtración de macros en comparación con la inclusión textual de encabezados?

Los candidatos a menudo pasan por alto que los módulos C++20 producen unidades de interfaz de módulo compiladas (CMI) que son representaciones binarias de la interfaz exportada del módulo. A diferencia de los encabezados textuales que son procesados por el preprocesador y contienen definiciones de macros como texto, las CMI almacenan información semántica sobre funciones, tipos y plantillas exportadas.

El preprocesador no procesa el contenido de un módulo importado; solo ve la declaración de importación. Por lo tanto, las macros definidas en la implementación del módulo o incluso en su unidad de interfaz no son visibles para el importador. Esto es fundamentalmente diferente de #include, que copia literalmente el texto, incluidas las directivas #define.

Entender esto requiere reconocer que los módulos cambian de un modelo de inclusión textual a un modelo de importación semántica. El formato binario asegura que solo las entidades exportadas explícitamente son visibles, y las macros no son parte de la interfaz exportada a menos que se exporten específicamente usando directivas de macros.

¿Por qué se comportan de manera diferente las macros exportadas de un módulo mediante export import en comparación con las macros de directivas #include?

Los candidatos a menudo confunden export import de macros con el comportamiento regular de macros. Aunque C++20 permite exportar macros usando export import, estas macros solo afectan el código que importa el módulo y no se filtran más allá de ese ámbito de importación.

A diferencia de #include, donde las macros persisten en la unidad de traducción hasta que se anulan explícitamente o hasta el final del archivo, las macros exportadas de los módulos están restringidas al ámbito de exposición de la unidad de traducción importadora hacia ese módulo. El preprocesador trata las macros importadas como si estuvieran definidas en el punto de importación, pero no afectan importaciones posteriores ni el estado global del preprocesador de la misma manera que la inclusión textual.

Además, si múltiples módulos exportan macros en conflicto, el conflicto se detecta en el momento de la importación en lugar de causar errores de redefinición silenciosa más tarde en la compilación. Este comportamiento de ámbito proporciona la higiene que falta en la inclusión textual, asegurando que las macros se comporten más como entidades de espacio de nombres adecuadas.

¿Cómo afecta la independencia del módulo del preprocesador a la integración del sistema de construcción y el escaneo de dependencias?

Los candidatos a menudo pasan por alto que los módulos C++20 requieren que los sistemas de construcción comprendan las dependencias de módulos antes de que comience la compilación, a diferencia de los encabezados donde las dependencias se descubren durante la compilación. Dado que los módulos son unidades compiladas en lugar de archivos de texto, el sistema de construcción debe analizar las unidades de interfaz del módulo para determinar qué exportan y qué importan.

Esto requiere un proceso de construcción en dos fases: primero, escanear las unidades de interfaz del módulo para construir un gráfico de dependencias, luego compilar en orden de dependencia. La independencia del preprocesador significa que los guardias tradicionales #ifdef para la inclusión de encabezados son irrelevantes, y la configuración basada en macros de las interfaces de módulo es limitada. Los sistemas de construcción deben rastrear artefactos de módulo compilados (BMI - Interfaz de Módulo Binaria) en lugar de solo archivos fuente.

Esto cambia fundamentalmente cómo funcionan el rastreo de dependencias y las construcciones incrementales. El sistema de construcción ahora debe gestionar archivos BMI como artefactos intermedios con sus propias cadenas de dependencia, lo que requiere actualizaciones a herramientas de construcción como CMake o Bazel para admitir gráficos de compilación conscientes del módulo.

¿Qué característica específica de los módulos de C++20 evita que las macros del preprocesador se filtren a través de los límites de la unidad de traducción?