Risposta alla domanda

Storia della domanda:

Prima di RFC 1758, Rust mancava di un meccanismo per i newtype a costo zero in FFI. Gli sviluppatori si affidavano a #[repr(C)], che impone un layout deterministico ma può introdurre padding non necessario, o #[repr(Rust)], che consente ottimizzazioni aggressive da parte del compilatore come riordino dei campi e sfruttamento di nicchie. Questo creava un dilemma fondamentale: garantire la sicurezza dei tipi attraverso strutture wrapper rispetto a garantire la stabilità dell'ABI per le chiamate a funzioni esterne. #[repr(transparent)] è stato introdotto specificamente per risolvere questa tensione promettendo che una struttura contenente esattamente un campo di dimensione non zero possiede un layout di memoria, un allineamento e una convenzione di chiamata identici a quel campo sottostante.

Il problema:

Quando un newtype #[repr(Rust)] viene passato per riferimento o valore a una funzione esterna che si aspetta il tipo interno grezzo (ad esempio, un manico u32), il compilatore è libero di riordinare i campi del wrapper o applicare ottimizzazioni di nicchia. Poiché #[repr(Rust)] non offre garanzie di stabilità, il wrapper potrebbe acquisire una dimensione diversa, validità del pattern di bit o padding rispetto al tipo interno. Ciò comporta che il codice C esterno possa potenzialmente leggere una memoria non allineata, interpretare pattern di bit non validi come puntatori validi o accedere a dati di scarto, risultando in un comportamento indefinito immediato e in una corruzione catastrofica della memoria al confine.

La soluzione:

#[repr(transparent)] istruisce il compilatore ad imporre che il wrapper e il suo singolo campo non zero condividano dimensioni identiche, allineamento e ABI, rendendo effettivamente il wrapper un'astrazione solo a tempo di compilazione. Il compilatore verifica staticamente che esista esattamente un campo di dimensione non zero (permettendo campi aggiuntivi di tipo PhantomData o tipo unitario). Questo consente al wrapper di essere sicuro di essere trasmutato nel tipo interno o passato direttamente attraverso i confini FFI senza sovraccarico di conversione, come dimostrato di seguito:

#[repr(transparent)]
pub struct SocketFd(i32);

extern "C" {
    fn close_socket(fd: i32);
}

pub fn close(sock: SocketFd) {
    // Sicuro: SocketFd ha ABI identico a i32
    unsafe { close_socket(sock.0); }
}

Situazione dalla vita reale

Un sviluppatore integra un'applicazione Rust con un socket netlink dell'API del kernel Linux, che comunica tramite descrittori di file interi grezzi. Per evitare miscele accidentali di tipi di socket, definiscono struct NetlinkSocket(i32) come un newtype. Inizialmente contrassegnato con #[repr(Rust)], passano riferimenti a NetlinkSocket a un callback extern "C" che si aspetta un puntatore a i32. Durante lo sviluppo locale, questo sembra funzionare correttamente, ma nei build di rilascio che utilizzano LTO (Ottimizzazione a Tempo di Collegamento), il compilatore applica un'ottimizzazione di nicchia aggressiva a NetlinkSocket, alterando fondamentalmente la sua rappresentazione in memoria. Il modulo kernel C riceve quindi un valore di puntatore corrotto, innescando una critica panico nel kernel.

Tre distinte soluzioni sono state valutate. Prima, #[repr(C)] è stata considerata per imporre un layout stabile e deterministico. Anche se ciò garantiva la sicurezza della memoria, disabilitava ottimizzazioni di nicchia benefiche e potenzialmente introduceva byte di padding, gonfiando inutilmente la dimensione della struttura e complicando la superficie dell'API per l'uso puramente interno a Rust.

In secondo luogo, è stato tentato di dereferenziare manualmente il campo interno (socket.0) in ogni punto di chiamata FFI. Questo approccio ha evitato assunzioni sul layout, ma si è rivelato altamente soggetto a errore e verbose, rompendo di fatto la barriera di astrazione e consentendo a interi grezzi e privi di tipo di propagarsi senza controllo in tutto il codice.

In terzo luogo, è stato applicato #[repr(transparent)] a NetlinkSocket. Questa garanzia ha assicurato l'equivalenza dell'ABI con i32 mantenendo al contempo la distinzione di tipo all'interno di Rust, consentendo alla struttura di essere passata senza soluzione di continuità a C senza logica di disimballaggio o di conversione manuali.

Il team di ingegneria ha infine adottato #[repr(transparent)], che ha completamente eliminato i panici del kernel mantenendo un'astrazione a costo zero. Il wrapper ora funge da guardia rigorosa a tempo di compilazione all'interno di Rust mantenendosi interamente invisibile e compatibile con l'ABI C.

Cosa mancano spesso i candidati

Perché #[repr(transparent)] vieta esplicitamente che l'unico campo non zero sia un tipo di dimensione zero, e come questa restrizione previene il comportamento indefinito in FFI quando passato per valore?

#[repr(transparent)] garantisce che il wrapper sia ABI identico al suo tipo interno. Un Zero-Sized Type (ZST) possiede dimensione zero e allineamento 1. Se al wrapper fosse permesso avvolgere esclusivamente un ZST, la struttura risultante sarebbe essa stessa di dimensione zero; tuttavia, C non ha tipi di dimensione zero e le sue convenzioni di chiamata si aspettano tipicamente almeno un byte di dati per la semantica "passaggio per valore". Passare un ZST per valore attraverso FFI costituisce comportamento indefinito perché C non può rappresentare o gestire correttamente valori di dimensione zero. Questa restrizione garantisce che il wrapper mantenga sempre la stessa dimensione non zero e allineamento del suo campo sottostante, preservando un ABI ben definito compatibile con le aspettative di C.

Può #[repr(transparent)] essere applicato a enumerazioni, e quali vincoli governano la visibilità del discriminante attraverso i confini FFI?

Sì, #[repr(transparent)] può essere applicato a enumerazioni contenenti esattamente una variante, che deve contenere esattamente un campo di dimensione non zero. L'enumerazione deve anche specificare una rappresentazione primitiva esplicita (ad esempio, #[repr(u8)]) per definire il tipo di discriminante. Tuttavia, #[repr(transparent)] garantisce che il layout finale sia identico al campo non zero, elidendo di fatto il discriminante dall'ABI. Di conseguenza, passare tale enumerazione a C come tipo di campo sottostante è sicuro, ma tentare di accedere o interpretare un valore di discriminante da C risulta in comportamento indefinito. I candidati spesso fraintendono che il discriminante è fisicamente assente dal layout, non semplicemente nascosto o inaccessibile.

Come influenza la presenza di PhantomData<T> come campo aggiuntivo in una struttura #[repr(transparent)] la varianza e il controllo del drop senza influenzare l'ABI?

PhantomData<T> è esplicitamente consentito come campo secondario all'interno delle strutture #[repr(transparent)] perché è di dimensione zero con allineamento 1. Anche se non altera la dimensione, l'allineamento o l'ABI del wrapper (poiché #[repr(transparent)] considera solo l'unico campo non zero per il layout), informa crucialmente il compilatore della relazione strutturale con il parametro di tipo T. Questo influisce sulla varianza: ad esempio, una struttura Wrapper<T>(*const T, PhantomData<fn(T)>) sarà contravariata rispetto a T a causa del marker PhantomData. Inoltre, consente all'analisi del Drop Check (dropck) di riconoscere che la struttura può concettualmente possedere dati di tipo T, prevenendo l'insoundezza quando T porta durate non 'static. I candidati spesso credono erroneamente che PhantomData influisca sul layout di memoria o ignorano il suo ruolo essenziale nel mantenere le invarianti di durata e proprietà per i wrapper FFI generici.