Réponse à la question.

Historique de la question.

Le problème C10K a mis au défi les architectures de serveurs du début des années 2000 de gérer efficacement dix mille connexions simultanées. Les modèles traditionnels à un thread par connexion épuisent la mémoire et le processeur à travers des changements de contexte. Les créateurs de Go visaient à prendre en charge des millions de goroutines tout en préservant la clarté du code d'I/O bloquant, nécessitant un mécanisme pour découpler l'attente de goroutines de la consommation des threads OS.

Le problème.

Lorsque qu'une goroutine exécute un appel système bloquant—comme read() sur une socket réseau—elle risque de bloquer le thread sous-jacent OS (M). Sans intervention, des milliers de connexions simultanées engendreraient des milliers de threads, annulant les avantages de la planification M:N et épuisant les ressources système.

La solution.

Le runtime Go utilise un poller réseau (utilisant epoll sur Linux, kqueue sur BSD et IOCP sur Windows) intégré directement dans le planificateur. Lorsque qu'une goroutine initie une I/O sur un descripteur pollable, le runtime la met dans un état _Gwaiting et enregistre le descripteur de fichier avec le poller spécifique au système d'exploitation. Un thread de surveillance attend la disponibilité ; une fois notifié, le poller fait passer la goroutine en état _Grunnable et la programme sur un P disponible (processeur logique). Cela transforme les opérations bloquantes en événements de stationnement efficaces, permettant à un petit pool de threads GOMAXPROCS de gérer une immense concurrence.

// Code Go idiomatique qui stationne réellement plutôt que de bloquer
func handleConn(conn net.Conn) {
    buf := make([]byte, 1024)
    n, err := conn.Read(buf) // Stationne la goroutine, libère le thread
    if err != nil {
        log.Println(err)
        return
    }
    process(buf[:n])
}

Situation vécue

Vous construisez une passerelle de trading haute fréquence qui maintient 20 000 connexions TCP persistantes aux flux de données du marché. Pendant des pics de volatilité, la latence doit rester en dessous de 100 microsecondes. Les tests initiaux utilisant une approche Java NIO ont atteint un bon débit mais ont souffert d'une maintenance complexe des callbacks. Lors de la migration vers Go, l'équipe a écrit un code bloquant simple utilisant net.TCPConn. Cependant, lors des tests de charge avec 50k connexions simultanées, le processus a engendré plus de 10 000 threads OS, déclenchant des arrêts OOM et détruisant les garanties de latence.

Solution A : Réimplémenter manuellement le modèle de réacteur. Contourner la bibliothèque standard et utiliser des wrappers syscall pour créer une boucle d'événements epoll manuelle avec un pool de buffers. Avantages : Contrôle maximal sur la disposition de la mémoire et la latence de réveil. Inconvénients : Sacrifie le modèle de codage séquentiel de Go, introduit une complexité spécifique à la plate-forme, et duplique le code de runtime éprouvé, augmentant la surface d'erreur.

Solution B : Accepter la surcharge de thread avec runtime.LockOSThread. Forcer chaque connexion sur un thread dédié pour garantir l'isolation de la planification. Avantages : Affinité de thread prévisible. Inconvénients : Violes le bénéfice économique fondamental des goroutines ; l'utilisation de la mémoire monte à ~8MB par connexion, rendant l'approche peu réalisable à l'échelle cible.

Solution C : Auditer les I/O non pollables et faire confiance au netpoller. Conserver le code bloquant idiomatique mais éliminer les appels système bloquants accidentels (par ex., journalisation de fichiers ou recherches DNS sans conscience du résolveur) qui forcent la création de threads. Avantages : Maintient un flux linéaire lisible ; exploite les optimisations du runtime sur Linux/macOS/Windows ; réduit la mémoire à ~2KB par connexion. Inconvénients : Nécessite une compréhension approfondie que les opérations net.Conn se parent alors que les opérations os.File bloquent les threads.

L'équipe a choisi la solution C, reconnaissant que l'explosion des threads provenait de la journalisation des données du marché dans des fichiers ext4 locaux de manière synchrone dans le chemin critique. Les I/O de fichiers réguliers ne peuvent pas utiliser le netpoller (les fichiers sont toujours "prêts" dans Unix epoll), donc chaque écriture de journal a bloqué un thread OS. Ils ont refactorisé pour utiliser une goroutine d'écrivain de fichier asynchrone avec un buffer de canal, maintenant les I/O réseau (qui sont pollables) sur les goroutines principales.

La passerelle maintient maintenant 50 000 connexions avec seulement 16 threads OS (correspondant à GOMAXPROCS), atteignant une latence P99 de ~85µs. La consommation de mémoire est passée de 40GB (piles de threads projetées) à ~180MB RSS au total.

Ce que les candidats oublient souvent

Pourquoi lire depuis os.Stdin ou un fichier régulier bloque-t-il un thread OS malgré l'utilisation du même méthode Read qu'une socket TCP, et comment cela affecte-t-il la concurrence des outils CLI ?

Bien que les sockets TCP prennent en charge des notifications de disponibilité asynchrones via epoll, les fichiers réguliers et les pipes sur les systèmes Unix signalent toujours qu'ils sont "prêts" pour l'I/O ; le noyau ne fournit pas d'interface non-bloquante pour la disponibilité des données de fichier. Par conséquent, lorsque qu'une goroutine appelle os.File.Read, le runtime Go ne peut pas la stationner—il doit consacrer un véritable thread OS à l'appel système bloquant. Dans les outils CLI qui engendrent des goroutines par fichier d'entrée (par ex., processeurs de journal), cela provoque une fuite de threads identique aux modèles de threading traditionnels. La solution limite les opérations de fichier simultanées à l'aide de sémaphores ou utilise la mise en buffer avec des pools de travailleurs dédiés.

Comment le runtime empêche-t-il un "troupeau menaçant" lorsque le netpoller réveille simultanément des milliers de goroutines après la réparation d'une partition réseau ?

Lorsque le netpoller (via epoll_wait) renvoie des milliers de descripteurs prêts, la fonction netpoll distribue les goroutines à travers tous les P (processeurs logiques) en utilisant la file d'attente globale et des algorithmes de vol de travail, plutôt que de les mettre toutes dans un seul P. De plus, le planificateur met en œuvre des ticks d'équité : après chaque 10ms d'exécution, il vérifie les goroutines I/O exécutables pour empêcher les tâches liées au CPU de les priver de leurs ressources. Les candidats supposent souvent un ordonnancement FIFO par connexion, manquant que le planificateur équilibre le débit en répartissant les événements de réveil et en appliquant des points de préemption.

Quelle condition de course existe entre SetReadDeadline et un appel Read actif, et pourquoi la mise en œuvre de la roue de minuterie nécessite-t-elle une synchronisation atomique avec le netpoller ?

Le netpoller utilise une roue de minuterie ou un min-heap par P pour gérer les délais d'I/O. Lorsque la goroutine A appelle SetReadDeadline pendant que la goroutine B est bloquée dans Read, A modifie le minuteur dont dépend l'état stationné de B. Sans mises à jour atomiques (protégées par des mutex internes dans net.conn), une condition de course pourrait se produire où le poller observe le vieux délai après que le nouveau soit défini, causant un réveil manqué (blocage indéfini) ou un dépassement de délai spurious. L'atomicité garantit la consistance happens-before : soit le délai mis à jour est observé par le cycle d'attente epoll, soit le minuteur précédent se déclenche, mais jamais un état intermédiaire indéfini qui violerait le contrat de délai.