Antwoord op de vraag.

Geschiedenis van de vraag.

Het C10K-probleem stelde serverarchitecturen uit de vroege jaren 2000 voor de uitdaging om tienduizend gelijktijdige verbindingen efficiënt te beheren. Traditionele modellen van één thread per verbinding putten geheugen en CPU uit door contextwisselingen. De makers van Go streefden ernaar om miljoenen goroutines te ondersteunen, terwijl de duidelijkheid van blokkering I/O-code behouden bleef, wat een mechanisme vereiste om het wachten van goroutines te ontkoppelen van het verbruik van OS-threads.

Het probleem.

Wanneer een goroutine een blokkering systeemaanroep uitvoert - zoals read() op een netwerksocket - loopt het risico de onderliggende OS-thread (M) vast te pinnen. Zonder ingrijpen zouden duizenden gelijktijdige verbindingen tienduizenden threads genereren, wat de voordelen van M:N-scheduling tenietdoet en systeembronnen uitput.

De oplossing.

De Go-runtime maakt gebruik van een netwerkpoller (die epoll op Linux, kqueue op BSD en IOCP op Windows gebruikt) die direct in de scheduler is geïntegreerd. Wanneer een goroutine I/O op een pollable descriptor initieert, parkeert de runtime deze in de status _Gwaiting en registreert de bestandsdescriptor bij de OS-specifieke poller. Een monitoringthread wacht op gereedheid; bij melding brengt de poller de goroutine over naar _Grunnable en plant deze in op een beschikbare P (logische processor). Dit transformeert blokkering operaties in efficiënte parkeergebeurtenissen, waardoor een kleine threadpool van GOMAXPROCS massale gelijktijdigheid kan bedienen.

// Idiomatische Go-code die daadwerkelijk parkeert in plaats van blokkeert
func handleConn(conn net.Conn) {
    buf := make([]byte, 1024)
    n, err := conn.Read(buf) // Parkeert goroutine, maakt thread vrij
    if err != nil {
        log.Println(err)
        return
    }
    process(buf[:n])
}

Situatie uit het leven

Je bouwt een high-frequency trading gateway die 20.000 persistente TCP-verbindingen naar marktgegevensfeeds onderhoudt. Tijdens volatiliteitspieken moet de latentie onder de 100 microseconden blijven. Initiële tests met een Java NIO-benadering behaalde doorvoer maar leed aan complexe callback-onderhoud. Bij de migratie naar Go schreef het team eenvoudige blokkering code met net.TCPConn. Echter, onder ladingsproeven met 50k gelijktijdige verbindingen genereerde het proces meer dan 10.000 OS-threads, wat leidde tot OOM-kills en het vernietigen van latentiegaranties.

Oplossing A: Implementeer het reactor-patroon handmatig. Omzeil de standaardbibliotheek en gebruik syscall-wrappers om een handmatige epoll-evenementlus te creëren met bufferpooling. Voordelen: Maximaal controle over geheugensamenstelling en wakker-latentie. Nadelen: Offer de sequentiële coderingsmodel van Go op, introduceer platform-specifieke complexiteit en dupliceer beproefde runtime-code, waardoor het aantal bugs toeneemt.

Oplossing B: Accepteer thread overhead met runtime.LockOSThread. Forceer elke verbinding op een toegewijde thread om planningsisolatie te garanderen. Voordelen: Voorspelbare thread-affiniteit. Nadelen: Schendt het fundamentele economische voordeel van goroutines; het geheugengebruik stijgt naar ~8MB per verbinding, waardoor de benadering onhaalbaar is voor de doelgrootte.

Oplossing C: Controleer op niet-pollable I/O en vertrouw op de netpoller. Behoud idiomatische blokkering code maar elimineer onbedoelde blokkering systeemaanroepen (bijv. bestand logging of DNS-opzoekingen zonder resolver bewustzijn) die dwangmatig threadcreatie vereisen. Voordelen: Behoudt leesbare lineaire stroom; benut runtime-optimalisaties over Linux/macOS/Windows; vermindert geheugen tot ~2KB per verbinding. Nadelen: Vereist diepgaand begrip dat net.Conn-bewerkingen parkeren terwijl os.File-bewerkingen threads blokkeren.

Het team koos voor Oplossing C, zich bewust dat de threadexplosie voortkwam uit het synchronisch loggen van marktgegevens naar lokale ext4-bestanden binnen het hot path. Regelmatige bestand I/O kan de netpoller niet gebruiken (bestanden zijn altijd "gereed" in Unix epoll), dus elk logschrijfacties blokkeerde een OS-thread. Ze refactoreerden om een asynchrone bestand schrijver goroutine met een kanaalbuffer te gebruiken, waardoor netwerk I/O (die pollable is) op de hoofd-goroutines bleef.

De gateway ondersteunt nu 50.000 verbindingen met slechts 16 OS-threads (overeenkomend met GOMAXPROCS), wat resulteert in ~85µs P99-latentie. Geheugenverbruik daalde van 40GB (geprojecteerde threadstacks) naar ~180MB totale RSS.

Wat kandidaten vaak missen

Waarom blokkeert lezen van os.Stdin of een regulier bestand een OS-thread ondanks dat dezelfde Read-methode als een TCP-socket wordt gebruikt, en hoe beïnvloedt dit de gelijktijdigheid van CLI-tools?

Terwijl TCP-sockets asynchrone gereedheidsmeldingen ondersteunen via epoll, rapporteren regulier bestanden en pijpen op Unix-systemen altijd als "gereed" voor I/O; de kernel biedt geen niet-blokkerende interface voor de beschikbaarheid van bestand gegevens. Dienovereenkomstig, wanneer een goroutine os.File.Read aanroept, kan de Go-runtime deze niet parkeren - het moet een echte OS-thread aan de blokkering syscall toewijzen. In CLI-tools die goroutines per invoerbestand genereren (bijv. logprocessoren), veroorzaakt dit threadlekkage gelijk aan traditionele threadingmodellen. De oplossing beperkt gelijktijdige bestandsbewerkingen met behulp van semaforen of gebruikt buffering met toegewijde werkpools.

Hoe voorkomt de runtime een "thundering herd" wanneer de netpoller tegelijkertijd duizenden goroutines wekt na het herstellen van een netwerkpartitionering?

Wanneer de netpoller (via epoll_wait) duizenden gereed descriptors retourneert, distribueert de netpoll-functie goroutines over alle Ps (logische processors) met behulp van de globale runqueue en work-stealing-algoritmes, in plaats van ze allemaal op een enkele P te plaatsen. Bovendien implementeert de scheduler eerlijke ticks: na elke 10 ms uitvoering controleert het op uitvoerbare I/O-goroutines om te voorkomen dat CPU-gebonden taken hen uithongeren. Kandidaten gaan vaak uit van FIFO-queueing per verbinding, wat het feit mist dat de scheduler doorvoer balanseert door wakker-gebeurtenissen te verspreiden en preemptiepunten af te dwingen.

Welke raceconditie bestaat er tussen SetReadDeadline en een actieve Read-oproep, en waarom vereist de implementatie van de timerwiel atomische synchronisatie met de netpoller?

De netpoller gebruikt een per-P timerwiel of min-heap om I/O-deadlines te beheren. Wanneer goroutine A SetReadDeadline aanroept terwijl goroutine B blokkeert in Read, wijzigt A de timer waarop de geparkeerde status van B afhankelijk is. Zonder atomische updates (beschermd door interne mutexen in net.conn) kan er een race optreden waarbij de poller de oude deadline observeert nadat de nieuwe is ingesteld, wat leidt tot een gemiste wekker (oneindige hang) of een valse time-out. De atomiciteit zorgt voor consistentie: ofwel wordt de bijgewerkte deadline waargenomen door de epoll-wachtcyclus, of de vorige timer wordt geactiveerd, maar nooit een ongedefinieerde tussenstaat die het deadlinecontract schendt.