Antwoord op de vraag.

Geschiedenis van de vraag

Voor Go 1.3 maakte de runtime gebruik van segmentgestapelde stacks die opgedeeld werden in gekoppelde stukken bij functieaanroepgrenzen. Dit ontwerp veroorzaakte ernstige "hot split" prestatieproblemen wanneer de stackgrens vaak werd overschreden tijdens strakke lussen. Go 1.3 verving dit door aaneengeschakelde stacks die tijdens groei naar grotere, enkelvoudige aaneengeschakelde gebieden worden gekopieerd. Echter, vroege implementaties van aaneengeschakelde stacks gaven nooit geheugen terug aan de heap, waardoor de permanente RSS-groei voor goroutines die tijdelijk diepe oproepstacks vereisten tijdens initialisatie of batchverwerking ontstond. Go 1.5 introduceerde automatische stackverkleining om ongebruikt stackgeheugen terug te winnen tijdens garbage collection cycli, wat de levenscyclus van geheugenbeheer voor goroutine stacks voltooit.

Het probleem

Zonder een verkleiningsmechanisme zou een goroutine die tijdelijk in diepe recursie gaat (bijv. het verwerken van een diep genest JSON-document of het doorlopen van een complexe afhankelijkheidsboom) zijn piekstacktoewijzing oneindig behouden, zelfs nadat deze terugkeert naar een idle event loop. Dit leidt tot geheugenbloat in langlopende applicaties, vooral die gebruik maken van werkerspools waar goroutines afwisselend tussen taken met hoge stack en inactieve staten wisselen. De uitdaging ligt in het veilig identificeren wanneer een stack werkelijk onderbenut is en actieve frames verplaatsen naar een kleiner geheugengebied zonder lopende berekeningen, stack-geallocateerde pointers te corrumperen of de ABI-vereisten voor aanroepconventies te schenden.

De oplossing

De Go runtime verkleint stacks tijdens de GC-marktfase wanneer het rootsets scant. Het onderzoekt het stackgebruik van elke goroutine; als de high-water mark van het gebruikte gedeelte onder één vierde (25%) van de momenteel toegewezen stackgrootte valt, wijst de runtime een nieuwe stack toe die de helft van de huidige grootte is (maar nooit kleiner dan de minimum 2KB). De runtime stopt dan asynchroon de doel-goroutine op een veilige plek, kopieert de actieve stackframes naar het nieuwe kleinere gebied, gebruikt door de compiler gegenereerde pointermaps om alle interne pointers die verwijzen naar stackadressen bij te werken, en geeft het oude stackgeheugen terug aan de mheap-allocator van de runtime.

Situatie uit het leven

We exploiteerden een hoogdoorvoer logverwerkingsservice waar elke goroutine zich bezighield met het parseren van potentieel diep geneste JSON-payloads (tot 10.000 niveaus diep tijdens aanvallen met verkeerd geformatteerde invoer). Na verwerking gingen deze goroutines terug naar een sync.Pool om op nieuwe verbindingen te wachten. We observeerden dat het RSS-geheugen van de service lineair groeide met het aantal gepoolde goroutines, nooit geheugen vrijgaf, zelfs niet tijdens inactieve periodes, wat uiteindelijk leidde tot OOM-kills op containers met 4GB-limieten, ondanks dat de werkset slechts 200MB was.

We overwoogen gedwongen gepoolde goroutines te doden na een bepaald aantal verwerkte verzoeken en frisse vervangers te laten opstarten. Dit zou garanderen dat stackgeheugen werd vrijgegeven, aangezien nieuwe goroutines beginnen met minimaal 2KB stacks. Echter, deze benadering introduceerde aanzienlijke CPU-overhead door constante creatie en vernietiging van goroutines, verstoorde TCP-verbinding pooling optimalisaties, en veroorzaakte hogere latentie tijdverliezen door cache koude starts.

Het implementeren van een harde limiet op stackgroei via debug.SetMaxStack zou overmatige toewijzing tijdens de diepe recursie-evenementen voorkomen. Hoewel dit beschermde tegen OOM, leidde het tot legitieme maar diepe parsingtaken die panikeren met runtime: goroutine stack exceeds 1000000000-byte limit. Dit resulteerde in het verlies van klantgegevens en servicefouten die onze betrouwbaarheid SLA's schonden, waardoor het onaanvaardbaar was voor productie.

We evalueerden periodiek runtime.GC() aanroepen gevolgd door debug.FreeOSMemory() elke 30 seconden om stackscanning en verkleining af te dwingen. Dit verlaagde succesvol de RSS maar introduceerde stop-the-world pauzes van 5-10ms bij elke aanroep, wat onze p99 latentie-eisen van <2ms voor de API-laag schond en de CPU-utilisatie met 15% verhoogde door geforceerde volledige collecties.

Uiteindelijk verlieten we ons op Go's native stackverkleiningsmechanisme door ervoor te zorgen dat we Go 1.20+ draaiden en GOGC afstelden om frequentere garbage collections uit te lokken (het instellen op 50 in plaats van 100). Dit verhoogde de frequentie van stackverkleiningsmogelijkheden zonder handmatige tussenkomst. We herstructureerden ook de parser om een iteratieve aanpak te gebruiken met een expliciet heap-geallocateerde stack voor padtracking, waardoor de maximale recursiediepte van 10.000 naar 100 werd verminderd. De combinatie zorgde ervoor dat natuurlijke verkleining vaak genoeg plaatsvond om geheugen begrensd te houden.

De service RSS stabilizeerde rond de 800MB onder belasting, van de vorige 3.8GB limiet. Goroutine stackprofielen toonden aan dat 95% van de gepoolde werkers de minimum 2KB stackgrootte tussen verzoeken behield, met pieken die alleen plaatsvonden tijdens actieve parsing. De OOM-kills hielden volledig op, en de p99 latentie bleef onder 1.5ms sinds we handmatige GC-pauzes en goroutine churn vermeden.

Wat kandidaten vaak missen

Vind vermindering van de stack plaats zodra een functie retourneert en de stackpointer daalt?

Nee, de runtime monitort stackpointer-decrementen niet in realtime om onmiddellijke deallocatie te activeren. Verkleining gebeurt uitsluitend tijdens de garbage collection marktfase wanneer de scheduler alle goroutine-stacks scant. De runtime controleert de high-water mark van het stackgebruik sinds de laatste GC. Alleen als deze high-water mark onder de 25% van de huidige fysieke toewijzing ligt, wordt de verkleiningslogica uitgevoerd. Deze luie evaluatie amortiseert de kosten van het kopiëren van stacks over alle goroutines tijdens een periode waarin de wereld al is gepauzeerd voor marking, hoewel de daadwerkelijke kopie het stoppen van de individuele goroutine vereist.

Wat is de exacte verkleiningsratio en minimumgrootte, en geeft de runtime ooit geheugen terug aan het besturingssysteem?

Wanneer een stack in aanmerking komt voor verkleining, wijst de runtime een nieuwe stack toe die de helft van de huidige grootte is. Deze geometrische reductie voorkomt thrashing waarbij een goroutine die iets boven en onder een drempel oscilleert voortdurend zou groeien en krimpen. De nieuwe grootte is begrensd door de minimum stackgrootte van het platform, meestal 2KB op 64-bits systemen. Het geheugen van de oude stack wordt teruggegeven aan de mheap van de runtime, niet rechtstreeks aan het besturingssysteem. Het besturingssysteem werpt deze fysieke geheugen alleen terug als de verzamelaar bepaalt dat de heap inactief is en de doelstelling overschrijdt, of als debug.FreeOSMemory() wordt aangeroepen.

Wordt de goroutine gestopt tijdens de verkleining van de stack, en hoe worden pointers bijgewerkt?

Ja, verkleining vereist het stoppen van de doel-goroutine op een veilige plek, vergelijkbaar met stackgroei. De runtime moet actieve frames naar een nieuwe geheugenlocatie kopiëren en alle pointers die verwijzen naar stack-geallocateerde variabelen bijwerken. De compiler genereert pointermaps die identificeren welke woorden in elk frame pointers zijn. Tijdens de verkleining gebruikt de runtime deze maps om interieur pointers te vinden en aan te passen zodat ze naar de nieuwe stackadressen wijzen. Deze operatie is niet concurrent; de goroutine kan niet uitvoeren tijdens de kopie, maar andere goroutines blijven draaien.