Sorunun cevabı

C++11 bellek modeli, donanım eşzamanlılığını soyutlamak için tasarlanmıştır, ancak x86-64 Toplam Bellek Sıralaması (TSO) uygular ve bu, depoların tutarlı bir sırada küresel olarak görünür olmasını garanti eder. Sonuç olarak, std::memory_order_seq_cst genellikle x86-64 üzerinde basit bir MOV talimatı ile derlenir ve bu da dolaylı olarak ucuz hale gelir. Aksine, ARM işlemcileri, depoları ve yükleri agresif bir şekilde yeniden sıralamaya izin veren zayıf bir bellek modeli kullanır, bu da sıralı tutarlılık için açıklık olarak DMB ISH gibi engelleyici talimatlar gerektirir.

Bu mimari ayrım, taşınabilirlik tuzağı yaratır. Sadece x86-64 üzerinde optimize eden geliştiriciler, yüklenim zamanlarının ondalık nanosekonderle ölçüldüğü için genellikle seq_cst'ye dönmektedir. Aynı kod ARM üzerinde dağıtıldığında, her sıralı tutarlı işlem tam bir bellek engeli haline gelir ve sıkı döngülerde çıktı düşüşünü bir sıralamayla bozarak ciddi şekilde etkiler. Çözüm, bellek sıralamalarının bilinçli bir taksonomisini gerektirir: yalnızca atomiklik gerektiğinde memory_order_relaxed'in kullanılması ve gerçek senkronizasyon noktaları için memory_order_acquire/release'in ayrılması, hem güçlü hem de zayıf bellek mimarileri arasında etkili yürütme sağlamak için.

Hayattan bir durum

Ekibimiz, gerçek zamanlı olarak binlerce sensörden metrikler toplayan yüksek verimli bir telemetri aracı geliştirdi. İlk uygulama, paket alım oranlarını takip etmek için varsayılan memory_order_seq_cst ile std::atomic<uint64_t> sayaçlarını kullandı. x86-64 sunucularında profil oluşturma sırasında atomik engel ölçülemeyecek kadar azdı, CPU zamanının %1'inden daha azını tüketiyordu, bu da senkronizasyon stratejisinin optimal olduğu inancına yol açtı.

ARM64 gömülü kapıları alan dağıtımı için taşırken, verimlilik %80 düştü; bu da tampon taşmalarına neden oldu. Bunu çözmek için dört farklı yaklaşımı değerlendirdik.

Her yerde memory_order_seq_cst sürdürmek, kod basitliği sunarak anlam değişiklikleri olmadan doğruluk garanti etti. Ancak, profil oluşturma, aşırı DMB engelleyici talimatlar nedeniyle ARM arasındaki bant genişliğini doygun hale getirdiğini gösterdi, bu da sınırlı üretim donanımı için kabul edilemez hale getirdi.

Atomiklerin yerine std::mutex koymak, derleyiciler arasında taşınabilirlik sağladı ve basit kilitleme anlamları sundu. Ancak, bu, önbellek satırlarının zıplamasına ve potansiyel bağlam değiştirmelere neden olarak, orijinal atomik uygulamadan daha da fazla verim kaybına yol açtı ve alt milisaniye gecikme gereksinimlerimizi ihlal etti.

Ayrıca, __atomic_fetch_add gibi platforma özgü iç işlemleri kullanarak, açık __dmb engelleri ile en iyi ARM performansını sağlamak için montajı manuel ayarlamak mümkün oldu. Dezavantajı, mimariye göre ayrılmış, sürdürülemez bir kod tabanına yol açmasıydı; ayrı test matrisleri gerektiriyor ve standart STL algoritmalarının değiştirilmeden kullanılmasını engelliyordu.

Sonunda, bellek sıralamaları taksonomisi seçtik: saf sayaçlar için memory_order_relaxed ve kapatma bayrakları ile senkronizasyon için memory_order_acquire/release. Bu çözüm, C++ standartlarının soyutlamalarını kullanarak taşınabilirliği performansla dengeledi. Sonuç, ARM performansını x86-64 bazlarının %5'i kadar bir seviyeye tekrar getirdi ve aynı zamanda katı iş parçacığı güvenliğini korudu.

Adayların sıkça kaçırdığı şeyler

Nasıl olur da std::atomic belirli bir platformda kilit serbest olmayan türleri işler ve ölü kilitlenme sonuçları nedir?

is_lock_free() false döndürdüğünde, std::atomic çalışma zamanı tarafından sağlanan bir kilitleme uygulamasına devreder. libstdc++ ve libc++'da, bu genellikle atomik nesnenin adresiyle indekslenmiş mutex'lerden oluşan küresel bir hash tablosunu içerir, böylece rekabet azaltılır. Adaylar, atomikliğin kilitsiz olduğuna veya basit bir küresel mutex'e geri döndüğüne dair bir varsayım yaparlar, oysa ince kilitleme stratejisini ve sonuçlarını gözden kaçırırlar: aynı adres üzerinde atomik işlemleri ile atomik olmayan işlemler karıştığında veya bir atomik nesneye erişirken bir kilit tutuyorsanız, bir ölü kilitlenme ya da öncelik tersliği riski taşırsınız.

Neden std::atomic_ref vardır ve ne zaman bir nesne std::atomic olarak ilan edilmelerin yerine zorunlu hale gelir?

std::atomic_ref, std::atomic olarak belirtilmemiş nesneler üzerinde atomik işlemler yapmayı sağlar; bu, bellekle eşleme yapılmış donanım kayıtları, C yapı alanları veya harici kitaplıklar tarafından tahsis edilen bellek ile etkileşime girerken önemlidir. std::atomic'in nesne türünü değiştirip ayrıca kilitsiz işlemler için dolgu nedeniyle boyutunu potansiyel olarak değiştirmesi ile karşılaştırıldığında, atomic_ref mevcut depolamada herhangi bir değişiklik yapmadan çalışır. Adaylar, atomic_ref'in referans alınan nesnenin uygun hizalamaya (genellikle donanıma özgü) sahip olmasını gerektirdiğini ve ömrünün aynı baytlara yönelik atomik olmayan erişimlerle örtüşmeyeceğini kaçırırlar; bu, atomiklik sağlamak için eski veri yapılarında depolama alanını yeniden tahsis etmeden veya ABI uyumsuzluğunu bozmadan bir zorunluluk haline getirir.

Relaxed bellek sıralaması bağlamında "orfanin hava" sorunu nedir ve C++20 bunu neden ele aldı?

"Orfanin hava" sorunu, derleyicinin kodu optimize ederek değerlerin yoktan var olmuş gibi gözükmesine neden olan teorik bir senaryoyu açıklar; bu senaryo, gevşek atomiklerden kaynaklanan döngüsel bağımlılıkların ortaya çıkmasına yol açar. Örneğin, eğer A iş parçacı 1 değerini x ve y'ye kaydediyor ve B iş parçacı y değerini okuduktan sonra x'ye kaydediyorsa, kırık bir model, y yüklemesinin B'den gelen kaydı görmesine ve A'daki x yüklemesinin yine B'den gelen kaydı görmesine izin verebilir; bu da nedensel bir köken olmadan değerler oluşturur. C++20, bu durumu "bağımlılık-sırasında" kuralları ile yasaklayarak bellek modelini güçlendirdi; bu, neden memory_order_relaxed'in senkronizasyon için kullanılamayacağını, çünkü herhangi bir zamanlama öncesi garantisi sağlamadığını anlamak için önemlidir. Adaylar, gevşek sıralamayı kullanarak atomikliğin sadece etkilediğini varsayıp, senkronizasyon olmadan derleyicinin kodu yeniden sıralayıp, iş parçacıkları arasındaki algılanan nedensel ilişkileri bozacak yollarla düzenleyebileceğini kaçırırlar, değerler gerçekten icat edilmese bile.

**x86-64**'nin **TSO** bellek modeli ile **ARM**'nin zayıf sıralanması arasındaki uyumsuzluk, **std::atomic** kullanırken, özellikle sıralı tutarlılığın performans maliyeti ile ilgili farklı optimizasyon stratejilerini nasıl gerektirir?

Sorunun cevabı

Hayattan bir durum

Adayların sıkça kaçırdığı şeyler

x86-64'nin TSO bellek modeli ile ARM'nin zayıf sıralanması arasındaki uyumsuzluk, std::atomic kullanırken, özellikle sıralı tutarlılığın performans maliyeti ile ilgili farklı optimizasyon stratejilerini nasıl gerektirir?