主記憶體屏障

主記憶體屏障（英語：Memory barrier），也稱主記憶體柵欄，主記憶體柵障，屏障指令等，是一類同步屏障指令，它使得 CPU 或編譯器在對主記憶體進行操作的時候, 嚴格按照一定的順序來執行, 也就是說在主記憶體屏障之前的指令和之後的指令不會由於系統最佳化等原因而導致亂序。

大多數現代電腦為了提高效能而採取亂序執行，這使得主記憶體屏障成為必須。

語意上，主記憶體屏障之前的所有寫操作都要寫入主記憶體；主記憶體屏障之後的讀操作都可以獲得同步屏障之前的寫操作的結果。因此，對於敏感的程式塊，寫操作之後、讀操作之前可以插入主記憶體屏障。

舉例

當驅動程式執行下列動作時，如果處理器的寫入指令 out-of-order，使得資料還沒有寫入記憶體，硬件模組就被觸發開始動作，就會產生錯誤的行為。

  寫資料到記憶體, 稍後硬體模塊會存取這一筆資料
  // 此處需要內存屏障
  觸發硬體模塊開始處理資料

底層體系結構相關的原語

大多數處理器提供了主記憶體屏障指令:

完全主記憶體屏障(full memory barrier)保障了早於屏障的主記憶體讀寫操作的結果提交到主記憶體之後，再執行晚於屏障的讀寫操作。
主記憶體讀屏障(read memory barrier)僅確保了主記憶體讀操作；
主記憶體寫屏障(write memory barrier)僅保證了主記憶體寫操作。

主記憶體屏障是底層原語，是主記憶體排序的一部分，在不同體系結構下變化很大而不適合推廣。需要認真研讀硬件的手冊以確定主記憶體屏障的辦法。x86指令集中的主記憶體屏障指令是：

lfence (asm), void _mm_lfence (void) 读操作屏障
sfence (asm), void _mm_sfence (void)^[1] 写操作屏障
mfence (asm), void _mm_mfence (void)^[2] 读写操作屏障

常見的x86/x64，通常使用lock指令字首加上一個空操作來實現，注意當然不能真的是nop指令，但是可以用來實現空操作的指令其實是很多的，比如Linux中採用的

 addl $0, 0 (%esp)

記憶體也提供了另一套語意^[3]的主記憶體屏障指令:

acquire semantics: 該操作結果可利用要早於代碼中後續的所有操作的結果。
release semantics: 該操作結果可利用要晚於代碼中之前的所有操作的結果。
fence semantics: acquire與release兩種語意的共同有效。即該操作結果可利用要晚於代碼中之前的所有操作的結果，且該操作結果可利用要早於代碼中後續的所有操作的結果。

Intel Itanium處理器，具有主記憶體屏障mf的指令，具有下述modifiers:

acq (acquire)
rel (release).

Windows API的主記憶體屏障實現

下述同步函數使用適當的屏障來確保主記憶體有序：

進出臨界區(critical section)的函數
觸發(signaled)同步對象的函數
等待函數(Wait function)
互鎖函數(Interlocked function)

多線程編程與主記憶體可見性

多線程程式通常使用高層程式語言中的同步原語，如Java與.NET Framework，或者API如pthread或Windows API。因此一般不需要明確使用主記憶體屏障。

主記憶體可見性問題，主要是高速緩衝記憶體與主記憶體的一致性問題。一個處理器上的線程修改了某數據，而在另一處理器上的線程可能仍然使用着該數據在專用cache中的老值，這就是可見性出了問題。解決辦法是令該數據為volatile屬性，或者讀該數據之前執行主記憶體屏障。

亂序執行與編譯器重排序最佳化的比較

C與C++語言中，volatile關鍵字意圖允許主記憶體對映的I/O操作。這要求編譯器對此的數據讀寫按照程式中的先後順序執行，不能對volatile主記憶體的讀寫重排序。因此關鍵字volatile並不保證是一個主記憶體屏障。^[4]

對於Visual Studio 2003，編譯器保證對volatile的操作是有序的，但是不能保證處理器的亂序執行。因此，可以使用InterlockedCompareExchange或InterlockedExchange函數。

對於Visual Studio 2005及以後版本，編譯器對volatile變數的讀操作使用acquire semantics，對寫操作使用release semantics。

編譯器主記憶體屏障

編譯器會對生成的可執行代碼做一定最佳化，造成亂序執行甚至省略（不執行）。gcc編譯器在遇到內嵌組譯陳述式：

asm volatile("" ::: "memory");

將以此作為一條主記憶體屏障，重排序主記憶體操作。即此陳述式之前的各種編譯最佳化將不會持續到此陳述式之後。也可用內建的__sync_synchronize

Microsoft Visual C++的編譯器主記憶體屏障為：

_ReadWriteBarrier() MemoryBarrier()

Intel C++編譯器的主記憶體屏障為：

__memory_barrier()

參考文獻

^ SFENCE—Store Fence. [2014-01-10]. （原始內容存檔於2019-06-13）.
^ MFENCE—Memory Fence. [2014-01-10]. （原始內容存檔於2019-09-05）.
^ MSDN:Synchronization and Multiprocessor Issues. [2016-09-05]. （原始內容存檔於2017-07-04）.
^ Volatile Considered Harmful - Linux Kernel Documentation. [2014-01-10]. （原始內容存檔於2013-11-02）.

外部連結

[vtune-sfence-1] SFENCE—Store Fence. [2014-01-10]. （原始內容存檔於2019-06-13）.

[vtune-mfence-2] MFENCE—Memory Fence. [2014-01-10]. （原始內容存檔於2019-09-05）.

[3] MSDN:Synchronization and Multiprocessor Issues. [2016-09-05]. （原始內容存檔於2017-07-04）.

[4] Volatile Considered Harmful - Linux Kernel Documentation. [2014-01-10]. （原始內容存檔於2013-11-02）.

[1]

[2]

[3]

[4]

閱論編平行計算
概論	並行計算分散式計算平行計算大規模並列處理機雲端運算超級電腦高效能計算多元處理大規模多核心處理器（英語：Manycore processor） GPGPU 電腦網絡 Systolic array（英語：Systolic array）
層級	位元指令線程任務數據主記憶體迴圈（英語：Loop-level parallelism）管線化
多線程	時間（英語：Temporal multithreading）同時多線程（SMT）投機（英語：Speculative multithreading）（SpMT）搶佔式協同運作叢集多線程（CMT）硬件偵測
理論	PRAM模型並列演算法分析（英語：Analysis of parallel algorithms）阿姆達爾定律 Gustafson's law（英語：Gustafson's law） Cost efficiency（英語：Cost efficiency） Karp–Flatt metric（英語：Karp–Flatt metric）減速（英語：Parallel slowdown）加速比
元素	行程線程纖程指令窗口（英語：Instruction window）
協調	多元處理主記憶體一致性（英語：Memory coherence）快取一致性高速緩衝記憶體失效（英語：Cache invalidation）屏障同步應用程式檢查點（英語：Application checkpointing）
編程	串流處理數據流處理（英語：Dataflow programming）模型隱式並列（英語：Implicit parallelism）顯式並列（英語：Explicit parallelism）並行性非阻塞演算法（英語：Non-blocking algorithm）
硬件	費林分類法單指令流單數據流單指令流多數據流單指令多線程（英語：Single instruction, multiple threads）（SIMT）多指令流單數據流多指令流多數據流數據流架構（英語：Dataflow architecture）指令管線化超純量並列向量處理機多處理器對稱非對稱主記憶體共用分散式主記憶體（英語：Distributed memory）分散式共用 UMA NUMA COMA（英語：Cache-only memory architecture）大規模並列處理機電腦叢集網格計算
API	Ateji PX（英語：Ateji PX） Boost.Thread Charm++（英語：Charm%2B%2B） Cilk Coarray Fortran（英語：Coarray Fortran） CUDA Dryad（英語：Dryad (programming)） C++ AMP Global Arrays（英語：Global Arrays） MPI OpenMP OpenCL HMPP開放標準 OpenACC TPL（英語：Parallel Extensions#Task Parallel Library） PLINQ（英語：Parallel Extensions#PLINQ）並列虛擬機器（英語：Parallel Virtual Machine）（PVM） POSIX線程 RaftLib（英語：RaftLib） UPC TBB（英語：Threading Building Blocks）
問題	軟件閉鎖（英語：Software lockout）可縮放性競爭危害死結活結飢餓（英語：Starvation (computer science)）確定性演算法並列變慢（英語：Parallel slowdown）
分類：平行計算