2024年07月03日玄貓（BlackCat）

Rust記憶體排序深入

本文探討 Rust 中的記憶體排序，涵蓋 Relaxed、Release 和 Acquire 等排序選項，並以程式碼範例闡述其應用場景和原理，同時解釋 happens-before 關係和原子操作的注意事項，幫助讀者理解如何在 Rust 平行程式設計中確保資料一致性和程式正確性。

程式語言平行計算

Rust 記憶體排序原子操作平行程式設計 Relaxed Release Acquire

在 Rust 的平行程式設計中，確保資料在多執行緒間的一致性和可見性至關重要。記憶體排序機制正是為瞭解決這個問題而設計的。編譯器和處理器為了效能最佳化，可能會對指令進行重新排序，而這在多執行緒環境下可能導致非預期的結果。Rust 提供了 std::sync::atomic::Ordering 列舉，允許開發者指定不同的記憶體排序模型，例如 Relaxed、Release 和 Acquire，以控制原子操作的行為，進而確保資料一致性。理解這些排序模型的特性和應用場景，才能寫出高效且正確的平行程式碼。

記憶體排序（Memory Ordering）

在第2章中，我們簡要介紹了記憶體排序的概念。在本章中，我們將探討這個主題，探索所有可用的記憶體排序選項，並重點討論何時使用哪一個選項。

重新排序與最佳化

處理器和編譯器會執行各種技巧，以使程式執行得盡可能快。處理器可能會判定程式中兩個連續的指令不會相互影響，並按不同的順序執行它們，如果這樣做更快的話。例如，在一條指令暫時被阻塞，等待從主記憶體中取得某些資料時，後面的幾條指令可能會被執行並完成，只要這樣做不會改變程式的行為。同樣，編譯器可能會決定重新排序或重寫程式的某些部分，如果它有理由相信這樣做可能會導致更快的執行。

但是，這些最佳化只有在不會改變程式行為的情況下才會進行。

讓我們來看看下面的函式作為例子：

fn f(a: &mut i32, b: &mut i32) {
    *a += 1;
    *b += 1;
    *a += 1;
}

內容解密：

在這個例子中，編譯器很可能會理解這些操作的順序並不重要，因為在這三次加法操作之間沒有任何依賴於*a或*b值的操作。（假設溢位檢查被停用。）因此，它可能會重新排序第二和第三個操作，然後將前兩個操作合併為一個加法：

fn f(a: &mut i32, b: &mut i32) {
    *a += 2;
    *b += 1;
}

稍後，在執行這個最佳化後的編譯程式時，處理器可能會因為各種原因，最終在執行第一個加法之前執行第二個加法，可能的原因是*b已經在快取中，而*a必須從主記憶體中取得。

無論這些最佳化如何，結果保持不變：*a被增加2，而*b被增加1。它們被增加的順序對於程式的其他部分來說是完全不可見的。

驗證邏輯

驗證某個特定的重新排序或其他最佳化不會影響程式行為的邏輯並沒有考慮其他執行緒。在我們的例子中，這是完全沒問題的，因為獨特的參考（&mut i32）保證沒有其他東西可以存取這些值，使得其他執行緒無關緊要。唯一的問題是當改變在執行緒之間分享的資料時。或者換句話說，當使用原子操作時。這就是為什麼我們必須明確告訴編譯器和處理器他們可以和不能對我們的原子操作做什麼，因為他們通常的邏輯忽略了執行緒之間的互動，可能會允許最佳化改變程式的結果。

記憶體排序選項

有趣的問題是我們如何告訴他們。如果我們想準確地拼出什麼是可接受的，什麼是不可接受的，平行程式設計可能會變得非常冗長和容易出錯，甚至可能與架構相關：

let x = a.fetch_add(1, 
    // 親愛的編譯器和處理器，
    // 請自由地與對b的操作重新排序，
    // 但是如果有另一個執行緒同時執行f，
    // 請不要將此操作與對c的操作重新排序！
    // 此外，處理器，請不要忘記重新整理您的儲存緩衝區！
    // 如果b是零，那麼這就無所謂了。
    // 在這種情況下，請隨意做任何最快的事情。
    // 謝謝~ <3
);

相反，我們只能從一組有限的選項中選擇，這些選項由std::sync::atomic::Ordering列舉表示，每個原子操作都將其作為引數。可用的選項非常有限，但經過仔細挑選，以適應大多數使用情況。這些排序非常抽象，並不直接反映實際的編譯器和處理器機制，例如指令重新排序。這使得您的平行程式碼能夠與架構無關，並且具有未來可擴充套件性。它允許在不知道每個當前和未來處理器和編譯器版本細節的情況下進行驗證。

記憶體排序的重要性

記憶體排序在平行程式設計中至關重要，因為它影響著不同執行緒之間分享資料的一致性和可見性。正確的記憶體排序可以確保程式的正確性和效能，而錯誤的記憶體排序可能會導致難以除錯的平行錯誤。

常見的記憶體排序選項

Rust中的std::sync::atomic::Ordering列舉提供了多種記憶體排序選項，包括：

SeqCst（Sequentially Consistent）：最嚴格的記憶體排序保證，所有操作都按照一個全域的順序進行。
Acquire：保證當前執行緒可以看到其他執行緒在釋放相同原子變數之前的所有寫入操作。
Release：保證當前執行緒的所有寫入操作在釋放原子變數之前對其他執行緒可見。
AcqRel：同時具有Acquire和Release的特性，用於讀取-修改-寫入操作。
Relaxed：最寬鬆的記憶體排序，不提供任何同步或順序保證。

記憶體排序的選擇

選擇正確的記憶體排序取決於具體的平行程式設計需求。對於簡單的原子操作，SeqCst可能是最簡單的選擇，但它也可能是最慢的。在某些情況下，Relaxed可能是足夠的，但需要仔細分析以確保程式的正確性。

圖表翻譯：
此圖表示展示了記憶體排序的不同選項及其流程。從開始節點出發，根據不同的記憶體排序選擇（SeqCst、Acquire、Release、AcqRel、Relaxed），流程會到達不同的節點，最終都到達結束節點。這張圖幫助理解不同記憶體排序選項之間的關係和流程。

Rust 中的記憶體排序與 Happens-Before 關係

在 Rust 的平行程式設計中，記憶體排序（Memory Ordering）是一個至關重要的概念，它定義了多執行緒環境下對分享變數的操作順序。Rust 提供了多種記憶體排序選項，包括 Relaxed、Release、Acquire、AcqRel 和 SeqCst。本章節將探討這些概念及其實際應用。

記憶體模型

Rust 的記憶體模型主要根據 C++ 的記憶體模型，這是一種抽象模型，旨在代表當前和未來處理器架構的最大公約數，同時給予編譯器足夠的自由度來進行最佳化。該模型定義了操作的發生順序，並嚴格規定了資料競爭（Data Races）將導致未定義行為。

Happens-Before 關係

Happens-Before 關係是記憶體模型的核心概念，用於描述操作之間的順序關係。在同一執行緒內，所有操作按照程式順序發生，即 f(); g(); 表示 f() happens-before g()。而在不同執行緒之間，Happens-Before 關係主要透過非 Relaxed 記憶體排序的原子操作、執行緒的建立與加入（Spawning and Joining）以及 Mutex 的解鎖與鎖定來建立。

執行緒間的 Happens-Before 關係範例

考慮以下範例：

static X: AtomicI32 = AtomicI32::new(0);
static Y: AtomicI32 = AtomicI32::new(0);

fn a() {
    X.store(10, Relaxed);
    Y.store(20, Relaxed);
}

fn b() {
    let y = Y.load(Relaxed);
    let x = X.load(Relaxed);
    println!("{} {}", x, y);
}

內容解密：

在上述範例中，a 和 b 函式分別對原子變數 X 和 Y 進行儲存和載入操作。由於使用了 Relaxed 記憶體排序，因此操作之間沒有建立跨執行緒的 Happens-Before 關係。這意味著 b 函式中的載入操作可能觀察到 a 函式中儲存操作的不同順序，從而導致輸出結果的不確定性，例如可能的輸出為 0 0、10 20、10 0 或 0 20。

建立與加入執行緒的 Happens-Before 關係

當建立一個新執行緒時，建立執行緒的操作 happens-before 新執行緒的開始執行。類別似地，當一個執行緒被加入時，被加入執行緒的操作 happens-before 加入操作之後的操作。

static X: AtomicI32 = AtomicI32::new(0);

fn main() {
    X.store(1, Relaxed);
    let t = thread::spawn(|| {
        let x = X.load(Relaxed);
        assert!(x == 1 || x == 2);
    });
    X.store(2, Relaxed);
    t.join().unwrap();
    X.store(3, Relaxed);
}

內容解密：

在這個範例中，main 函式首先儲存 1 到 X，然後建立一個新執行緒並儲存 2 到 X，最後加入該執行緒並儲存 3 到 X。新執行緒中的斷言 assert!(x == 1 || x == 2) 永遠不會失敗，因為 X.load(Relaxed) 發生在第一個儲存操作之後，但在第三個儲存操作之前。

Relaxed 記憶體排序

使用 Relaxed 記憶體排序的原子操作不提供跨執行緒的 Happens-Before 關係，但保證每個原子變數的修改順序在所有執行緒中保持一致。

static X: AtomicI32 = AtomicI32::new(0);

fn a() {
    X.store(1, Relaxed);
}

fn b() {
    X.store(2, Relaxed);
}

fn c() {
    let x = X.load(Relaxed);
    println!("{}", x);
}

內容解密：

在上述範例中，多個執行緒可能對 X 進行儲存操作，但所有執行緒觀察到的 X 的修改順序是一致的。這保證了原子變數的操作在多執行緒環境下的一致性。

隨著平行程式設計技術的不斷發展，未來將出現更多高效的同步機制和記憶體模型最佳化技術。開發者需要持續學習和掌握這些新技術，以應對日益複雜的平行程式設計挑戰。

Happens-Before 關係示意圖

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title Rust記憶體排序深入

package "Rust 記憶體管理" {
    package "所有權系統" {
        component [Owner] as owner
        component [Borrower &T] as borrow
        component [Mutable &mut T] as mutborrow
    }

    package "生命週期" {
        component [Lifetime 'a] as lifetime
        component [Static 'static] as static_lt
    }

    package "智慧指標" {
        component [Box<T>] as box
        component [Rc<T>] as rc
        component [Arc<T>] as arc
        component [RefCell<T>] as refcell
    }
}

package "記憶體區域" {
    component [Stack] as stack
    component [Heap] as heap
}

owner --> borrow : 不可變借用
owner --> mutborrow : 可變借用
owner --> lifetime : 生命週期標註
box --> heap : 堆積分配
rc --> heap : 引用計數
arc --> heap : 原子引用計數
stack --> owner : 棧上分配

note right of owner
  每個值只有一個所有者
  所有者離開作用域時值被釋放
end note

@enduml

圖表翻譯： 此圖表展示了多個執行緒對分享變數 X 進行儲存和載入操作的 Happens-Before 關係。執行緒 A 對 X 進行兩次儲存操作，執行緒 C 和 E 對 X 進行載入操作，而執行緒 D 進行另一次儲存操作。圖中展示了這些操作之間的順序關係和依賴關係。

詳細分析

在多執行緒環境下，正確理解和應用記憶體排序和 Happens-Before 關係是至關重要的。透過合理使用原子操作和同步機制，可以有效避免資料競爭和未定義行為，從而提升程式的可靠性和效能。

效能最佳化

在實際開發中，選擇合適的記憶體排序對於程式效能至關重要。Relaxed 記憶體排序提供了最高的效能，但需要開發者自行確保操作順序的正確性。而 SeqCst 記憶體排序雖然提供了最強的順序保證，但可能會影響效能。因此，開發者需要在效能和正確性之間進行權衡，選擇最合適的記憶體排序策略。

安全性考量

在多執行緒程式設計中，安全性是一個重要的考量因素。透過使用原子操作和適當的同步機制，可以有效避免資料競爭和未定義行為，從而提升程式的安全性。同時，開發者也需要關注潛在的安全漏洞，如死鎖（Deadlock）和活鎖（Livelock）等，並採取相應的措施進行預防和處理。

Rust原子變數操作與記憶體排序

在平行程式設計中，正確使用原子變數和記憶體排序至關重要。本篇文章將探討Rust中的原子變數操作和不同記憶體排序模式，特別是Relaxed、Release和Acquire排序的使用場景和原理。

Relaxed記憶體排序

Relaxed記憶體排序是最弱的記憶體排序保證，它只保證操作的原子性，但不保證操作的順序。

程式碼範例

use std::sync::atomic::{AtomicI32, Ordering::Relaxed};
use std::thread;

static X: AtomicI32 = AtomicI32::new(0);

fn main() {
    let handle = thread::spawn(|| {
        a();
    });
    b();
    handle.join().unwrap();
}

fn a() {
    X.fetch_add(5, Relaxed);
    X.fetch_add(10, Relaxed);
}

fn b() {
    let a = X.load(Relaxed);
    let b = X.load(Relaxed);
    let c = X.load(Relaxed);
    let d = X.load(Relaxed);
    println!("{a} {b} {c} {d}");
}

內容解密：

在這個例子中，變數X被多個執行緒共用。
函式a()對X進行兩次原子加法操作，分別加上5和10。
函式b()對X進行四次讀取操作並列印結果。
由於使用Relaxed排序，b()中讀取X的順序不保證與a()中的寫入順序一致。

Relaxed排序的特性

全域修改順序：對於單一原子變數，所有執行緒觀察到的修改順序是一致的。
無同步保證：Relaxed排序不提供不同變數之間的同步保證。
可能的輸出：在上述例子中，可能的輸出包括0 0 0 0、0 0 15 15等，但不會出現0 5 0 15這樣的輸出。

多執行緒下的Relaxed排序

當我們將a()函式拆分成兩個獨立的函式a1()和a2()，並在不同的執行緒中執行時：

fn a1() {
    X.fetch_add(5, Relaxed);
}

fn a2() {
    X.fetch_add(10, Relaxed);
}

可能的修改順序

0 -> 5 -> 15
0 -> 10 -> 15

所有執行緒都會觀察到相同的修改順序。

Out-of-Thin-Air值的問題

理論上，Relaxed排序可能導致"out-of-thin-air"值的出現，雖然在實際中並不會發生：

static X: AtomicI32 = AtomicI32::new(0);
static Y: AtomicI32 = AtomicI32::new(0);

fn main() {
    let a = thread::spawn(|| {
        let x = X.load(Relaxed);
        Y.store(x, Relaxed);
    });
    let b = thread::spawn(|| {
        let y = Y.load(Relaxed);
        X.store(y, Relaxed);
    });
    a.join().unwrap();
    b.join().unwrap();
    assert_eq!(X.load(Relaxed), 0); // 理論上可能失敗
    assert_eq!(Y.load(Relaxed), 0); // 理論上可能失敗
}

內容解密：

理論上，由於迴圈依賴，可能會出現X和Y都為非0值的情況。
這是記憶體模型中的一個理論問題，在實際中並不會發生。

Release和Acquire排序

Release和Acquire排序用於建立執行緒之間的happens-before關係。

程式碼範例

use std::sync::atomic::{AtomicBool, AtomicU64, Ordering::Acquire, Ordering::Release};
use std::thread;
use std::time::Duration;

static DATA: AtomicU64 = AtomicU64::new(0);
static READY: AtomicBool = AtomicBool::new(false);

fn main() {
    let handle = thread::spawn(|| {
        DATA.store(123, Relaxed);
        READY.store(true, Release); // 確保DATA的寫入對其他執行緒可見
    });
    while !READY.load(Acquire) { // 等待DATA準備好
        thread::sleep(Duration::from_millis(100));
        println!("waiting...");
    }
    println!("{}", DATA.load(Relaxed)); // 保證能讀到123
}

內容解密：

子執行緒首先儲存資料到DATA，然後使用Release排序設定READY為true。
主執行緒使用Acquire排序讀取READY，當讀到true時，保證可以看到子執行緒在設定READY之前的寫入操作。
因此，主執行緒讀取DATA時，保證能讀到子執行緒寫入的123。