2026年01月03日玄貓（BlackCat）

JAX Flax 框架構建深度學習模型

本文介紹如何使用 JAX 和 Flax 框架構建深度學習模型，並以 MNIST 手寫數字辨識為例，示範 MLP 模型的建構、訓練與測試過程。Flax 作為 JAX 的高階神經網路函式庫，提供簡潔易用的

深度學習機器學習

JAX Flax MLP MNIST 深度學習框架神經網路

JAX 作為一個高效能數值計算函式庫，結合 Flax 高階神經網路函式庫，提供了一個強大的深度學習開發平臺。Flax 簡化了模型的定義、訓練和佈署過程，並與 JAX 的自動微分和 JIT 編譯功能完美整合，提升模型訓練效率。本文以 MNIST 手寫數字辨識為例，逐步講解如何使用 Flax 建構 MLP 模型，涵蓋了從資料準備、模型定義、引數初始化到訓練和測試的完整流程。此外，文章也探討了 JAX 生態系統中其他重要元件，例如 Optax 最佳化器和 TrainState 訓練狀態管理工具，以及如何使用它們來最佳化模型訓練。透過實際案例和程式碼說明，讀者可以更深入地理解 JAX 和 Flax 的應用，並將其運用到更複雜的深度學習任務中。

JAX 生態系統的應用

JAX 生態系統的應用非常廣泛，包括了深度學習、強化學習、進化計算等領域。以下是 JAX 生態系統的一些應使用案例子：

深度學習

JAX 能夠用於深度學習任務，例如影像分類別、語言模型等。JAX 的高階神經網路函式庫和最佳化器能夠簡化模型構建和訓練的過程，並且能夠提高模型的效能。

強化學習

JAX 能夠用於強化學習任務，例如遊戲、控制等。JAX 的強化學習函式庫能夠簡化代理的構建和訓練的過程，並且能夠提高代理的效能。

進化計算

JAX 能夠用於進化計算任務，例如最佳化問題等。JAX 的進化計算函式庫能夠簡化最佳化過程，並且能夠提高最佳化結果的品質。

內容解密：

本章主要介紹了 JAX 生態系統的基本概念和應用。JAX 生態系統包括了多種高階神經網路函式庫、最佳化器和其他工具，能夠簡化模型構建、訓練和佈署的過程。透過本章的介紹，讀者能夠瞭解 JAX 生態系統的基本概念和應用，從而能夠更好地使用 JAX 來解決實際問題。

圖表翻譯：

上述圖表展示了 JAX 生態系統的基本結構。JAX 是核心框架，Flax、Optax 和 TrainState 是 JAX 的重要組成部分。Flax 提供了高階神經網路函式庫，Optax 提供了最佳化器，TrainState 提供了訓練狀態管理。透過這些工具，JAX 能夠簡化模型構建、訓練和佈署的過程，並且能夠提高模型的效能。

使用 Flax 進行 MNIST 影像分類別

在本文中，我們將使用 Flax 進行 MNIST 影像分類別。Flax 是一個根據 JAX 的高階神經網路函式庫，提供了一個簡單易用的 API 來定義和訓練神經網路。

安裝 Flax

首先，您需要安裝 Flax。您可以使用 pip 安裝 Flax：

pip install flax

載入 MNIST 資料集

接下來，我們需要載入 MNIST 資料集。MNIST 資料集是一個常用的手寫數字影像資料集，包含 60,000 個訓練樣本和 10,000 個測試樣本。

import numpy as np
from tensorflow import keras

# 載入 MNIST 資料集
(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()

定義 Flax 神經網路模型

現在，我們可以定義 Flax 神經網路模型。Flax 提供了一個簡單易用的 API 來定義神經網路模型。

import flax
from flax import linen as nn

# 定義 Flax 神經網路模型
class MLP(nn.Module):
    @nn.compact
    def __call__(self, x):
        x = nn.Dense(512, kernel_init=nn.initializers.zeros)(x)
        x = nn.swish(x)
        x = nn.Dense(10, kernel_init=nn.initializers.zeros)(x)
        return x

初始化和應用 Flax 神經網路模型

接下來，我們需要初始化和應用 Flax 神經網路模型。

# 初始化 Flax 神經網路模型
mlp = MLP()

# 應用 Flax 神經網路模型
output = mlp(x_train)

訓練 Flax 神經網路模型

現在，我們可以訓練 Flax 神經網路模型。

# 定義損失函式和最佳化器
loss_fn = nn.softmax_cross_entropy
optimizer = flax.optimizers.Adam(learning_rate=0.001)

# 訓練 Flax 神經網路模型
for epoch in range(10):
    for x, y in zip(x_train, y_train):
        # 前向傳播
        output = mlp(x)
        loss = loss_fn(output, y)
        
        # 反向傳播
        grads = flax.grad(loss, mlp.params)
        
        # 更新模型引數
        mlp.params = optimizer.update(mlp.params, grads)

測試 Flax 神經網路模型

最後，我們可以測試 Flax 神經網路模型。

# 測試 Flax 神經網路模型
test_loss = 0
for x, y in zip(x_test, y_test):
    output = mlp(x)
    loss = loss_fn(output, y)
    test_loss += loss

print(f"測試損失：{test_loss / len(x_test)}")

這就是使用 Flax 進行 MNIST 影像分類別的基本步驟。Flax 提供了一個簡單易用的 API 來定義和訓練神經網路模型，使得您可以快速地建立和訓練自己的神經網路模型。

神經網路引數初始化與預測

在深度學習中，神經網路的引數初始化是一個非常重要的步驟。好的初始化方法可以幫助模型更快地收斂，並且提高模型的效能。在這個章節中，我們將介紹如何初始化神經網路的引數，並且實作一個簡單的預測函式。

引數初始化

首先，我們需要定義神經網路的結構，包括每一層的大小。這些大小會被存放在 LAYER_SIZES 這個列表中。然後，我們會使用 init_network_params 這個函式來初始化神經網路的引數。這個函式會根據給定的層大小、隨機種子和縮放引數，生成每一層的權重和偏差。

import numpy as np
import jax
import jax.numpy as jnp

# 定義層大小
LAYER_SIZES = [784, 256, 10]

# 定義縮放引數
PARAM_SCALE = 0.1

# 初始化引數
params = init_network_params(LAYER_SIZES, jax.random.PRNGKey(0), scale=PARAM_SCALE)

預測函式

接下來，我們會實作一個預測函式 predict。這個函式會根據給定的模型引數和輸入影像，計算出預測結果。預測函式會遍歷每一層，計算啟用值，並且使用最後一層的啟用值作為預測結果。

def predict(params, image):
    """Function for per-example predictions."""
    activations = image
    for w, b in params[:-1]:
        # 計算啟用值
        activations = jnp.dot(activations, w) + b
        # 啟用函式（例如 ReLU 或 Sigmoid）
        activations = jnp.maximum(activations, 0)  # ReLU
    
    # 最後一層的預測
    final_prediction = jnp.dot(activations, params[-1][0]) + params[-1][1]
    return final_prediction

Plantuml 圖表：神經網路結構

圖表翻譯：

上述 Plantuml 圖表展示了神經網路的基本結構。輸入層接收輸入資料，隱藏層進行特徵提取和轉換，最後輸出層生成預測結果。這個圖表簡單地示範了神經網路中資料的流動和轉換過程。

Flax 模組的優點

Flax 提供了一種模組化的方式來描述神經網路結構，使得程式碼更加簡潔和易於維護。透過繼承 flax.linen.Module 類別，開發者可以輕鬆地定義神經網路的層次結構和前向傳播邏輯。

簡單的神經網路定義

在 Flax 中，定義神經網路可以透過繼承 flax.linen.Module 類別並實作 __call__ 方法來完成。這個方法定義了神經網路的前向傳播邏輯，允許開發者直接在其中編寫網路的邏輯。

import flax
from flax import linen as nn

class NeuralNetwork(nn.Module):
    def setup(self):
        # 初始化層次結構
        self.layers = [nn.Dense(64), nn.Dense(32), nn.Dense(10)]

    def __call__(self, x):
        # 定義前向傳播邏輯
        for layer in self.layers[:-1]:
            x = nn.swish(layer(x))
        x = self.layers[-1](x)
        return x

自動初始化和狀態管理

Flax 的模組化設計允許自動初始化和狀態管理。透過 setup 方法，開發者可以初始化層次結構和相關引數，而 Flax 會自動管理這些引數的狀態。

與 JAX 整合

Flax 與 JAX 的整合提供了一種高效的方式來進行神經網路計算。透過 Flax 的模組化設計，開發者可以輕鬆地使用 JAX 的功能來最佳化神經網路的效能。

圖 11.1：Flax 的神經網路描述過程

圖 11.1 顯示了 Flax 中神經網路描述過程的視覺化表示。透過這個過程，開發者可以輕鬆地定義和管理神經網路的結構和前向傳播邏輯。

內容解密：

上述程式碼片段展示瞭如何使用 Flax 定義一個簡單的神經網路。透過繼承 flax.linen.Module 類別和實作 __call__ 方法，開發者可以直接編寫網路的邏輯。Flax 的自動初始化和狀態管理功能使得程式碼更加簡潔和易於維護。

圖表翻譯：

圖 11.1 描述了 Flax 中神經網路描述過程的視覺化表示。這個過程包括初始化層次結構、定義前向傳播邏輯和自動初始化和狀態管理。透過這個過程，開發者可以輕鬆地定義和管理神經網路的結構和前向傳播邏輯。

MNIST 影像分類別使用多層感知器（MLP）

定義神經網路

import jax
import jax.numpy as jnp
from flax import linen as nn

class MLP(nn.Module):
    @nn.compact
    def __call__(self, x):
        x = nn.Dense(features=128, kernel_init=jax.nn.initializers.zeros)(x)
        x = nn.relu(x)
        x = nn.Dense(features=10, kernel_init=jax.nn.initializers.zeros)(x)
        return x

初始化神經網路

# 建立 PRNGKey
key = jax.random.PRNGKey(0)

# 初始化模型引數
model = MLP()
params = model.init(key, jnp.ones((1, 784)))

# 應用模型
output = model.apply(params, jnp.ones((1, 784)))

輸入資料

在這個例子中，我們使用 MNIST 資料集進行影像分類別。每張影像是 28x28 的灰階影像，需要被展平成 784 個元素的向量。

模組變數

在上面的程式碼中，params 是模型的引數，model 是神經網路的例項。apply 方法用於將輸入資料傳遞給模型，得到輸出結果。

內容解密：

MLP 類別定義了一個多層感知器（MLP），它繼承自 nn.Module。
__call__ 方法定義了模型的前向傳遞過程。在這個例子中，我們使用兩個全連線層（Dense）和 ReLU 啟用函式。
init 方法用於初始化模型引數。
apply 方法用於將輸入資料傳遞給模型，得到輸出結果。
PRNGKey 是一個隨機數生成器的金鑰，用於初始化模型引數。

圖表翻譯：

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title JAX/Flax 深度學習框架架構

package "JAX 核心" {
    component [自動微分 grad()] as grad
    component [JIT 編譯 jit()] as jit
    component [向量化 vmap()] as vmap
    component [並行化 pmap()] as pmap
}

package "Flax 神經網路" {
    component [nn.Module 基底類別] as module
    component [nn.Dense 全連接層] as dense
    component [nn.relu 啟動函式] as relu
    component [init() 初始化] as init
}

package "MLP 模型 (MNIST)" {
    component [輸入層 784] as input
    component [隱藏層 256] as hidden
    component [輸出層 10] as output
}

package "訓練元件" {
    component [Optax 最佳化器] as optax
    component [TrainState] as state
    component [損失函式] as loss
}

grad --> jit : 加速
jit --> vmap : 批次

module --> dense
dense --> relu
relu --> init

input --> hidden : Dense + ReLU
hidden --> output : Dense + Softmax

optax --> state : Adam/SGD
state --> loss : 更新參數
loss --> grad : 反向傳播

note right of module
  Flax Module:
  @nn.compact
  def __call__(self, x):
    x = nn.Dense(256)(x)
    x = nn.relu(x)
    return nn.Dense(10)(x)
end note

note right of optax
  Optax 最佳化器：
  - optax.adam(lr)
  - optax.sgd(lr)
  - apply_updates()
end note

@enduml

在這個圖表中，我們展示了 MNIST 影像分類別使用多層感知器（MLP）的過程。輸入資料首先被展平成 784 維向量，然後傳遞給全連線層和 ReLU 啟用函式，最後得到 10 維向量的輸出結果。

從技術架構視角來看，JAX 生態系統為深度學習、強化學習等領域提供了高效能的運算基礎。Flax 作為 JAX 的高階神經網路函式庫，其模組化設計簡化了模型的定義、初始化和訓練流程，同時保持了 JAX 的效能優勢。分析其在 MNIST 影像分類別的應用，可以發現 Flax 透過簡潔的 API 和自動化的狀態管理，有效降低了開發者的程式碼複雜度。然而，JAX 及其生態系統的學習曲線相對較陡峭，需要開發者具備一定的函式式程式設計思維。對於初學者，建議先從基礎的 JAX 操作入手，逐步理解其核心概念，再深入 Flax 等高階工具。展望未來，隨著 JAX 生態的持續發展和社群的壯大，其應用範圍將進一步擴充套件，有望在更多領域發揮其效能優勢。玄貓認為，JAX 生態系統值得深度學習研究者和工程師的關注和投入。