2024年08月05日玄貓（BlackCat）

大語言模型提示微調策略

本文探討大語言模型（LLM）的兩種最佳化策略：提示工程和模型微調。文章首先介紹了少量樣本提示和思維鏈提示等技術，並比較了提示工程與微調的優劣。接著，文章詳細闡述了微調的優勢、挑戰和實務考量，並以客戶評論情緒分析為例，說明瞭微調的應用步驟。最後，文章介紹了PEFT和LoRA等高效微調技術，並提供了程式碼範例。

機器學習自然語言處理

大語言模型 LLM 提示工程微調 PEFT LoRA

大語言模型的應用日益廣泛，如何有效地引導和訓練這些模型成為重要的課題。提示工程，例如少量樣本提示和思維鏈提示，提供了一種快速且輕量級的最佳化方法，適用於快速原型設計和特定任務。然而，當任務複雜度提高，需要更精細的控制和更高的準確性時，模型微調就成為必要的選擇。微調雖然需要更多的計算資源和資料，但能顯著提升模型在特定領域或任務上的表現。選擇哪種策略取決於專案的具體需求，例如任務的複雜度、資料的可用性、效能的需求以及資源的限制。更進一步，PEFT 技術如 LoRA，提供更有效率的微調方式，降低計算成本和記憶體需求，同時保持模型效能。

強化大語言模型的提示技術與微調策略

在人工智慧領域，大語言模型（LLM）已經成為多項任務的強大工具。然而，如何有效地利用這些模型仍然是一個挑戰。本篇文章將探討兩種主要的最佳化方法：提示工程（Prompt Engineering）與模型微調（Fine-Tuning），並分析它們在不同應用場景下的優勢與侷限性。

少量樣本提示（Few-Shot Prompting）

少量樣本提示是一種利用少量範例來引導模型完成特定任務的方法。這種方法在行銷材料個人化等領域具有廣泛的應用前景。例如，在電子郵件行銷中，透過提供少量的客戶分群範例，模型可以生成針對不同客戶群體的個人化郵件內容。

# 範例程式碼：使用少量樣本提示生成個人化電子郵件
def generate_personalized_email(customer_profile, template, examples):
    # 將客戶分群範例與範本結合，輸入LLM生成個人化郵件
    prompt = f"根據以下範例，為{customer_profile}生成一封郵件：\n{examples}\n範本：{template}"
    # 呼叫LLM生成郵件內容
    email_content = call_llm(prompt)
    return email_content

#### 內容解密：
# 此函式透過結合客戶分群範例與範本，生成個人化的電子郵件內容。
# `customer_profile`代表客戶群體特徵，`template`是郵件範本，`examples`是少量樣本範例。
# 函式呼叫LLM生成最終的郵件內容，並傳回結果。

思維鏈（Chain-of-Thought）提示

思維鏈提示是一種鼓勵模型展示逐步推理過程的方法，能夠提高模型在複雜任務中的表現。這種方法可以透過少量樣本提示或直接引導模型進行推理來實作。

# 範例程式碼：使用思維鏈提示解決數學問題
def solve_math_problem(problem):
    # 引導模型逐步解決數學問題
    prompt = f"請逐步解釋如何解決以下數學問題：{problem}"
    # 呼叫LLM生成逐步解答過程
    solution = call_llm(prompt)
    return solution

#### 內容解密：
# 此函式透過引導模型逐步解決數學問題，提高了解答的準確性與透明度。
# `problem`代表待解決的數學問題，函式呼叫LLM生成逐步解答過程，並傳回結果。

提示工程 vs. 模型微調

在最佳化大語言模型時，需要根據具體任務需求選擇合適的方法。提示工程是一種利用現有模型知識進行新任務的方法，具有計算效率高、佈署快速的優勢，但其自定義程度有限。另一方面，模型微調透過在特定資料集上重新訓練模型，能夠更好地適應特定領域或語言，但需要大量的計算資源和時間。

圖表翻譯： 此圖示展示了在選擇最佳化大語言模型方法時的決策流程。首先根據任務需求判斷是否需要高度自定義，如果需要，則選擇模型微調；否則，採用提示工程。模型微調需要評估計算資源與資料需求，而提示工程則需要設計有效的提示。

大語言模型的微調：關鍵決策與實務應用

在人工智慧領域中，大語言模型（LLM）的微調（Fine-Tuning）已成為提升模型效能的重要技術手段。相較於單純的提示工程（Prompt Engineering），微調能夠針對特定任務或領域進行深度最佳化，從而獲得更精確的模型表現。

提示工程與微調的比較

在選擇使用提示工程還是微調時，需要考慮多個關鍵因素：

任務匹配度：若任務內容與LLM的預訓練資料高度相關，提示工程可能已足夠；反之，若任務涉及特殊領域或專業術語，則可能需要微調來增強模型的理解能力。
資料可用性：若擁有高品質、任務特定的資料集，微調能夠顯著提升模型效能。
效能需求：當需要極高的準確率時，微調通常是更佳選擇，因為它能使模型更好地適應特定任務。
資源限制：計算資源和預算的限制可能會影響選擇。資源有限時，提示工程可能是更快速的解決方案；而資源充足時，微調則能提供長期效益。
上市時間：若需快速佈署，提示工程能夠更快實作目標；微調雖然耗時較長，但能帶來更佳的長期效能。

內容解密：

任務匹配度是決定是否採用微調的關鍵因素，因為它直接影響模型的適用性。
資料可用性決定了微調的可行性，高品質的資料集對於提升模型效能至關重要。
效能需求反映了任務的複雜度和精確度要求，是選擇微調的重要考量。

微調的優勢與挑戰

資料效率

微調的最大優勢之一是其資料效率。相較於從頭訓練模型，微調僅需較少的標註資料即可達到良好的效能。這是因為預訓練模型已經具備了廣泛的語言理解能力，微調能夠將這些知識有效地遷移到特定任務上。

領域適應性

微調使得模型能夠適應特定領域或行業的語言模式和術語。例如，在醫療或金融領域，微調能夠使模型更好地理解專業術語和上下文，從而提供更精確的輸出。

自定義與靈活性

透過微調，可以根據特定需求調整模型，使其更貼近實際應用場景。這種自定義能力使得模型能夠更好地滿足業務需求，並在特定任務上達到最佳效能。

微調的實務考量

資料需求：需要大量標註資料來支援微調，這可能涉及資料收集和整理的成本。
計算資源：微調需要大量的計算資源，尤其是對於大型模型，這可能成為一大挑戰。
風險管理：需要謹慎評估過擬合和偏差的風險，並進行適當的驗證和評估，以確保模型的效能和可靠性。

微調的範例應用

例如，一家經營於特定市場的公司可能會發現，通用LLM在處理該市場的專業術語時表現不佳。此時，透過在專業語料函式庫上進行微調，可以顯著提升模型的表現。相反，若是一家新創公司希望快速佈署一個聊天機器人，且對話內容在LLM的訓練範圍內，則提示工程可能已足夠。

案例研究：針對客戶評論情緒分析微調大語言模型

讓我們來檢視一個案例研究，探討如何針對客戶評論的情緒分析微調大語言模型。

目標

假設你想分析電子商務平台上的客戶評論，以瞭解客戶的情緒（正面、負面或中立）。你可以利用微調後的情緒分析大語言模型來自動化這個過程。

模型選擇

假設你會使用一個在大規模文字資料集上預先訓練的大語言模型。

微調資料集

你需要一組標有對應情緒（正面、負面或中立）的客戶評論資料集。這個資料集應該能夠代表你在平台上收到的評論。盡量平衡正面、負面和中立的評論，以避免使模型偏向特定的情緒。

微調步驟

你需要遵循以下步驟（一般）來微調大語言模型：

資料預處理：清理和預處理你的客戶評論資料集。這可能涉及移除無關的資訊，如標點符號、停用詞和HTML標籤。你也可能需要適當地處理諷刺和俚語。
模型選擇：選擇一個合適的預訓練大語言模型，如BERT或GPT-3，它們在多種語言和領域上進行了訓練。
微調/遷移學習：為了保留一般的語言知識，建議凍結大多數預訓練模型的層。然後，使用適當的學習率和迭代次數，用準備好的資料集自定義大語言模型的最後幾層。接著，在標記的客戶評論資料集上微調模型。在訓練過程中，仔細監控以避免過度擬合，並確保模型有效地學習。為了防止過度擬合，可以實施早期停止等技術。
評估：使用精確度、召回率、F1分數和準確率等指標，在單獨的標記評論驗證集上評估模型的情緒分類別準確性。

常見陷阱及解決方法

以下是一些常見問題及解決方法：

資料稀缺：如果標記的客戶評論有限，可以考慮使用資料增強技術，如同義詞替換或反向翻譯，來人為地擴充資料集。
領域不匹配：預訓練模型的訓練資料可能與客戶評論的領域不完全吻合。為了彌補這一差距，可以考慮使用在類別似領域（如產品描述）上預訓練的模型進行遷移學習。
過度擬合：微調時間過長或使用複雜模型而資料有限，可能會導致過度擬合。為了降低這種風險，可以採用早期停止、正則化（如丟棄法）和資料增強等技術。

透過遵循這些步驟並解決潛在的問題，你可以針對情緒分析或其他自然語言處理任務微調大語言模型，以滿足你的需求。記住，微調是一個迭代過程。分析評估結果，改進你的方法，並重新訓練模型，以達到最佳效能。

引數高效微調

完全微調大語言模型首先需要選擇一個基礎的大語言模型。然後，透過在下游任務上傳播梯度來微調整個神經網路權重，只在標記樣本資料的輸出/回應部分計算損失。這一過程需要大量的GPU記憶體來儲存模型引數和最佳化器狀態、梯度和啟用。這是一個昂貴的過程，而且透過完全微調，我們需要為每個任務建立一個新的模型副本。因此，我們最終可能會得到大量的微調模型，這些模型難以儲存和管理。如圖6-11所示。

圖6-11：大語言模型的完全微調（來源：改編自“COS597G：Understanding Large Language Models, Lecture 6, Princeton course archive”）

圖表翻譯： 此圖示展示了大語言模型的完全微調過程，包括選擇基礎模型、在特定任務上進行微調以及為每個任務建立新的模型副本。

然而，如果我們為每個任務調整引數的子集，我們就可以降低儲存和計算成本。這就是引數效率。引數高效微調（PEFT）有多種型別，如根據介面卡的方法、提示調整和重新引數化方法。透過PEFT，我們可以透過只調整少量額外的引數，同時保持大多數預訓練模型引數固定，來微調大語言模型。這種方法大大降低了與微調相關的計算和儲存成本。

PEFT的一個優點是它能夠克服災難性遺忘的挑戰，這是在完全微調大語言模型時觀察到的現象。透過選擇性地更新模型引數的一小部分，PEFT最小化了遺忘先前學習知識的風險。這使得PEFT方法在資料有限的場景中特別有效，並且對超出領域的情況表現出更好的泛化能力。

PEFT的另一個令人信服的方面是它對可移植性的影響。透過PEFT方法，你可以微調你的模型，並獲得僅佔用幾兆位元組儲存空間的緊湊檢查點。這與透過完全微調生成的龐大檢查點形成了鮮明的對比，後者可以佔用數吉位元組的空間。例如，在bigscience/mt0-xxl模型上使用傳統的微調方法會導致每個下游資料集產生40GB的檢查點。然而，透過PEFT方法，每個下游資料集的檢查點只有幾兆位元組。值得注意的是，這種大小的減少並沒有影響效能，因為PEFT取得了與完全微調相當的結果。

# 示例程式碼：使用Hugging Face Transformers進行引數高效微調
from transformers import AutoModelForSequenceClassification, AutoTokenizer

# 載入預訓練模型和tokenizer
model_name = "bert-base-uncased"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 定義一個簡單的PEFT類別
class SimplePEFT:
    def __init__(self, model, tokenizer):
        self.model = model
        self.tokenizer = tokenizer
    
    def fine_tune(self, dataset):
        # 對資料集進行標記
        encoded_dataset = dataset.map(lambda examples: self.tokenizer(examples['text'], padding="max_length", truncation=True, max_length=512))
        
        # 設定訓練引數
        training_args = TrainingArguments(
            output_dir="./results",
            num_train_epochs=3,
            per_device_train_batch_size=16,
            per_device_eval_batch_size=64,
            warmup_steps=500,
            weight_decay=0.01,
            evaluate_during_training=True,
            logging_dir="./logs",
        )
        
        # 建立Trainer例項
        trainer = Trainer(
            model=self.model,
            args=training_args,
            train_dataset=encoded_dataset['train'],
            eval_dataset=encoded_dataset['test'],
        )
        
        # 開始微調
        trainer.train()

# 使用範例
peft = SimplePEFT(model, tokenizer)
peft.fine_tune(your_dataset)

內容解密：

此程式碼展示瞭如何使用Hugging Face Transformers函式庫進行引數高效微調。首先，我們載入了一個預訓練的BERT模型和相應的tokenizer。然後，我們定義了一個簡單的SimplePEFT類別，封裝了模型的微調過程。在fine_tune方法中，我們首先對輸入的資料集進行標記，使用tokenizer將文字轉換為模型可以接受的格式。接著，我們設定了訓練引數，包括輸出目錄、訓練迭代次數、批次大小等，並建立了一個Trainer例項來進行模型的微調。最後，我們呼叫train方法開始訓練過程。

這個例子展示瞭如何使用PEFT方法對大語言模型進行高效微調，從而在降低計算和儲存成本的同時，保持良好的效能。透過這種方法，可以更靈活地將大語言模型應用於不同的自然語言處理任務。

高效微調大語言模型：PEFT 與 LoRA 的應用

大語言模型（LLM）的微調對於多種自然語言處理任務至關重要。然而，傳統的微調方法需要更新模型的所有引數，這不僅計算成本高昂，也耗費大量記憶體。為瞭解決這些問題，PEFT（Parameter-Efficient Fine-Tuning）技術應運而生。

PEFT 的優勢

PEFT 的美妙之處在於其簡單性。你可以輕鬆地利用相同的預訓練 LLM 來處理多個任務，只需在現有模型上新增少量的訓練權重即可。這意味著你不必為每個新任務更換整個模型，從而節省時間和計算資源。

總的來說，PEFT 方法使你能夠在保持與全引數微調相當的效能的同時，大幅減少可訓練引數的數量。透過 PEFT，我們可以在計算效率、模型可移植性和效能之間取得平衡，為利用大語言模型處理多樣任務開闢新的可能性。

使用 LoRA 微調 LLM 進行問答任務

在本文中，我們將透過一個練習來微調 LLM（Flan-T5-XXL），使用一種名為 LoRA（Low-Rank Adaptation）的 PEFT 技術。微調 LLM 的目標是提取準確且無幻覺的醫學研究資料集的長答案。

LoRA 的工作原理

LoRA 的主要思想是使用較小的矩陣（稱為更新矩陣）來表示權重更新，這些更新矩陣是透過低秩分解獲得的（如圖 6-12 所示）。透過將權重更新分解為這些較小的矩陣，我們可以在保持整體變化較低的同時，使模型適應新資料。原始的預訓練權重保持凍結和不變，保留了預訓練過程中捕捉的知識。

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title 大語言模型提示微調策略

package "LLM 提示與微調策略" {
    package "提示工程" {
        component [少量樣本提示] as fewshot
        component [思維鏈提示] as cot
        component [逐步推理] as stepwise
    }

    package "模型微調" {
        component [全量微調] as full
        component [PEFT 技術] as peft
        component [LoRA 微調] as lora
    }

    package "應用場景" {
        component [情緒分析] as sentiment
        component [個人化行銷] as marketing
        component [任務適應] as adapt
    }
}

fewshot --> cot : 增強推理
cot --> stepwise : 逐步展示
stepwise --> full : 需要微調
full --> peft : 效率最佳化
peft --> lora : 低秩適應
lora --> sentiment : 特定任務
sentiment --> marketing : 商業應用
marketing --> adapt : 領域適應

note right of fewshot
  提示工程優勢：
  - 快速原型設計
  - 無需訓練資料
  - 輕量級最佳化
end note

note right of lora
  LoRA 技術：
  - 低秩矩陣分解
  - 降低計算成本
  - 減少記憶體需求
end note

@enduml

圖表翻譯： 此圖示展示了 LoRA 微調過程中，如何利用低秩矩陣來更新原始預訓練權重的輸出啟動。原始權重保持凍結，而低秩矩陣（權重矩陣 A 和 B）則用於調整模型的輸出。

LoRA 的優勢

使用 LoRA，我們克服了與災難性遺忘相關的挑戰，這是在微調大語言模型時觀察到的現象。透過 LoRA，我們只微調少數模型引數，同時保持大部分預訓練引數凍結。這種方法防止了災難性遺忘，並使模型保留其生成高品質回應的能力。

LoRA 不僅具有計算效益，還在低資料環境下表現良好，並能更好地泛化到領域外場景。這意味著儘管訓練資料有限，LoRA 仍能產生可靠和準確的結果。此外，LoRA 可以應用於各種模態，例如影像分類別和穩定擴散夢想亭，使其成為多種應用的通用技術。

QLoRA：進一步最佳化 LoRA

QLoRA 在 LoRA 的基礎上進一步發展，透過量化介面卡（如圖 6-13 所示）。量化是一種將資料表示從較大可能值集合減少到較小離散值集合的過程。QLoRA 透過量化介面卡，使在記憶體和計算資源有限的裝置上微調 LLM 成為可能。

QLoRA 的創新之處

QLoRA 引入了三個關鍵步驟：

四位 NormalFloat 量化：這種方法改進了分位數量化，確保每個量化箱中的值數量相等，從而避免了計算問題和異常值的錯誤。
雙量化：QLoRA 採用了量化常數的量化，從而實作了額外的記憶體節省。
統一記憶體分頁：QLoRA 使用 NVIDIA 統一記憶體自動管理 CPU 和 GPU 之間的分頁傳輸，確保即使在 GPU 記憶體有限的情況下，也能實作無縫的 GPU 處理。

開始我們的第一次 PEFT 練習

我們將利用 Google Colab GPU 的計算能力來微調 LLM，使用 PEFT。首先，我們需要安裝必要的 Hugging Face 函式庫式庫，即 Transformers 和 Datasets。執行以下程式碼即可輕鬆安裝所有所需的套件。

# 安裝 Hugging Face 函式庫式庫
!pip install "peft==0.2.0"
!pip install "transformers==4.27.1" "datasets==2.9.0" "accelerate==0.17.1" "evaluate==0.4.0" "bitsandbytes==0.37.1" loralib --upgrade --quiet
# 安裝額外的依賴項以記錄訓練過程
!pip install rouge-score tensorboard py7zr

內容解密：

上述程式碼用於安裝必要的 Python 套件，以支援使用 PEFT 微調 LLM。首先，我們安裝了 peft、transformers、datasets、accelerate、evaluate 和 bitsandbytes 等關鍵套件。這些套件提供了 PEFT、模型載入、資料處理和評估等功能。接著，我們安裝了 rouge-score、tensorboard 和 py7zr 等額外的依賴項，用於記錄訓練過程和評估模型效能。這些步驟確保了我們擁有進行 LLM 微調所需的所有工具和函式庫式庫。