2025年12月13日玄貓（BlackCat）

大語言模型 RLHF 與 PPO 訓練及應用

本文探討大語言模型（LLM）的 RLHF 與 PPO 訓練技術，並結合實際應用案例，展示如何利用 PPO 最佳化技術提升模型效能，以及如何建構 LLM 展示應用。文章涵蓋模型訓練、儲存、評估、公平性與偏差稽核、對抗性測試、迭代改進、獎勵建模透明度等方面，並提供程式碼範例說明如何使用 Hugging Face API

機器學習 Web 開發

大語言模型 RLHF PPO Hugging Face API 網頁內容擷取

大語言模型（LLM）的訓練日益倚重強化學習與人類反饋（RLHF），而 PPO（Proximal Policy Optimization）作為一種高效的訓練技術，能有效提升模型生成正面評價的能力。實務上，透過 PPO 訓練，模型的獎勵得分顯著提升，代表模型更能理解並生成符合人類期望的內容。訓練後的模型可以儲存至本地或 Hugging Face 平台，方便後續使用和持續改進。除了模型訓練，評估獎勵模型的公平性也至關重要。建立多維度獎勵指標，例如事實準確性、倫理合理性和使用者滿意度，能更全面地評估模型的回應品質。此外，透過公平性稽核、對抗性測試和迭代改進，可以持續修正模型偏差，確保模型輸出符合預期。在實際應用中，LLM 可用於建構各種展示應用，例如智慧問答系統和個人化推薦系統。開發者可以選擇合適的 LLM 佈署方式，例如根據 API 的方案，並考量資料隱私和模型規模等因素。透過網頁內容擷取技術，可以從網站取得資料，並利用 LLM 進行內容摘要、問答、資訊檢索等應用。

進階技術在大語言模型中的應用：RLHF 與 PPO 訓練

在大語言模型（LLM）的訓練過程中，強化學習與人類反饋（RLHF）扮演著至關重要的角色。本章節將探討如何利用 PPO（Proximal Policy Optimization）訓練技術來最佳化語言模型，使其能夠生成更符合人類期望的正面評價。

利用 PPO 最佳化技術提升模型效能

實驗結果表明，PPO 最佳化技術顯著提升了模型的獎勵得分，這意味著經過調優的模型在生成正面評價方面表現更佳。

儲存模型以供後續使用

將調優後的模型儲存於本地或推播至 Hugging Face 平台，以便於後續的使用與改進。

updated_model.save_pretrained("gpt2-yelp-pos-v2")
updated_tokenizer.save_pretrained("gpt2-yelp-pos-v2")

內容解密：

這段程式碼展示瞭如何將訓練好的模型及其對應的 tokenizer 儲存到本地指定目錄中。其中，save_pretrained 方法用於儲存模型的權重和組態，而 gpt2-yelp-pos-v2 則是指定儲存模型的目錄名稱。這樣的儲存方式便於模型的版本管理和後續的載入使用。

評估與確保獎勵模型的公平性

在 RLHF 框架中，獎勵模型的客觀性和公平性對於引導 LLM 的行為至關重要。本文將討論如何確保獎勵模型的公平性。

多維度獎勵指標的建立

為避免單一反饋指標的侷限性，建議採用多維度的獎勵系統，以全面評估回應的品質。

# 定義多維度獎勵指標
def reward_metric(response):
    # 評估指標包括事實準確性、倫理合理性和使用者滿意度等
    factual_accuracy = evaluate_factual_accuracy(response)
    ethical_soundness = evaluate_ethical_soundness(response)
    user_satisfaction = evaluate_user_satisfaction(response)
    # 將各維度評估結果整合為綜合獎勵指標
    overall_reward = combine_metrics(factual_accuracy, ethical_soundness, user_satisfaction)
    return overall_reward

內容解密：

這段程式碼展示瞭如何定義一個多維度的獎勵指標函式 reward_metric。該函式透過評估回應的事實準確性、倫理合理性和使用者滿意度等多個維度，最終計算出一個綜合的獎勵值。這種多維度的評估方式能夠更全面地反映回應的品質，從而引導模型生成更高品質的內容。

公平性與偏差稽核

利用專門的工具和技術對獎勵模型進行稽核，以檢測和衡量潛在的偏差。

採用人口統計學平等和均衡賠率等公平性指標來評估獎勵模型。
使用 AI Fairness 360 或 Fairlearn 等工具系統地發現偏差。

對抗性測試

定期使用具有挑戰性的案例對獎勵模型進行測試，以揭示潛在的偏差或失敗。

開發模擬潛在邊緣案例或失敗點的對抗性樣本。
將這些對抗性樣本納入定期的壓力測試中。

迭代改進與重新訓練

採用迭代方法，不斷根據新的資料更新獎勵模型，尤其是那些突出了先前偏差或錯誤的資料。

定期收集新的人類反饋，以提供新的訓練資料。
增量式地重新訓練獎勵模型，以適應不斷演變的標準和社會規範。

獎勵建模的透明度

確保獎勵模型的決策過程是透明的，以便於理解和審查其行為。

使用 SHAP 或 LIME 等模型解釋工具來理解影響獎勵模型輸出的因素。
記錄所有與資料企劃和獎勵指標相關的決策，使過程可稽核和透明。

進階技術的實踐應用：建構大語言模型展示應用

在前面的章節中，我們已經探討了大語言模型（LLMs）的基礎知識、自然語言生成任務，以及提升LLM效能的進階技術。本章節將著重於LLM的實際應用，探索如何將這些強大的模型整合到真實世界的應用中，以建構令人印象深刻且互動的展示應用。透過本章節的學習，您將掌握建立能夠有效解決各種商業問題的展示應用的知識和技能。讓我們深入探索，並釋放LLMs在建構吸引人且實用的展示應用中的潛力。

選擇合適的LLM佈署方式

在前面的章節中，我們學習瞭如何在本地下載和使用LLM。這需要一定的計算資源和GPU來進行推理，尤其是當模型規模龐大，擁有數十億引數時。本章節中，我們還將探討根據API的選項來生成LLM的輸出。這種方法對於展示應用來說更加簡便，因為它不需要載入模型的計算資源。然而，如果您使用的是付費LLM服務，這可能會產生按使用量計費的成本。此外，您還需要考慮資料隱私問題，因為您的資料將被傳送到伺服器進行推理。

另一個需要考慮的因素是模型的規模。模型的規模越大，輸出的效果通常越好，但您可能會面臨載入具有1760億引數的大型模型的資源限制。然而，在特定任務上進行微調的小型模型有時也能表現出色。因此，在計劃建立根據LLM的應用時，您需要綜合考慮所有這些因素。

網站內容的智慧化處理

當將LLM應用於網站內容時，它可以發揮多種有價值的功能。以下是一些例子：

內容摘要：LLM擅長自動生成長篇文章、部落格或新聞故事的簡短摘要。這樣，您無需閱讀整篇文章，即可快速瞭解主要內容。
問答功能：您可以向LLM提問關於網站內容的問題，它將深入文字，找到相關資訊，並以自然語言提供準確的答案。
特定資訊檢索：需要在網站上查詢特定資訊？LLM也可以提供幫助。只需提出您的查詢，它就會篩選內容，檢索出您想要的精確資訊。這就像擁有自己的高效、超級智慧的搜尋助手。
個人化推薦：透過瞭解網站內容和您的偏好，LLM可以提供個人化的推薦。不論是相關文章、部落格還是產品，它都旨在提升您的體驗，保持您的參與度。
情緒分析：您是否曾想了解網站上文章、評論或討論的整體情緒？LLM可以分析內容中表達的情緒，幫助您理解所涉及的語氣和情感。
語言翻譯：如果網站提供多種語言的內容，LLM可以幫助即時翻譯。這意味著您可以毫無障礙地以您偏好的語言存取資訊。
文字生成：LLM擅長根據網站內容生成連貫且相關的文字。當您需要補充內容、摘要或描述時，此功能非常有用。

這些只是LLM如何為網站內容帶來變革的幾個例子。可能性是無窮的，您可以根據網站的目標和需求量身定製特定的使用案例。總之，這一切都是為了提升使用者經驗、自動化任務，並提取有價值的洞察。

利用大語言模型（LLM）從網站內容中提取洞察的應用程式開發

資料抓取（Data Scraping）

開發能夠從網站內容中提取洞察的應用程式的第一步是抓取網站內容。我們將使用 BeautifulSoup 函式庫來抓取和清理內容。

程式碼實作

import requests
import re
from bs4 import BeautifulSoup
import json

# 指定要抓取的網址
url_to_scrape1 = 'http://downloadcenter.samsung.com/content/PM/202001/20200128062847846/EB/ATT_G970U_G973U_G975U_EN_FINAL_200110/camera_d1e10944.html'

# 傳送 GET 請求
response = requests.get(url_to_scrape1)

# 解析 HTML 內容
soup = BeautifulSoup(response.content, 'html.parser')
guide_contents_div = soup.find('div', id='guide_contents')

# 提取文字內容
context_doc = guide_contents_div.get_text(strip=True)

# 清理提取的內容
clean_context = re.sub(r'[^a-zA-Z0-9.]', ' ', context_doc)

內容解密：

匯入必要的函式庫：requests 用於傳送 HTTP 請求，BeautifulSoup 用於解析 HTML，re 用於正規表示式操作，json 用於處理 JSON 資料。
指定目標網址：我們選擇了三星下載中心的一個手冊頁面作為範例。
傳送 GET 請求：使用 requests.get() 方法取得網頁內容。
解析 HTML：透過 BeautifulSoup 解析 HTML 內容，並找到 id 為 guide_contents 的 <div> 元素。
提取文字內容：使用 get_text() 方法提取 guide_contents_div 中的文字，並去除前後空白。
清理內容：利用正規表示式替換非字母、數字和句點的字元為空格，以清理提取的內容。

問答系統（Question-answering）

在成功抓取網站內容後，我們可以利用這些內容來建立問答系統。這裡採用的是上下文學習（in-context learning）的方法，而不是微調（fine-tuning）大語言模型（LLM）。

程式碼實作

# 定義問題
question1 = 'What are the advanced recording options available in my device camera?'

def generate_model_output(context, question):
    # 限制上下文長度在 700 字以內
    words = context.split()[:700]
    clean_words_joined = ' '.join(words)
    context = clean_words_joined
    
    # 組裝輸入給模型的字串
    model_input = f"Answer the question based on the context below. Context: {context} Question: {question}"
    
    # 準備 API 請求資料
    json_data = {
        "inputs": model_input,
        "parameters": {
            'temperature': 0.5,
            'max_new_tokens': 100,
            'return_full_text': False
        }
    }
    
    API_URL = "https://api-inference.huggingface.co/models/bigscience/bloom"
    headers = {"Authorization": "Bearer hf_XXXXXXX"}
    
    # 傳送請求到 Hugging Face API
    response = requests.post(API_URL, headers=headers, json=json_data)
    json_response = json.loads(response.content.decode("utf-8"))
    model_output = json_response[0]['generated_text']
    
    return model_output

內容解密：

定義問題：我們提出了一個關於裝置相機進階錄製選項的問題。
generate_model_output 函式：該函式接收上下文和問題作為輸入，並生成模型的輸出。
限制上下文長度：擷取前 700 個單詞以符合模型輸入限制。
組裝模型輸入：將上下文和問題組合成特定的格式，以便模型理解。
準備 API 請求：設定請求的 JSON 資料，包括輸入文字和引數（如溫度、最大新 token 數等）。
傳送請求到 Hugging Face API：使用 requests.post() 方法傳送請求，並處理回應以取得模型的輸出。

使用Hugging Face API生成模型輸出與網頁內容擷取技術詳解

模型輸出生成技術解析

本章節探討如何利用Hugging Face API生成模型輸出，透過給定的上下文和問題產生適當的回答。以下程式碼片段展示了generate_model_output(context, question)函式的實作細節。

程式碼解析

# 定義函式以生成模型輸出
def generate_model_output(context, question):
    # 限制上下文長度至700個單詞以內
    words = context.split()[:700]
    clean_words_joined = ' '.join(words)
    context = clean_words_joined
    
    # 建構模型輸入字串
    model_input = f"根據以下上下文回答問題。{context} 問題：{question}"
    json_data = {
        "inputs": model_input,
        "parameters": {
            "temperature": 0.7,
            "max_new_tokens": 200,
            "return_full_text": False
        }
    }
    
    # 設定Hugging Face API端點URL和授權標頭
    API_URL = "https://api-inference.huggingface.co/models/bigscience/bloom"
    headers = {"Authorization": "Bearer YOUR_API_TOKEN"}
    
    # 傳送POST請求至Hugging Face API
    response = requests.post(API_URL, headers=headers, json=json_data)
    
    # 解析API回應
    json_response = json.loads(response.content.decode("utf-8"))
    model_output = json_response[0]['generated_text']
    
    return model_output

# 使用函式生成模型輸出
context = clean_context
question = question1
model_output = generate_model_output(context, question)

內容解密：

上下文處理：首先將上下文分割成單詞，並限制在700個單詞以內，以控制輸入長度。
模型輸入建構：結合上下文和問題，建構出模型輸入字串，並將其與其他引數（如溫度、最大新token數等）組織成JSON資料。
API請求：向指定的Hugging Face API端點傳送POST請求，包含模型輸入和引數。
回應處理：解析API回應，提取生成的文字輸出。

網頁內容擷取技術詳解

本章節介紹如何從網頁中擷取文章內容，並進行摘要。以下程式碼展示了網頁內容擷取的實作步驟。

程式碼解析

import requests
from bs4 import BeautifulSoup

# 指定要擷取的文章URL
url = "https://shivamsolanki.net/posts/Tuning-LLMs/"

# 傳送GET請求以取得HTML內容
response = requests.get(url)
html_content = response.text

# 解析HTML內容
soup = BeautifulSoup(html_content, "html.parser")

# 擷取所有段落標籤內的文字內容
paragraphs = soup.find_all("p")
passages = [p.get_text(strip=True) for p in paragraphs if len(p.get_text(strip=True)) >= 100]

# 合併段落直到總長度達到指定限制
combined_passage = ""
for passage in passages:
    if len(combined_passage) + len(passage) <= 2000:
        combined_passage += passage + " "
    else:
        break

print("合併後的段落：", combined_passage)

內容解密：

匯入必要函式庫：使用requests函式庫傳送HTTP請求，使用BeautifulSoup解析HTML內容。
傳送GET請求：向指定URL傳送GET請求，取得網頁的HTML內容。
解析HTML內容：利用BeautifulSoup解析HTML，擷取所有段落標籤內的文字內容。
合併段落：將擷取的段落合併，直到總長度達到指定限制（2000字元）。

結合模型輸出與網頁內容擷取的應用

結合上述兩項技術，可以開發出多種應用，如：

客戶支援助理：利用模型輸出功能快速搜尋答案，並提供有價值的資訊給客戶。
聊天機器人：當客戶存取支援頁面時，可以彈出聊天視窗，直接回答客戶的問題。

這些應用展示了自然語言生成（NLG）技術在實際場景中的潛力。未來可以透過調整輸入提示、選擇不同的模型或微調模型引數等方式進一步擴充套件和最佳化這些應用。