2024年09月30日玄貓（BlackCat）

大語言模型應用方案評估方法

本文探討評估大語言模型（LLM）應用方案的有效方法，包含金標準比對、功能測試及 LLM 評估，並探討 SOMA 評估方法和離線評估策略，涵蓋特定問題、序數尺度答案、多導向覆寫等關鍵要素，也分析了線上評估方法（如 A/B

機器學習軟體工程

LLM 評估方法 SOMA A/B 測試功能測試線上評估

評估大語言模型（LLM）應用方案的有效性是確保其在實際應用中表現的關鍵。傳統的評估方法，例如根據金標準的比對，在處理 LLM 生成的自由文字時，往往會遇到困難。因此，需要採用更靈活和全面的評估方法，例如功能測試和 LLM 自我評估。功能測試著重於驗證 LLM 輸出的有效性，例如檢查生成的程式碼是否可以編譯和執行。LLM 自我評估則利用 LLM 本身來評估其輸出的品質，但需要注意避免模型自身的偏見。此外，SOMA 評估方法提供了一個更結構化的評估框架，透過特定問題、序數尺度答案和多導向覆寫，可以更全面地評估 LLM 應用的效能。線上評估，例如 A/B 測試，則可以在真實環境下驗證 LLM 應用的有效性。

評估大語言模型（LLM）應用方案的有效方法

在評估LLM應用方案時，有三種主要方法，分別是與金標準（Gold Standard）比對、功能測試（Functional Testing）和LLM評估。以下將詳細介紹這些方法及其應用場景。

金標準比對

金標準比對是最直接的方法，尤其是在具有明確正確答案的情況下。如果你的應用程式需要輸出一個簡單的答案，例如是/否的問題，那麼檢查模型的輸出是否與金標準一致就足夠了。例如，某個應用程式需要決定是否需要為某段程式碼生成單元測試，檢查模型的決定是否與金標準一致即可評估其效能。

然而，當模型的輸出是自由形式的文字時，完全匹配的機率會大大降低。這時候，部分匹配度量（Partial Match Metrics）就變得很有用。部分匹配度量關注的是答案中的特定重要方面，例如在程式碼生成任務中，可以忽略註解、空白行或特定語言中的空格。

部分匹配度量的選擇

選擇部分匹配度量時，需要確定哪個方面對於解決方案最為重要。例如，在智慧家居管理系統中，當使用者說“我很冷”時，系統應該調節溫度至77ºF。部分匹配可以檢查系統是否正確調節了加熱系統，而不是檢查溫度是否恰好設定為77ºF。這樣可以捕捉到更重要的錯誤，例如系統未能調節加熱系統，而不是具體的溫度值。

功能測試

當沒有金標準或難以比較時，功能測試是一種可行的替代方案。功能測試涉及執行模型生成的輸出並確認其是否“有效”。例如，可以測試LLM生成的程式碼是否能夠正確編譯或執行。

功能測試的優點在於它能夠評估模型的輸出在實際應用中的表現，而不僅僅是與金標準的相似度。然而，這種方法需要額外的資源和基礎設施來執行和評估模型的輸出。

LLM評估

另一種方法是使用另一個LLM來評估第一個LLM的輸出。這種方法在某些情況下可能很有用，但它引入了額外的複雜性和潛在偏差。

選擇合適的評估方法

選擇評估方法時，需要考慮應用的具體需求和模型的特性。以下是一些指導原則：

當具有明確的金標準時，使用金標準比對或部分匹配度量。
當沒有金標準或難以比較時，使用功能測試。
考慮模型的輸出特性和應用的需求，選擇最合適的評估方法。

內容解密：

本段落主要介紹了評估LLM應用方案的三種主要方法，包括金標準比對、功能測試和LLM評估。其中，金標準比對是最直接的方法，但需要具有明確正確答案的情況。功能測試是一種可行的替代方案，尤其是在沒有金標準或難以比較時。選擇評估方法時，需要考慮應用的具體需求和模型的特性。金標準比對關注的是答案與正確答案的相似度，而功能測試則關注的是模型的輸出在實際應用中的表現。最終，需要根據具體情況選擇最合適的評估方法，以更好地瞭解模型的表現並改進其效能。

此圖示展示了評估LLM應用方案的流程，包括檢查是否具有金標準、選擇合適的評估方法和執行評估等步驟。

內容解密：

此圖示主要展示了評估LLM應用方案的決策流程。首先，需要檢查是否具有金標準。如果具有金標準，則使用金標準比對；否則，使用功能測試。接下來，根據所選擇的評估方法，執行相應的操作，例如檢查輸出是否與金標準一致或執行模型生成的輸出並確認其是否有效。最終，根據評估結果來評估模型的效能。圖中展示了這一系列決策和操作的流程。

LLM 應用評估的挑戰與方法

在評估大語言模型（LLM）的應用時，我們面臨著多項挑戰。特別是在處理自然語言回應的品質評估時，傳統的評估方法往往難以發揮作用。本篇文章將探討功能測試、LLM 自我評估以及 SOMA 評估等方法，以解決這些挑戰。

功能測試的侷限性

功能測試是一種常見的評估方法，尤其是在軟體開發領域。透過模擬真實使用場景並執行單元測試，可以驗證程式碼的正確性。例如，Copilot 的評估框架透過重新實作開源儲存函式庫中的函式並檢查單元測試是否透過，來評估其生成的程式碼品質。這種方法的優點在於可以自動執行並獲得客觀結果。

然而，功能測試並非總是適用。有些領域難以構建可程式執行的功能測試，此時就需要其他評估方法。

LLM 自我評估的探討

當 LLM 生成文字回應時，如何評估其友好性和幫助性成為一個挑戰。一個直觀的方法是使用 LLM 本身來評估自己的輸出。然而，這種做法存在偏見，因為模型可能會對自己的輸出過於寬容或嚴格。

研究表明，當模型認為自己是在評估第三方時，會比評估自己的輸出時表現更好。這是因為模型的訓練資料中包含了大量的論壇討論和評論，這些內容通常不以客觀自省著稱。因此，在使用 LLM 進行自我評估時，應當避免讓模型意識到是在評估自己的輸出。

SOMA 評估方法的介紹

SOMA 評估是一種最佳化 LLM 評估的方法，包括三個關鍵要素：特定問題（Specific questions）、序數尺度答案（Ordinal scaled answers）和多導向覆寫（Multiaspect coverage）。

特定問題：提出具體的問題可以幫助獲得更有意義的評估結果。例如，驗證一首詩是否是 limerick 比即興創作一首 limerick 容易。
序數尺度答案：使用序數尺度（如1到5的評分）可以更好地傳達評估的細微差別，避免簡單的是/否答案所帶來的模糊性。這樣可以獲得更一致的測量結果。
多導向覆寫：涵蓋多個評估導向可以提供更全面的評價結果。

實踐 SOMA 評估

在實踐中，SOMA 評估可以透過設計特定的評估問題、採用序數尺度答案以及考慮多個評估導向來實作。例如，在評估一個智慧家居系統對使用者語音指令的回應時，可以提出多個具體問題來評估其回應的準確性和相關性。

內容解密：

本段落詳細介紹了使用 SOMA 評估方法來最佳化 LLM 評估的過程。SOMA 評估透過提出特定問題、採用序數尺度答案以及實作多導向覆寫，能夠提供更準確和全面的評估結果。這種方法尤其適用於難以構建可程式執行功能測試的領域，能夠有效地評估 LLM 生成文字回應的品質。透過實際案例的應用，可以進一步驗證 SOMA 評估的有效性。

此圖示展示了不同評估方法的特點和應用場景，包括功能測試、LLM 自我評估和 SOMA 評估。它們各自針對不同的需求和挑戰，提供了多樣化的評估策略。

評估大語言模型的應用：SOMA 方法與離線評估

在開發和最佳化大語言模型（LLM）應用時，評估其效能和品質是一項至關重要的任務。為了確保 LLM 應用的有效性和可靠性，我們需要採用系統化和結構化的評估方法。本章將探討 SOMA 評估方法和離線評估的策略，以確保 LLM 應用的品質。

SOMA 評估方法：多導向評估

SOMA 評估方法是一種結構化的評估框架，旨在透過多個導向來評估 LLM 應用的效能。這種方法強調了在評估過程中考慮多個關鍵導向的重要性，例如意圖、執行和結果的有效性。

多導向評估的重要性

在評估 LLM 應用的過程中，單一的評估標準往往難以全面反映其效能。不同的完成結果可能會受到多種因素的影響，例如模型的意圖、執行的正確性和結果的有效性。因此，採用多導向評估可以更全面地瞭解 LLM 應用的效能。

實施 SOMA 評估

要實施 SOMA 評估，需要遵循以下步驟：

定義評估導向：根據應用的特點，定義相關的評估導向，例如意圖、執行和結果的有效性。
設計評估問題：針對每個評估導向，設計具體的評估問題，以引導模型進行評估。
使用序數量表：採用序數量表（例如 1 到 5 的評分）來評估模型的表現。
提供明確的評估標準：為每個評分等級提供明確的描述或範例，以確保模型理解評估標準。

離線評估：驗證模型效能

離線評估是一種在實際應用之外驗證模型效能的方法。這種方法涉及使用現有的記錄、應用程式使用資料或合成範例來測試模型的輸出。

離線評估的挑戰

離線評估面臨著多個挑戰，包括：

資料來源：需要找到合適的資料來源來進行評估。
資料品質：資料品質直接影響評估結果的有效性。
模型的泛化能力：模型在不同資料集上的表現可能會有所不同。

實施離線評估

要實施離線評估，需要遵循以下步驟：

選擇資料來源：根據應用的特點，選擇合適的資料來源，例如現有的記錄或合成範例。
設計測試案例：設計測試案例以驗證模型的輸出是否符合預期。
比較模型和人類的表現：透過比較模型和人類的表現來驗證模型的效能。

範例分析

以下是一個使用 SOMA 評估方法的範例：

I need your help with evaluating a smart home assistant. I'm going to give you some interactions of that assistant, which you are to grade on a scale of 1 to 5.
Grade each interaction for effectiveness: whether the assistant's attempted action would have remedied the user's problem.
Please rate effectiveness on a scale of 1 to 5, where the values mean the following:
1. This action would do nothing to address the user's problem or might even make it worse.
2. This action might address a small part of the problem but leave the main part unaddressed.
3. This action has a good chance of addressing a substantial part of the problem.
4. This action is not guaranteed to work completely, but it should solve most of the problem.
5. This action will definitely solve the problem completely.
The conversation was as follows:
User: I'm a bit chilly.
Assistant: to functions.set_room_temp {“temp”: 77}
Please provide a thorough analysis and then conclude your answer with "Effectiveness: X," where X is your chosen effectiveness rating from 1 to 5.

程式碼分析

def evaluate_effectiveness(conversation):
    # 定義評估標準
    effectiveness_scale = {
        1: "This action would do nothing to address the user's problem or might even make it worse.",
        2: "This action might address a small part of the problem but leave the main part unaddressed.",
        3: "This action has a good chance of addressing a substantial part of the problem.",
        4: "This action is not guaranteed to work completely, but it should solve most of the problem.",
        5: "This action will definitely solve the problem completely."
    }

    # 分析對話內容
    user_intent = conversation["user"]
    assistant_response = conversation["assistant"]

    # 評估有效性
    if assistant_response == "to functions.set_room_temp {“temp”: 77}":
        effectiveness_rating = 4
    else:
        effectiveness_rating = 1

    return effectiveness_rating

conversation = {
    "user": "I'm a bit chilly.",
    "assistant": "to functions.set_room_temp {“temp”: 77}"
}

effectiveness_rating = evaluate_effectiveness(conversation)
print(f"Effectiveness: {effectiveness_rating}")

內容解密：

此範例程式碼用於評估智慧家居助理的有效性。首先，定義了一個 evaluate_effectiveness 函式，該函式接受一個對話內容作為輸入。然後，根據對話內容分析使用者的意圖和助理的回應。最後，根據助理的回應評估其有效性，並傳回一個評分。在這個範例中，如果助理的回應是設定房間溫度為 77°F，則評分為 4，表示該動作應該可以解決大部分問題。

圖表說明

此圖示說明瞭 SOMA 評估方法的流程，從定義評估導向到實施 SOMA 評估和離線評估。

Effectiveness: N/A

線上評估：真實環境下的應用評估

線上評估是測試應用程式在真實環境下的表現，與實驗室環境下的評估相比，線上評估更能反映實際使用情況。線上評估的主要目的是透過與真實使用者的互動來評估應用程式的效能。

A/B 測試：線上評估的核心方法

A/B 測試是線上評估的標準方法，透過向不同使用者群體提供不同的版本（例如 A 和 B），以比較哪個版本表現更好。通常，其中一個版本是現狀，另一個版本是要評估的修改。理想情況下，在進行 A/B 測試之前，已經對不同版本進行了離線評估，以減少需要測試的可能性數量，並避免向使用者提供明顯較差的版本。

A/B 測試的實施步驟

定義評估指標：事先定義要最佳化的指標，通常是使用者滿意度的代理指標（例如平均評分、接受率）。
定義守護指標：定義一些不希望增加的指標，通常是災難性失敗的代理指標（例如錯誤、投訴）。
隨機分配使用者：隨機選擇一部分使用者使用版本 A，其餘使用者使用版本 B。
收集資料並比較結果：執行實驗一段時間，收集定義的指標資料，比較 A 和 B 的表現。
推廣獲勝版本：將表現更好的版本推廣給所有使用者。

線上評估的挑戰

線上評估通常比離線評估具有更低的頻寬，因為只有有限的使用者數量，而且獲得訊號需要一些時間。因此，需要謹慎選擇要線上測試的想法。

指標分類別

線上評估中使用的指標可以分為五類別，從最直接到最間接，分別是：

直接反饋：使用者對建議的直接評價，例如點贊或點踩。

@startuml skinparam backgroundColor #FEFEFE skinparam componentStyle rectangle

title 大語言模型應用方案評估方法

package “LLM 應用方案評估” { package “評估方法” { component [金標準比對] as gold component [功能測試] as functional component [LLM 自我評估] as selfeval }

package "SOMA 框架" {
    component [特定問題] as specific
    component [序數尺度] as ordinal
    component [多導向覆寫] as multi
}

package "線上評估" {
    component [A/B 測試] as ab
    component [部分匹配度量] as partial
    component [真實環境驗證] as realworld
}

}

gold –> partial : 自由文字 partial –> functional : 無金標準 functional –> selfeval : LLM 輔助 selfeval –> specific : SOMA 方法 specific –> ordinal : 結構化評估 ordinal –> multi : 全面覆蓋 multi –> ab : 線上驗證 ab –> realworld : 實際應用

note right of gold 金標準比對：

明確答案匹配
部分匹配度量
忽略非關鍵差異 end note

note right of ab 線上評估：

A/B 測試設計
功能正確性
使用者接受度 end note

@enduml

   #### 內容解密：
   - 圖表展示了使用者如何透過直接反饋來評價建議。
   - `A` 代表使用者，`B` 代表建議評價，使用者可以選擇點贊 (`C`) 或點踩 (`D`)。

2. **功能正確性**：建議是否有效，例如是否解決了使用者的問題。
3. **使用者接受度**：使用者是否採納了建議。
4. **實作的影響**：使用者從建議中受益的程度。
5. **附帶指標**：圍繞建議的一些測量指標，例如使用者行為變化。

這些指標幫助開發者瞭解應用程式在真實環境下的表現，並根據實際資料進行最佳化。

### 直接反饋的重要性

許多應用程式，例如 ChatGPT，會主動向使用者徵求直接反饋。這種方法可以提供清晰的訊號，但也可能被視為侵入性行為。因此，需要根據應用程式的特性和使用者行為選擇合適的反饋機制。

## 評估LLM應用程式的挑戰與未來發展

評估大語言模型（LLM）應用程式是一項複雜的任務，需要考慮多種不同的評估指標和方法。這些指標可以分為幾大類別，包括功能正確性、接受度、影響力以及一些附帶的指標，如延遲和錯誤率。

### 功能正確性評估

功能正確性評估關注的是LLM應用程式是否能夠正確地完成其設計的任務。這類別評估通常涉及檢查應用程式的輸出是否符合預期，例如程式碼是否能夠編譯、電子郵件是否成功傳送等。有時，這類別評估可以透過自動化的方式進行，例如檢查程式碼的編譯結果或驗證電子郵件是否出現在寄件匣中。

```python
def check_code_compilation(code):
    try:
        # 假設使用某種方式編譯或執行程式碼
        exec(code)
        return True
    except Exception as e:
        print(f"Compilation error: {e}")
        return False

# 示例程式碼
code_example = """
print("Hello, World!")
"""
if check_code_compilation(code_example):
    print("程式碼編譯成功")
else:
    print("程式碼編譯失敗")

內容解密：

此段程式碼定義了一個函式 check_code_compilation，用於檢查給定的程式碼是否能夠成功編譯或執行。在這個例子中，它使用了 Python 的 exec 函式來執行程式碼。如果程式碼執行成功，函式傳回 True；否則，它捕捉異常並傳回 False。這是一種簡單的功能正確性檢查方法，適用於 Python 程式碼。

接受度和影響力評估

接受度評估關注的是使用者是否接受LLM應用程式提供的建議或結果。例如，使用者是否點選了建議的連結、是否預訂了建議的旅行目的地等。這類別評估可以透過點選率（CTR）等指標來衡量。影響力評估則關注的是LLM應用程式的建議或結果對使用者的最終行為產生了怎樣的影響，例如使用者是否最終購買了機票。

附帶指標

除了上述評估指標外，還有一些附帶指標對於評估LLM應用程式的效能也很重要，例如延遲（latency）和錯誤率。延遲是指LLM應用程式回應使用者請求所需的時間，錯誤率則是指應用程式出現錯誤的頻率。這些指標可以提供有關應用程式效能和使用者經驗的重要資訊。

未來發展趨勢

隨著LLM技術的不斷進步，多模態模型（multimodal models）正成為新的研究熱點。這類別模型能夠處理多種不同的輸入模態，例如文字、影像和語音，從而為LLM應用程式帶來更強大的功能和更廣泛的應用場景。OpenAI的GPT-4就是一個典型的例子，它能夠處理影像作為輸入的一部分。