2024年05月17日玄貓（BlackCat）

機器學習模型選擇與評估策略

本文探討機器學習模型選擇策略，比較端對端模型與簡化模型的優劣，並提供實務建議。文章涵蓋模型評估指標、效能最佳化、資料分佈變化影響、新鮮度需求及速度考量，並輔以程式碼範例說明如何評估模型執行效率與計算點選率等指標。此外，也強調領域專業知識、探索性資料分析及參考現有解決方案的重要性。

機器學習軟體開發

模型選擇模型評估效能指標機器學習模型端對端模型啟發式方法

在機器學習專案中，選擇合適的模型至關重要。端對端模型雖具吸引力，但實務上常面臨資料量、資源需求及維護複雜度等挑戰。簡化模型則可透過手動解決問題，逐步理解自動化流程，並從中提取關鍵特徵。更務實的做法是從簡化模型出發，逐步匯入機器學習模型提升效能，例如先以啟發式規則建立基準模型，再利用分類別器區分好壞文字，逐步提升模型複雜度。這種漸進式方法易於取得資料、解釋模型，且延遲較低。考量模型的信心度，例如僅在信心度高於特定閾值時才提供建議，也是實務上的重要策略。

簡單卻有效的模型選擇與實施策略

在開發機器學習（ML）模型時，我們經常面臨一個重要的決策：是採用複雜的端對端（end-to-end）模型，還是選擇較簡單、更易理解的模型？本篇文章將探討這個問題，並提供一些實用的建議。

端對端模型的挑戰

端對端模型雖然在理論上很有吸引力，但實際上卻面臨著許多挑戰。首先，這種模型需要大量的資料和工程資源，而且成功率並不保證。其次，端對端模型的複雜性會增加維護的負擔，並可能降低團隊的工作效率。

簡單方法的優勢

與端對端方法相對的是「簡單方法」。這種方法不是直接使用機器學習模型，而是先嘗試手動解決問題，以瞭解如何自動化這個過程。例如，在改善問題的可讀性和獲得答案的機率時，我們可以先手動編輯問題，以瞭解哪些因素是重要的。

簡單方法的實施步驟

定義良好的寫作風格：參考現有的研究和專業編輯的建議，制定出一套評估文字品質的標準。
提取有用的特徵：從資料中提取出有用的特徵，例如：
- 陳述式簡潔性：使用簡單的詞彙和句子結構。
- 語氣：衡量副詞、最高階和標點符號的使用，以評估文字的極性。
- 結構特徵：提取重要的結構屬性，例如問候語或問號的使用。
建立簡單的解決方案：使用提取的特徵建立一個簡單的解決方案，提供文字改進的建議。

中間道路：從經驗中學習

在建立了簡單的解決方案之後，我們可以進一步使用機器學習模型來提高文字品質的評估。具體步驟如下：

收集資料集：收集「好」和「壞」文字的資料集。
提取特徵：從資料集中提取前面提到的特徵。
訓練分類別器：訓練一個分類別器來區分好文字和壞文字。
評估和改進：評估模型的表現，並根據需要進行改進。

中間道路的優勢

資料集更容易獲得：不需要存取同一問題的不同版本，只需要一組好和壞的例子。
模型更容易解釋：透過檢查模型的特徵重要性，可以瞭解哪些屬性對分類別結果有重要影響。
延遲較低：大多數文字分類別器都非常快速，可以在不到十分之一秒的時間內傳回結果。

Monica Rogati 的建議

Monica Rogati 是一位在機器學習領域具有豐富經驗的專家。她建議在設計和執行機器學習產品時，應優先考慮以下事項：

從簡單的方法開始：不要一開始就使用複雜的機器學習模型，而是先嘗試簡單的方法。
考慮模型的信心度：根據模型的信心度來制定建議，例如，當信心度超過 90% 時，才呈現建議。

機器學習專案成功的關鍵要素

在機器學習（ML）專案中，成功的關鍵不僅在於模型的準確度，還包括對專案整體流程的全面理解與把控。根據業界專家的經驗，本文將探討如何判斷專案的可行性、選擇合適的方法、以及識別專案中的瓶頸。

評估專案可行性與選擇方法

在啟動一個ML專案之前，首先需要評估其可行性並選擇一個合適的方法。這通常涉及判斷是否能夠取得足夠的資料，以及選擇適合的模型或演算法。常見的ML正規化包括分類別、知識提取、目錄組織和生成式模型等。

分類別正規化

分類別是一種常見的監督式學習方法，適用於許多實際應用場景。例如，在開發一個推薦系統時，可以使用分類別模型來預測使用者可能感興趣的內容。

識別專案中的瓶頸

在ML專案中，找到影響專案成功的瓶頸至關重要。這通常需要對整個流程進行深入分析，而不僅僅是關注模型的準確度。以下是一些識別和解決瓶頸的方法：

簡化模型進行測試：將複雜的模型替換為簡單的模型，以測試整個流程是否正常運作。這有助於找出問題的根源。
評估最壞情況下的表現：建立一個簡單的基準模型（strawman baseline），用於評估最壞情況下的表現。例如，在推薦系統中，可以簡單地推薦使用者之前最常執行的操作。
撰寫假想的新聞稿：在啟動專案之前，先撰寫一份假想的新聞稿，描述專案成功的情景。這有助於更清楚地理解專案的目標和預期成果。

選擇適當的建模技術

選擇合適的建模技術是ML專案成功的關鍵。以下是一些實用的建議：

親自檢視資料：直接檢視輸入和輸出的資料，可以幫助發現潛在的問題和改進的方向。

# 示例：檢視資料的前幾行
import pandas as pd
data = pd.read_csv('data.csv')
print(data.head())
#### 內容解密：
這段程式碼用於讀取CSV檔案並顯示前幾行資料，以初步瞭解資料的內容和結構。
- `import pandas as pd`：匯入pandas函式庫並賦予別名pd，用於資料處理。
- `data = pd.read_csv('data.csv')`：讀取名為`data.csv`的檔案。
- `print(data.head())`：顯示資料的前幾行，預設為5行。

建立多樣化的團隊：具有多元化背景的團隊能夠更好地發現模型中的偏見和問題。

制定計劃

在前一章中，我們討論瞭如何評估機器學習（ML）是否必要，找出最合適的應用場景，並將產品目標轉換為最合適的ML框架。在本章中，我們將介紹如何使用指標來追蹤ML和產品的進展，並比較不同的ML實作方案。然後，我們將識別建立基準和規劃模型迭代的方法。

衡量成功

在機器學習中，我們建立的第一個模型應該是能夠滿足產品需求的最簡單模型，因為產生和分析結果是推動ML進展的最快方式。在前一章中，我們介紹了針對ML編輯器的三種潛在方法，這些方法的複雜度逐漸增加。以下簡要回顧：

基準（Baseline）：根據領域知識設計啟發式規則我們可以先定義一些規則，根據我們對什麼是寫得好的內容的先前知識。然後，我們將測試這些規則，看看它們是否有助於區分寫得好的文字和寫得差的文字。
簡單模型：將文字分類別為好或壞，並使用分類別器生成建議我們可以訓練一個簡單的模型來區分好問題和壞問題。如果模型表現良好，我們可以檢查它，看看哪些特徵被認為是預測好問題的重要因素，並將這些特徵用作建議。
複雜模型：訓練一個端對端的模型，直接將壞文字轉換為好文字這是最複雜的方法，無論是在模型還是資料方面，但如果我們有資源來收集訓練資料並建立和維護一個複雜的模型，我們就可以直接解決產品需求。

內容解密：

這些方法各不相同，並可能隨著我們從原型中學習更多而演變。但是，在進行ML工作時，我們應該定義一套共同的指標來比較不同建模流程的成功與否。
值得注意的是，基準方法根本不依賴於ML。有些功能不一定需要ML，即使是那些可以從ML中受益的功能，通常也可以先使用啟發式方法實作第一版。

定義效能指標

為了準確衡量每次迭代的效能，我們將涵蓋對任何ML產品的效用有很大影響的四類別效能指標：業務指標、模型指標、新鮮度和速度。

業務效能

一旦產品或功能目標明確，就應該定義一個指標來判斷其成功與否。這個指標應該與任何模型指標分開，並且只反映產品的成功與否。產品指標可能像吸引的功能使用者數量一樣簡單，也可能像我們提供的推薦的點選率（CTR）一樣細緻入微。

模型效能

對於大多數線上產品來說，決定模型成功的最終產品指標是使用模型輸出的訪客比例。在推薦系統的情況下，例如，效能通常透過衡量有多少人點選了推薦的產品來判斷。

當產品仍在建置且尚未佈署時，不可能衡量使用指標。為了仍然能夠衡量進展，定義一個單獨的成功指標，稱為離線指標或模型指標，是非常重要的。一個好的離線指標應該能夠在不向使用者公開模型的情況下進行評估，並且盡可能與產品指標和目標相關聯。

圖表翻譯： 此圖示展示了從開始到佈署機器學習模型的整個流程。首先定義業務指標和模型指標，然後建立基準模型，接著進行迭代最佳化。在每次迭代後評估模型的效能，如果符合預期則佈署模型，否則繼續迭代最佳化。

程式碼範例

def calculate_click_through_rate(clicks, impressions):
    """
    計算點選率（CTR）
    
    :param clicks: 點選次數
    :param impressions: 曝光次數
    :return: 點選率
    """
    if impressions == 0:
        return 0
    return clicks / impressions

# 示例用法
clicks = 100
impressions = 1000
ctr = calculate_click_through_rate(clicks, impressions)
print(f"點選率：{ctr:.2%}")

內容解密：

此函式用於計算點選率，即點選次數與曝光次數的比例。
它首先檢查曝光次數是否為零，以避免除以零的錯誤。
然後傳回點選率，通常以百分比形式表示。
在示例用法中，我們計算了100次點選和1000次曝光的點選率，並列印預出來。

最佳化模型評估指標以提升產品表現

不同的建模方法使用不同的模型評估指標，而改變方法可以使達到足夠的建模效能以實作產品目標變得更加容易。例如，假設你正在嘗試在使用者輸入搜尋查詢時提供有用的建議。你將透過衡量點選率（CTR），即使用者點選你提供的建議的頻率，來評估這項功能的成功與否。

改變建模方法以最佳化產品效能

為了產生建議，你可以建立一個模型，嘗試猜測使用者將輸入的單詞，並在他們輸入時向他們呈現預測的完整句子。你可以透過計算模型的單詞級別準確度，來評估這個模型的效能。然而，這種模型需要達到極高的準確度才能幫助提高產品的CTR，因為一個單詞的預測錯誤就足以使建議變得無用。這種方法在圖2-1的左側有詳細描述。

內容解密：

這種方法的重點是預測使用者接下來會輸入的單詞。然而，這種方法的挑戰在於需要極高的準確度才能提供有用的建議。模型的評估指標是單詞級別的準確度，這使得最佳化變得困難。

另一種方法是訓練一個模型，將使用者輸入分類別到你的目錄中的類別，並建議三個最可能的預測類別。你將使用所有類別的準確度而不是每個英文單詞的準確度來評估你的模型的效能。由於目錄中的類別數量遠小於英文詞彙量，這將是一個更容易最佳化的建模指標。此外，模型只需要正確預測一個類別就可以產生點選。在圖2-1的右側可以看到這種方法的例項。

內容解密：

這種方法的重點是將使用者輸入分類別到目錄中的類別。這種方法的優勢在於類別數量較少，使得模型的準確度更容易最佳化。同時，只需要正確預測一個類別就可以產生點選，這降低了模型的難度。

圖表翻譯：

此圖示展示了兩種不同的建模方法。左側的方法是預測使用者接下來的輸入，而右側的方法是將使用者輸入分類別到目錄中的類別。右側的方法由於類別數量較少，更容易最佳化模型的準確度。

更新應用程式以簡化建模任務

正如你所看到的，模型和產品之間的互動的小變化可以使用更直接的建模方法成為可能，並更可靠地交付結果。以下是一些其他更新應用程式以簡化建模任務的例子：

更改介面，以便在模型的結果低於置信度閾值時可以省略它們。例如，在建立一個模型來自動完成使用者輸入的句子時，模型可能只對一部分句子表現良好。我們可以實作邏輯，只在模型的置信度得分超過90%時才向使用者顯示建議。
除了模型的頂級預測之外，還呈現其他幾個預測或啟發式方法。例如，大多數網站顯示多個由模型建議的推薦。顯示五個候選專案而不是僅一個，使得建議更有可能是對使用者有用的，即使模型保持不變。
向使用者傳達模型仍處於實驗階段，並給予他們提供反饋的機會。例如，在自動檢測使用者非母語並將其翻譯給他們時，網站通常會新增一個按鈕，讓使用者告訴他們翻譯是否準確和有用。

最佳化模型評估指標以更好地與產品效能相關聯

即使建模方法是適合問題的，有時也值得生成額外的模型評估指標，以便更好地與產品效能相關聯。我曾經與一位資料科學家合作，他建立了一個模型，從手繪的簡單網站草圖中生成HTML。模型的最佳化指標使用交叉熵損失比較每個預測的HTML標記與正確的標記。然而，產品的目標是使生成的HTML產生一個看起來像輸入草圖的網站，無論標記的順序如何。

程式碼範例：

import numpy as np

def calculate_cross_entropy_loss(predicted_tokens, target_tokens):
    # 計算交叉熵損失
    loss = 0
    for predicted_token, target_token in zip(predicted_tokens, target_tokens):
        loss += -target_token * np.log(predicted_token)
    return loss

# 使用範例
predicted_tokens = [0.7, 0.2, 0.1]
target_tokens = [1, 0, 0]
loss = calculate_cross_entropy_loss(predicted_tokens, target_tokens)
print("交叉熵損失：", loss)

內容解密：

這個程式碼範例展示瞭如何計算交叉熵損失。交叉熵損失是一種常用的評估指標，用於衡量模型的預測結果與真實結果之間的差異。然而，在這個例子中，交叉熵損失並不能很好地衡量模型的效能，因為它對標記的順序很敏感。

交叉熵並不考慮對齊：如果一個模型生成了一個正確的HTML序列，除了在開始時多了一個額外的標記，那麼所有的標記都將與目標相比偏移一位。這樣的輸出將導致非常高的損失值，儘管產生了幾乎理想的結果。這意味著當試圖評估模型的有用性時，我們應該超越其最佳化指標。在這個例子中，使用BLEU分數提供了生成的HTML與理想輸出之間相似性的更好度量。

機器學習模型評估與挑戰

在開發機器學習（ML）模型時，評估其效能是至關重要的步驟。模型的精確度（Precision）和召回率（Recall）是用來衡量其表現的兩個關鍵指標。以問題推薦系統為例，精確度代表模型推薦的「好問題」中，實際上是「好問題」的比例；而召回率則代表模型成功推薦的「好問題」佔所有「好問題」的比例。

精確度與召回率的重要性

若希望推薦的內容始終具有相關性，則應優先考慮模型的精確度。高精確度的模型意味著當它將某個問題標記為「好問題」時，該問題實際上是「好問題」的機率很高。這對於需要高可靠性的應用場景尤為重要，例如在撰寫推薦內容時。

驗證集的作用

為了評估模型的這些指標，需要使用一個具有代表性的驗證集。驗證集是一組在訓練過程中未被使用的資料，用於評估模型在未見資料上的表現。

模型的新鮮度與資料分佈變化

監督式學習模型的預測能力來自於學習輸入特徵與預測目標之間的相關性。因此，大多數模型需要接觸到與給定輸入相似的訓練資料才能表現良好。如果模型的訓練資料與實際應用場景之間的分佈發生變化（稱為分佈偏移），模型的表現可能會下降。例如，使用過去3個月舊金山的降雨資料訓練的交通預測模型，在冬季降雨量增加時可能無法保持良好的表現。

資料分佈變化範例

圖表翻譯： 此圖示展示了當訓練資料的分佈與實際應用場景不同時，模型的表現會如何變化。若要維持模型的良好表現，需要定期更新訓練資料並重新訓練模型。

新鮮度需求與資料收集挑戰

不同的應用場景對模型的新鮮度有不同的要求。例如，古文翻譯服務的資料相對穩定，而搜尋引擎則需要快速適應使用者搜尋習慣的變化。對於需要頻繁更新模型的場景，收集新資料的成本和難度是需要考慮的重要因素。

我們的ML編輯器預計需要每年更新一次模型，以保持其對「良好英語表達」的判斷能力。然而，如果針對特定領域（如數學或音樂趨勢），更新頻率可能會有所不同。簡單模型可以從非配對資料中學習，這使得資料收集相對容易；而複雜模型則需要配對資料，這增加了收集新資料的難度。

速度的重要性

除了準確性和新鮮度之外，模型的預測速度也是影響使用者經驗的重要因素。對於某些應用，如短句翻譯，使用者期望立即得到回應；而對於其他應用，如醫療診斷，稍微延遲的回應如果能換來更高的準確性則是可以接受的。我們的問題措辭服務可以透過提交框或動態更新的方式提供建議，後者需要模型具備更快的預測速度。

內容解密：

在設計機器學習系統時，需要綜合考慮模型的精確度、召回率、新鮮度需求以及預測速度。只有在這些方面取得良好的平衡，才能構建出既準確又實用的應用系統。對於開發者而言，瞭解這些挑戰並採取相應的策略（如定期更新模型、最佳化預測速度等）是至關重要的。

機器學習專案規劃與挑戰評估

在進行機器學習（ML）專案時，瞭解專案需求和評估挑戰是至關重要的第一步。這不僅涉及選擇適合的模型，還需要考慮到實際應用中的各種限制和挑戰。

模型選擇與執行效率

在選擇模型時，執行效率是一個重要的考量因素。對於某些應用來說，模型需要在極短的時間內給出結果。例如，當使用者正在編輯文字時，模型需要能夠在不到一秒的時間內處理完畢。即使是最強大的模型，也需要考慮其處理資料的速度。不同的模型有著不同的執行效率，像是LSTM（長短期記憶網路）比隨機森林（Random Forest）慢三倍。因此，在迭代模型的過程中，需要牢記這個需求。

程式碼範例：模型執行時間比較

import time
from sklearn.ensemble import RandomForestClassifier
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense

# 假設X_train和y_train是訓練資料
X_train = [...]
y_train = [...]

# 隨機森林模型
start_time = time.time()
rf_model = RandomForestClassifier()
rf_model.fit(X_train, y_train)
rf_time = time.time() - start_time
print(f"隨機森林訓練時間：{rf_time}秒")

# LSTM模型
start_time = time.time()
lstm_model = Sequential()
lstm_model.add(LSTM(50, input_shape=(X_train.shape[1], 1)))
lstm_model.add(Dense(1))
lstm_model.compile(optimizer='adam', loss='mean_squared_error')
lstm_model.fit(X_train, y_train)
lstm_time = time.time() - start_time
print(f"LSTM訓練時間：{lstm_time}秒")

內容解密：

此範例程式碼比較了隨機森林和LSTM模型的訓練時間。首先，我們匯入必要的函式庫並準備訓練資料。然後，分別建立隨機森林和LSTM模型，並記錄它們的訓練時間。最後，輸出兩種模型的訓練時間以進行比較。這段程式碼展示瞭如何評估不同模型的執行效率。

專案範圍與挑戰評估

在機器學習中，成功通常需要了解任務的背景、取得良好的資料集以及建立適當的模型。在開始一個專案之前，評估專案的可行性和潛在挑戰是非常重要的。

利用領域專業知識

最簡單的模型是啟發式（heuristic）：根據對問題和資料的瞭解而制定的良好經驗法則。瞭解專家目前如何解決問題，可以節省數十小時的工作時間。例如，在建立工廠裝置的預測性維護系統時，應首先與工廠經理聯絡，瞭解可以合理做出的假設。

探索性資料分析（EDA）

探索性資料分析是視覺化和探索資料集的過程，通常用於對特定的商業問題獲得直覺。EDA是建立任何資料產品的關鍵部分。此外，個別標記範例可以幫助驗證假設並確認所選擇的模型能夠適當地利用資料集。

站在巨人的肩膀上

如果其他人已經解決了類別似的問題，那麼最好的開始方式是理解和重現現有的結果。尋找具有相似模型或相似資料集的公開實作。如果能夠找到開源程式碼和可用的資料集，那麼就可以在現有的結果上進行構建和改進。在機器學習這樣一個有多個移動部件的領域中，站在巨人的肩膀上是非常重要的。

機器學習專案流程

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title 機器學習模型選擇與評估策略

package "模型選擇策略" {
    component [端對端模型\n複雜但全自動] as e2e
    component [簡化模型\n漸進式開發] as simple
    component [啟發式規則\n基準模型] as heuristic
}

package "漸進式方法" {
    component [手動解決問題] as manual
    component [特徵提取] as feat
    component [分類器訓練] as clf
}

package "評估考量" {
    component [效能指標\n點選率/準確度] as metric
    component [資料分佈變化] as dist
    component [新鮮度需求] as fresh
    component [速度/延遲] as speed
}

package "實務策略" {
    component [信心度閾值\n>90%才建議] as conf
    component [基準模型比較] as baseline
    component [領域專業知識] as domain
}

e2e --> simple
simple --> heuristic

manual --> feat
feat --> clf

metric --> conf
dist --> fresh
fresh --> speed

baseline --> domain

note right of simple : 從簡單開始\n逐步增加複雜度
note bottom of conf : Monica Rogati建議\n考慮模型信心度
@enduml

collect --> clean : 原始資料
clean --> feature : 乾淨資料
feature --> select : 特徵向量
select --> tune : 基礎模型
tune --> cv : 最佳參數
cv --> eval : 訓練模型
eval --> deploy : 驗證模型
deploy --> monitor : 生產模型

note right of feature
  特徵工程包含：
  - 特徵選擇
  - 特徵轉換
  - 降維處理
end note

note right of eval
  評估指標：
  - 準確率/召回率
  - F1 Score
  - AUC-ROC
end note

@enduml

圖表翻譯： 此圖示呈現了一個典型的機器學習專案流程，從開始專案到佈署模型的各個階段。它強調了了解任務背景、取得資料集、建立和評估模型等關鍵步驟。