在機器學習專案中,確保資料處理流程的正確性與模型的有效學習至關重要。首先,驗證資料流動,使用少量資料子集確認資料載入、格式轉換、模型傳遞及輸出取得等步驟的正確性。接著,透過視覺化檢查資料在各階段的一致性,包含原始資料、清理後資料、特徵生成後資料、格式化後資料以及模型輸入輸出資料,及早發現潛在錯誤。資料載入時,需檢查欄位完整性、空值和異常值,並確認數值範圍的合理性。資料清理階段,移除不必要資訊,避免資料洩漏,並仔細驗證特徵生成過程的正確性。資料格式化時,需注意標籤格式的正確性,避免因索引錯誤或函式庫差異導致模型學習錯誤模式。模型測試階段,則需關注資料擷取、處理和模型輸出的正確性與維度,並透過逐步增加訓練資料量觀察模型效能變化,評估任務難度並調整模型架構或引數。
偵錯流程的重要性與實務應用
在複雜的資料處理和機器學習專案中,偵錯(debugging)是一個至關重要的步驟。Figure 6-2 展示了一個結構化的偵錯流程,幫助開發者系統性地找出並修正錯誤。本章將探討這個流程的每個步驟,並提供實務上的指導。
驗證資料流動:第一步偵錯
首先,我們需要驗證資料是否能夠順暢地流經整個處理流程。最簡單的方法是取一個非常小的資料子集,並確認它能夠透過整個 pipeline。
從一個範例開始
這個初始步驟的目標是驗證我們能夠成功地:
- 載入資料
- 將資料轉換為正確的格式
- 將資料傳遞給模型
- 獲得模型的輸出
具體來說,這意味著:
- 從資料集中選擇幾個範例
- 獲得模型對這些範例的預測結果
- 使用正確的標籤來更新模型的引數,直到模型能夠正確預測這些範例
# 示例程式碼:簡單的模型訓練流程
import tensorflow as tf
# 載入資料
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()
# 簡化資料集,只取少量樣本
x_train_small = x_train[:10]
y_train_small = y_train[:10]
# 定義模型
model = tf.keras.models.Sequential([
tf.keras.layers.Flatten(input_shape=(28, 28)),
tf.keras.layers.Dense(128, activation='relu'),
tf.keras.layers.Dense(10, activation='softmax')
])
# 編譯模型
model.compile(optimizer='adam',
loss='sparse_categorical_crossentropy',
metrics=['accuracy'])
# 訓練模型
model.fit(x_train_small, y_train_small, epochs=10)
內容解密:
- 載入資料:使用 TensorFlow 的
load_data()方法載入 MNIST 資料集。 - 簡化資料集:只取前 10 筆資料進行訓練,以驗證 pipeline 是否正常運作。
- 定義模型:建立一個簡單的神經網路模型,用於分類別數字圖片。
- 編譯模型:設定模型的最佳化器、損失函式和評估指標。
- 訓練模型:使用簡化的資料集進行訓練,驗證模型是否能夠學習。
資料視覺化與檢查
在建構 pipeline 的過程中,視覺化檢查資料是非常重要的。這有助於及早發現資料中的不一致或錯誤。
視覺化步驟
Figure 6-3 展示了在 pipeline 中的幾個關鍵檢查點。我們應該在多個階段檢查資料,從原始資料到模型輸出。
package “評估部署” { component [模型評估] as eval component [模型部署] as deploy component [監控維護] as monitor } }
collect –> clean : 原始資料 clean –> feature : 乾淨資料 feature –> select : 特徵向量 select –> tune : 基礎模型 tune –> cv : 最佳參數 cv –> eval : 訓練模型 eval –> deploy : 驗證模型 deploy –> monitor : 生產模型
note right of feature 特徵工程包含:
- 特徵選擇
- 特徵轉換
- 降維處理 end note
note right of eval 評估指標:
- 準確率/召回率
- F1 Score
- AUC-ROC end note
@enduml
**圖表翻譯:** 此圖示展示了資料處理流程中的關鍵步驟,從原始資料到最終的模型輸出。每一步都可能需要視覺化檢查,以確保資料的正確性和一致性。
### 資料載入與檢查
在載入資料時,我們需要驗證資料是否正確格式化。這包括檢查欄位是否存在、是否有空值或異常值等。
#### 資料檢查要點
- 檢查資料欄位是否完整
- 檢查是否有空值或常數值的欄位
- 檢查數值範圍是否合理
```python
# 示例程式碼:檢查資料欄位
import pandas as pd
# 載入資料
df = pd.read_csv('data.csv')
# 檢查欄位是否存在
print(df.columns)
# 檢查空值
print(df.isnull().sum())
# 檢查數值範圍
print(df.describe())
內容解密:
- 載入資料:使用 pandas 載入 CSV 檔案。
- 檢查欄位:列印出所有的欄位名稱,確認所需的欄位是否存在。
- 檢查空值:統計每個欄位的空值數量,找出可能需要處理的欄位。
- 檢查數值範圍:使用
describe()方法檢視數值的統計摘要,確認數值範圍是否合理。
資料清理與特徵選擇在機器學習中的重要性
在機器學習專案的初期階段,資料清理(Data Cleaning)與特徵選擇(Feature Selection)是至關重要的步驟。這些過程直接影響模型的效能和準確性。
資料清理:移除不必要資訊
資料清理的第一步是移除任何不必要的資訊。這包括欄位或值的不當使用,或是包含有關標籤(Label)資訊的欄位,而這些資訊在實際應用中模型是無法取得的。特徵選擇的任務是決定哪些特徵應該保留,哪些應該被移除。每個被移除的特徵都可能是模型的一個潛在預測因子。
重點注意事項:
- 驗證沒有丟失關鍵資訊
- 移除所有不必要的值
- 避免留下任何額外的資訊,這些資訊可能會透過洩露資訊(Data Leakage)人為地提高模型的效能
特徵生成:創造新的特徵
在資料清理完成後,下一步是為模型生成一些特徵。在生成新的特徵時,例如在 Kickstarter 活動的描述中新增對產品名稱的參照頻率,檢查其值非常重要。需要驗證特徵值是否正確填充,並且這些值看起來合理。
程式碼範例:特徵向量生成
def get_feature_vector_and_label(df, feature_names):
"""
使用向量特徵和給定的特徵名稱生成輸入和輸出向量
:param df: 輸入 DataFrame
:param feature_names: 特徵欄位的名稱(除了向量)
:return: 特徵陣列和標籤陣列
"""
vec_features = vstack(df["vectors"]) # 生成向量特徵
num_features = df[feature_names].astype(float) # 轉換特徵為浮點數
features = hstack([vec_features, num_features]) # 合併特徵
labels = df["Score"] > df["Score"].median() # 生成標籤
return features, labels
features = [
"action_verb_full",
"question_mark_full",
"text_len",
"language_question",
]
X_train, y_train = get_feature_vector_and_label(train_df, features)
內容解密:
get_feature_vector_and_label函式:此函式的主要目的是根據輸入的 DataFrame 和指定的特徵名稱,生成模型的輸入特徵向量和對應的標籤。vstack和hstack操作:使用vstack將向量特徵垂直堆積疊起來,而hstack則用於將向量特徵和其他數值特徵水平合併,形成完整的特徵集。labels生成邏輯:標籤是透過比較 “Score” 欄位的值是否大於其中位數來生成的,這是一種常見的二元分類別標籤生成方法。- 特徵選擇:所選的特徵包括 “action_verb_full”、“question_mark_full”、“text_len” 和 “language_question”,這些特徵可能與文字的語義和結構有關。
資料格式化:轉換資料以符合模型要求
在生成特徵之後,需要將資料轉換成模型可以理解的格式。這可能包括標準化輸入值、將文字向量化(Vectorizing),或是將黑白影片格式化為3D張量(3D Tensor)。對於監督式學習問題,除了輸入資料,還需要將標籤轉換成模型可以理解的格式。
常見錯誤:
- 分類別標籤(Classification Labels)常常被表示為一個零列表,其中真實類別的索引處為1。一個簡單的索引錯誤就可能導致標籤被偏移,從而使模型學習到錯誤的模式。
- 在影像分割(Image Segmentation)任務中,不同的函式庫可能使用不同的慣例來表示分割遮罩(Segmentation Masks),導致標籤格式不正確。
圖表說明:資料格式化錯誤範例
package “評估部署” { component [模型評估] as eval component [模型部署] as deploy component [監控維護] as monitor } }
collect –> clean : 原始資料 clean –> feature : 乾淨資料 feature –> select : 特徵向量 select –> tune : 基礎模型 tune –> cv : 最佳參數 cv –> eval : 訓練模型 eval –> deploy : 驗證模型 deploy –> monitor : 生產模型
note right of feature 特徵工程包含:
- 特徵選擇
- 特徵轉換
- 降維處理 end note
note right of eval 評估指標:
- 準確率/召回率
- F1 Score
- AUC-ROC end note
@enduml
#### 圖表翻譯:
此圖表展示了從原始資料到模型評估的整個流程。首先進行資料清理,接著生成新的特徵,然後將資料格式化以符合模型的輸入要求,最後進行模型訓練和評估。每一步都是機器學習專案成功的關鍵。
## 測試機器學習模型的有效方法
在機器學習(ML)模型的開發過程中,測試是確保模型正確運作和可靠性的重要步驟。透過系統化的測試,可以捕捉到大量的錯誤,節省日後除錯的時間,並提高模型的整體效能。
### 系統化視覺驗證的重要性
在建立機器學習管道的初期,視覺化驗證模型的輸出是非常重要的。這不僅能幫助我們確認模型的預測結果是否正確,還能檢查資料是否正確格式化或是否在處理過程中被破壞。如果模型的輸出在訓練過程中沒有變化,可能意味著模型並未有效利用輸入資料。
### 將關注點分離
就像常規軟體開發一樣,機器學習也受益於模組化的組織結構。將每個功能模組化,可以更容易地檢查每個部分是否單獨運作正常,然後再檢查整個管道。這樣一來,我們就可以為每個功能寫測試,確保它們的正確性。
### 測試機器學習程式碼
測試機器學習模型的行為是具有挑戰性的。然而,機器學習管道中的大多數程式碼並不是關於訓練管道或模型本身,而是關於資料的取得、處理和輸入到模型中。測試資料處理邏輯對於建立成功的機器學習產品至關重要。
#### 測試資料擷取
資料通常以序列化形式儲存在磁碟或資料函式庫中。在將資料移至管道時,我們需要驗證資料的完整性和正確性。可以透過編寫測試來驗證載入的資料點是否具備所需的所有特徵。
```python
def test_parser_returns_dataframe():
"""
測試解析器是否傳回DataFrame
"""
df = get_fixture_df()
assert isinstance(df, pd.DataFrame)
def test_feature_columns_exist():
"""
驗證所有必要的列是否存在
"""
df = get_fixture_df()
for col in REQUIRED_COLUMNS:
assert col in df.columns
def test_features_not_all_null():
"""
驗證沒有特徵完全缺失
"""
df = get_fixture_df()
for col in REQUIRED_COLUMNS:
assert not df[col].isnull().all()
測試資料處理
在測試資料擷取後,我們需要測試資料處理步驟是否符合預期。可以編寫測試來驗證預處理函式的正確性,以及處理後的資料是否符合預期。
def test_feature_presence(df_with_features):
"""
測試生成的特徵是否存在
"""
for feat in REQUIRED_FEATURES:
assert feat in df_with_features.columns
def test_feature_type(df_with_features):
"""
測試特徵的資料型別是否正確
"""
assert df_with_features["is_question"].dtype == bool
assert df_with_features["action_verb_full"].dtype == bool
assert df_with_features["language_question"].dtype == bool
assert df_with_features["question_mark_full"].dtype == bool
assert df_with_features["norm_text_len"].dtype == float
assert df_with_features["vectors"].dtype == list
測試模型輸出
最後,我們需要測試模型的輸出是否具有正確的維度和範圍。可以編寫測試來驗證模型的預測結果是否符合預期。
def test_model_prediction_dimensions(
df_with_features, trained_v1_vectorizer, trained_v1_model
):
"""
測試模型預測輸出的維度是否正確
"""
# 省略實作細節
圖表翻譯:
此圖示展示了機器學習管道中的三個關鍵測試區域:資料擷取、資料處理和模型輸出。每個區域都有相應的測試範例,以確保管道的正確性和可靠性。
@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle
title ML 模型偵錯流程
package "1. 驗證資料流動" {
component [載入少量資料子集] as load_small
component [格式轉換驗證] as format_check
component [模型傳遞測試] as model_pass
component [輸出取得確認] as output_check
}
package "2. 資料視覺化檢查" {
component [原始資料] as raw_data
component [清理後資料] as cleaned_data
component [特徵生成後] as featured_data
component [模型輸入輸出] as io_data
}
package "3. 資料載入驗證" {
component [欄位完整性] as field_check
component [空值/異常值] as null_check
component [數值範圍合理性] as range_check
}
package "4. 模型測試策略" {
component [逐步增加訓練資料] as incremental
component [任務難度評估] as difficulty
component [架構/參數調整] as adjust
}
load_small --> format_check : 步驟 1
format_check --> model_pass : 步驟 2
model_pass --> output_check : 步驟 3
raw_data --> cleaned_data : 視覺化
cleaned_data --> featured_data : 視覺化
featured_data --> io_data : 視覺化
field_check --> null_check : 檢查順序
null_check --> range_check : 檢查順序
incremental --> difficulty : 觀察效能
difficulty --> adjust : 決定調整
note right of load_small
從一個範例開始:
- TensorFlow 載入資料
- 簡化資料集測試
- 確認 pipeline 正常
end note
note right of incremental
逐步擴展策略:
- 10 筆 → 100 筆 → 全部
- 觀察學習曲線
end note
@enduml
package “評估部署” { component [模型評估] as eval component [模型部署] as deploy component [監控維護] as monitor } }
collect –> clean : 原始資料 clean –> feature : 乾淨資料 feature –> select : 特徵向量 select –> tune : 基礎模型 tune –> cv : 最佳參數 cv –> eval : 訓練模型 eval –> deploy : 驗證模型 deploy –> monitor : 生產模型
note right of feature 特徵工程包含:
- 特徵選擇
- 特徵轉換
- 降維處理 end note
note right of eval 評估指標:
- 準確率/召回率
- F1 Score
- AUC-ROC end note
@enduml
**圖表翻譯:** 此圖示呈現了機器學習流程中的各個階段及其相互關係,從資料擷取到最終的模型輸出,每一步驟都經過嚴格的測試,以確保整個流程的正確運作。
## 偵錯訓練流程:讓模型有效學習
在驗證資料處理流程正確無誤後,下一步是確保模型能夠從訓練資料中有效學習。為此,我們需要評估模型在整個訓練集上的表現,或者逐步增加訓練資料量並觀察模型的效能變化。
### 逐步擴充套件訓練資料集
逐步增加訓練資料量的好處是可以觀察到額外資料對模型效能的影響。首先從幾百個樣本開始,然後增加到幾千個樣本,最後再使用完整的資料集(如果資料集小於一千個樣本,可以直接使用全部資料)。
#### 實作範例
```python
def test_model_proba_values(df_with_features, trained_v1_vectorizer, trained_v1_model):
df_with_features["vectors"] = get_vectorized_series(
df_with_features["full_text"].copy(), trained_v1_vectorizer
)
features, labels = get_feature_vector_and_label(df_with_features, FEATURE_NAMES)
probas = trained_v1_model.predict_proba(features)
# 檢查模型的預測機率是否在0到1之間
assert (probas >= 0).all() and (probas <= 1).all()
def test_model_predicts_no_on_bad_question():
input_text = "This isn't even a question. We should score it poorly"
is_question_good = get_model_predictions_for_input_texts([input_text])
# 檢查模型是否正確分類別不良問題
assert not is_question_good[0]
內容解密:
test_model_proba_values函式用於測試模型的預測機率是否在合理範圍內(0到1之間)。test_model_predicts_no_on_bad_question函式檢查模型是否能正確分類別一個明顯不是問題的輸入文字。
在每個階段,將模型擬合到資料上並評估其在相同資料上的效能。如果模型具有足夠的學習能力,其在訓練資料上的效能應該保持相對穩定。
任務難度評估
如果模型的效能遠低於預期,可能表示任務過於困難。評估任務難度的因素包括:
- 資料的數量和多樣性
- 特徵的預測能力
- 模型的複雜度
資料品質、數量和多樣性
資料的多樣性和複雜度越高,模型需要的資料量就越大。對於分類別任務,類別越多,需要的資料量通常呈指數級增長。
資料表示
如果模型難以在訓練資料上表現良好,可以考慮新增或修改特徵,使資料更加具有表現力。例如,在ML Editor範例中,除了問題的正文外,增加問題標題作為特徵可以提高模型的效能。
圖表說明
此圖示展示了隨著資料集大小變化的訓練準確率。 圖表翻譯: 此圖表顯示了模型在不同大小的訓練資料集上的準確率變化。隨著資料量的增加,模型的準確率應該會有所提高,但也可能遇到瓶頸或過擬合的情況。
常見問題與解決方案
- 任務過於困難:檢查資料品質、數量和多樣性,考慮新增或修改特徵,或是提升模型的複雜度。
- 模型效能不佳:逐步增加訓練資料量,觀察模型的效能變化,並根據需要調整模型的架構或引數。
透過上述步驟和方法,可以有效地偵錯訓練流程,讓模型更好地從訓練資料中學習。