2025年09月15日玄貓（BlackCat）

機器學習系統設計與維護實務

本文探討機器學習系統設計與維護的關鍵導向，涵蓋從問題定義、資料處理、模型選擇到佈署監控的完整流程。同時，以 PhotoStock Inc. 和 Supermegaretail 兩個案例闡述實務應用，並提供程式碼範例說明 A/B

機器學習系統設計

機器學習系統設計維護 A/B 測試資料漂移特徵工程模型評估

機器學習系統的設計並非單純的模型訓練，而是涵蓋從需求分析、資料處理、模型選擇到佈署維護的完整生命週期。系統設計的目標不僅在於構建高精確度的模型，更要確保系統的穩定性、可擴充套件性和可維護性。實際應用中，企業規模和業務特性會顯著影響系統設計策略。例如，大型企業如 Supermegaretail 需要更注重跨部門協作和流程管理，而技術導向的公司如 PhotoStock Inc. 則更關注系統效能和技術架構的最佳化。因此，制定合適的維護策略，例如指定專責工程師、建立 On-Call 機制，並持續監控系統效能和資料變化，對於確保機器學習系統的長期穩定運作至關重要。

維護與所有權：Supermegaretail 與 PhotoStock Inc. 的案例分析

在整本文中，我們以 Supermegaretail 和 PhotoStock Inc. 為例，在每章的結尾進行案例研究，以闡述該章的設計檔案相關內容。但在這一章中，這種做法並不完全適用，因為這需要編造大量的虛構人名。因此，我們將重點放在對這兩個案例進行一般性的維護考量。

Supermegaretail 的維護挑戰

Supermegaretail 是一家大型企業，擁有數千名員工，其工作流程複雜，且主要業務部門並非技術導向。因此，在專案成功實施的過程中，各級別的利害關係人之間的協調扮演著至關重要的角色。這意味著，在系統釋出後的有效運作，需要一份詳細的 RACI 矩陣（Responsibility Assignment Matrix），明確專案相關人員的責任，以及交付團隊、執行團隊和業務團隊之間的簽核流程。

PhotoStock Inc. 的維護需求

另一方面，PhotoStock Inc. 是一家規模較小、技術導向的公司，其自定義搜尋引擎需要處理數百萬張圖片，這意味著系統需要承受持續的高負載以及定期出現的峰值負載。由於該搜尋引擎既是機器學習密集型又是基礎設施密集型的專案，因此需要持續的跨團隊協作。

PhotoStock Inc. 的維護策略

為了確保系統的穩定運作，我們建議以下維護策略：

指定高階工程師負責每個核心元件：確保 API 處理器、索引、排名模型和內部工具等四個核心元件各有專責的高階工程師。
建立雙層 On-Call 機制：
- 第一層：主要 On-Call 工程師負責初步應對任何事件。
- 第二層：主要 On-Call 工程師可將特定問題升級至各元件的 On-Call 工程師。

Arseny 的實戰經驗分享

「我錯失了完成本章的截止日期，因為我太忙於我的主要工作，而且也因為過去的一些自作聰明的決定。三年前，我需要測試系統的一部分，這部分需要在兩個環境中執行模型：本地和雲端。測試很簡單：在兩個環境中執行相同的東西，並斷言結果相同。但我為了節省幾毫秒，讓兩個呼叫在不同的執行緒中平行執行。這樣做很聰明也很有效！然而，隨著時間的推移，程式碼函式庫不斷演變，新的功能被新增，基礎設施也發生了很大的變化。其中一個基礎設施的變化改變了雲端運作的方式。所以，你會預期這個測試開始失敗。然而，Python 線上程中的異常並不是隱式的，所以測試失敗導致了一個幾乎無關的訊息。更糟糕的是，這些測試也是平行執行的，這進一步隱藏了真實的問題。不必要的複雜性讓我花了一整天的時間才發現這個問題。」

這段經驗教訓說明瞭複雜系統失敗的典型案例，並非單一原因導致，而是多個次優決策組合的結果。

索引

本索引涵蓋了與軟體設計、資料科學和機器學習相關的關鍵術語和概念。以下內容將對索引中的主要主題進行深度解析和重構，以提供更豐富的技術細節和實務見解。

A/B 測試與實驗設計

實驗設計的核心要素

實驗設計是評估不同變數對系統影響的關鍵方法。在進行 A/B 測試時，必須仔細選擇評估指標、設計合理的分流策略，並確保實驗結果具備足夠的統計顯著性。

import numpy as np

def calculate_sample_size(effect_size, alpha=0.05, power=0.8):
    # 使用統計方法計算樣本大小
    z_alpha = np.abs(np.percentile(np.random.normal(size=1000000), alpha*100))
    z_power = np.abs(np.percentile(np.random.normal(size=1000000), (1-power)*100))
    n = (2 * (z_alpha + z_power)**2) / effect_size**2
    return int(np.ceil(n))

#### 內容解密：
此程式碼用於計算 A/B 測試所需的樣本大小。其中，`effect_size` 表示預期的效果大小，`alpha` 是第一類別錯誤率，`power` 是檢驗力。透過統計方法計算所需的樣本數量，以確保實驗結果的可靠性。

基線比較與模型評估

為什麼需要基線比較？

基線比較是評估模型效能的基礎。透過建立合理的基線，可以更準確地衡量模型的改進幅度。

from sklearn.dummy import DummyClassifier
from sklearn.metrics import accuracy_score

def baseline_comparison(X_train, y_train, X_test, y_test):
    # 使用虛擬分類別器作為基線模型
    dummy_clf = DummyClassifier(strategy="most_frequent")
    dummy_clf.fit(X_train, y_train)
    y_pred = dummy_clf.predict(X_test)
    baseline_accuracy = accuracy_score(y_test, y_pred)
    return baseline_accuracy

#### 內容解密：
此程式碼展示瞭如何使用虛擬分類別器作為基線模型來評估分類別任務的效能。透過比較基線模型的準確率與實際模型的準確率，可以評估模型的改進效果。

資料漂移與概念漂移

如何監控和應對資料漂移？

資料漂移是指資料分佈隨時間變化的現象。監控資料漂移並及時應對是保持模型效能的關鍵。

import pandas as pd

def detect_data_drift(new_data, old_data, threshold=0.05):
    # 使用統計檢驗檢測資料漂移
    from scipy.stats import ks_2samp
    drift_detected = False
    for column in new_data.columns:
        stat, pvalue = ks_2samp(new_data[column], old_data[column])
        if pvalue < threshold:
            drift_detected = True
            break
    return drift_detected

#### 內容解密：
此程式碼使用 Kolmogorov-Smirnov 檢驗來檢測新資料和舊資料之間的差異，從而判斷是否存在資料漂移。如果 p 值小於設定的閾值，則認為檢測到資料漂移。

特徵工程與模型解釋性

如何進行有效的特徵工程？

特徵工程是提升模型效能的重要步驟。有效的特徵工程需要結合領域知識和資料分析。

from sklearn.feature_selection import mutual_info_classif

def feature_engineering(X, y):
    # 使用互資訊進行特徵選擇
    mi_scores = mutual_info_classif(X, y)
    return mi_scores

#### 內容解密：
此程式碼使用互資訊來評估特徵與目標變數之間的相關性，從而進行特徵選擇。高互資訊的特徵通常對模型預測有較大的貢獻。

機器學習系統設計的核心原則與實踐

機器學習系統設計的重要性

機器學習（ML）系統設計在現代技術發展中扮演著至關重要的角色。隨著人工智慧的快速進步，越來越多的企業和組織開始採用機器學習技術來最佳化業務流程、提升產品品質和增強客戶體驗。機器學習系統設計的核心目標是透過資料驅動的方法來解決複雜的問題，從而實作業務目標。

問題定義與分解

在進行機器學習系統設計之前，首先需要明確問題的定義。問題定義的過程包括瞭解業務需求、識別關鍵挑戰和確定機器學習系統的目標。一個清晰的問題定義有助於團隊成員達成共識，並確保後續工作的方向正確。

問題分解

問題分解是將複雜問題拆解為更小、更易於管理的子問題的過程。這種方法有助於降低問題的複雜度，並使得團隊能夠專注於解決特定的子問題。常見的分解方法包括功能分解和資料分解。

機器學習系統設計的關鍵要素

資料品質與完整性

資料是機器學習系統的基礎。確保資料的品質和完整性對於構建可靠的模型至關重要。資料品質問題可能源於資料收集、儲存或處理過程中的錯誤。常見的資料品質問題包括缺失值、異常值和資料不一致性。

模型選擇與評估

選擇合適的機器學習模型取決於具體的問題和資料特徵。常見的模型評估指標包括準確率、精確率、召回率和 F1 分數。模型評估的目的是為了確保模型在未知資料上的表現符合預期。

模型佈署與監控

模型佈署是將訓練好的模型整合到生產環境中的過程。監控模型的表現對於確保其持續有效地工作至關重要。監控內容包括模型的預測準確性、資料漂移和概念漂移等。

案例研究：PhotoStock Inc. 與 Supermegaretail

PhotoStock Inc.

PhotoStock Inc. 是一個專注於影像處理和管理的公司。透過引入機器學習技術，該公司旨在提高影像分類別的準確性和效率。專案中涉及的主要任務包括資料預處理、特徵工程和模型訓練。

設計檔案與實施細節

在 PhotoStock Inc. 的案例中，設計檔案詳細描述了專案的目標、資料來源、特徵選擇和模型評估指標。實施過程中，團隊採用了深度學習技術來提高影像分類別的效能。

Supermegaretail

Supermegaretail 是一家零售企業，透過機器學習技術來最佳化庫存管理和銷售預測。該專案的重點在於構建一個能夠準確預測產品銷量的模型，以幫助企業更好地管理庫存和供應鏈。

模型選擇與評估

Supermegaretail 的團隊選擇了根據時間序列分析的模型來預測產品銷量。模型的評估指標包括均方根誤差（RMSE）和平均絕對誤差（MAE）。

機器學習系統設計的最佳實踐

簡潔性原則

在設計機器學習系統時，應遵循簡潔性原則，避免過度複雜的模型和架構。簡單的模型更容易維護和解釋，也更具可擴充套件性。

可解釋性與透明度

確保模型的決策過程具有可解釋性和透明度對於建立使用者信任至關重要。可解釋性方法如 SHAP 和 LIME 可以幫助理解模型的預測結果。

持續監控與改進

機器學習系統需要持續的監控和改進，以適應資料和業務環境的變化。監控內容包括模型的效能指標、資料品質和使用者反饋等。

機器學習系統設計

機器學習（ML）系統的設計與佈署是一項複雜的多步驟過程，需要多種技能和角色的參與。無論是為現有應用程式新增機器學習功能，還是從頭開始設計一個ML系統，都需要處理龐大的資料集和資料流、確定測試和佈署需求，並掌握將ML模型投入生產的獨特複雜性。本文將引導讀者從頭到尾設計和佈署一個機器學習專案。

設計與佈署的逐步框架

本文提供了一個逐步的框架，用於設計、實作、發布和維護ML系統。在這個過程中，需求檢查清單和真實世界的範例將幫助讀者準備交付和最佳化自己的ML系統。特別值得一提的是，本文中的營火故事和個人提示，以及ML系統設計面試技巧，將為讀者提供寶貴的見解。

主要內容

評估指標和評估標準
解決常見的資料集問題
ML系統開發中的常見陷阱
ML系統設計面試技巧

適用讀者

本文適合那些熟悉軟體工程和機器學習基礎知識的讀者。書中的範例使用Python語言。

作者簡介

Valerii Babushkin是一位經驗豐富的資料科學長官者，目前在BP擔任高階主管。Arseny Kravchenko是一位資深的ML工程師，目前在Instrumental擔任高階員工機器學習工程師。

書評

「按照本文的指示，我能夠建立自己的機器學習系統。令人印象深刻！」——Mikael Dautrey，ISITIX
「非常有價值！無縫整合了產品開發、工程和探索。我強烈推薦它！」——Alexei Zhurba，Next Step Fusion
「一本優秀的機器學習系統設計參考書。」——Odysseas Pentakalos，SYSNET International, Inc.
「作者經驗的多樣性帶來了新的視角，我發現了許多對我來說新的有用的想法和方法。」——Pavel Filipovich，IBA Group

版本資訊

ISBN-13: 978-1-63343-875-0

機器學習系統設計的核心要素

機器學習系統的設計涉及多個關鍵要素，包括資料處理、模型開發、測試、佈署和維護。以下將對這些要素進行詳細討論。

資料處理與驗證

資料是機器學習系統的基礎。有效的資料處理和驗證對於確保模型的準確性和可靠性至關重要。

資料驗證的重要性

資料驗證是確保資料品質和一致性的關鍵步驟。它涉及檢查資料是否符合預定的格式和標準，以及是否包含錯誤或不一致性。

常見的資料驗證方法

標準驗證模式：使用預定義的規則和約束來驗證資料。
非平凡驗證模式：使用更複雜的規則和技術來驗證資料，如巢狀驗證和對抗性驗證。
量化資料洩露：評估資料洩露對模型效能的影響。

模型開發與評估

模型開發是機器學習系統的核心。有效的模型評估對於確保模型的效能和可靠性至關重要。

常見的評估指標

真陽性率（TPR）：衡量模型正確預測陽性樣本的能力。
真陰性率（TNR）：衡量模型正確預測陰性樣本的能力。
加權平均絕對百分比誤差（wMAPE）：衡量模型的預測誤差。

訓練流程與佈署

訓練流程是機器學習系統開發的重要環節。有效的訓練流程可以確保模型的效能和可靠性。

訓練流程的關鍵要素

可組態性：允許根據不同的需求調整訓練流程。
可擴充套件性：能夠處理大規模的資料集和複雜的模型。
測試和驗證：確保訓練流程的正確性和可靠性。

佈署與維護

佈署和維護是機器學習系統生命週期的最後階段。有效的佈署和維護可以確保模型的效能和可靠性。

常見的佈署策略

水平擴充套件：透過增加更多的計算資源來提高模型的處理能力。
垂直擴充套件：透過提高單個計算資源的效能來提高模型的處理能力。

維護的最佳實踐

持續監控：監控模型的效能和資料的變化。
定期更新：根據新的資料和需求更新模型。