2024年10月05日玄貓（BlackCat）

邊緣AI專案迭代開發與佈署

本文探討邊緣AI專案的迭代開發流程，涵蓋從模型訓練、硬體佈署到持續監控的完整生命週期。文章強調快速迭代和持續評估的重要性，並提供實務上的指導，包括如何縮短迭代時間、利用AutoML工具以及進行道德AI審查。此外，文章也詳細介紹了佈署策略、支援的重要性以及評估方法，並提供程式碼範例和圖表說明，幫助讀者更好地理解邊緣AI專

機器學習系統設計

邊緣AI 迭代開發佈署評估機器學習模型 AutoML

邊緣AI專案開發的核心是迭代流程，它涵蓋模型訓練、硬體整合和實際場域測試。快速迭代有助於及早發現問題並調整方向，避免時間和資源的浪費。從小規模資料集開始，逐步擴充套件資料規模，可以有效縮短迭代週期。此外，AutoML工具，特別是針對邊緣AI設計的工具，可以自動化模型選擇和最佳化過程，並考慮硬體限制，從而降低開發風險。在迭代過程中，定期進行道德審查至關重要，以確保專案符合預期的倫理規範。

迭代開發在邊緣AI專案中的實踐

在邊緣AI專案的開發過程中，迭代開發是一種至關重要的技術方法。其基本理念是透過不斷改變、衡量對目標的影響，並據此決定下一步的行動。在AI開發領域，這種技術最典型的應用是在訓練機器學習模型時。

訓練機器學習模型的迭代過程

取得資料並劃分資料集：將資料分成訓練集、驗證集和測試集。
訓練模型：在訓練集上訓練一個大模型，目標是過擬合資料。
評估效能：在驗證集上測量模型的效能。
調整設定：透過增加資料、新增正則化或調整模型型別和大小來提高驗證集上的效能。
重複訓練和評估：不斷重複訓練和評估的過程，直到模型在驗證集上表現良好。
測試模型：將表現良好的模型在測試集上進行測試。
重新開始：如果模型在測試集上表現不佳，則丟棄並重新開始。

邊緣AI專案的迭代流程

邊緣AI專案的迭代流程與上述流程相似，但還包括硬體和應用程式的部分。例如，您可能會使用類別似的流程開發出有效的演算法，然後嘗試將其佈署到所選的硬體上，並以真實的方式進行測試（如與潛在使用者一起測試）。如果成功，則繼續；如果失敗，則需要進行更改。

快速迭代的重要性

快速迭代是成功的關鍵。如果每次迭代耗時過長，那麼犯錯的代價就會很大，因為您可能已經浪費了很多時間走在無效的開發道路上。相反，如果能夠快速迭代，每次更改都很小並立即進行測試，那麼就不會浪費太多時間陷入無效的開發困境。

縮短迭代時間的方法

為了縮短每次迭代的時間，可以從資料集的子集開始。例如，可以從10%的分層樣本開始。一旦看到有希望的結果，就可以逐漸增加更多的資料，以提高模型的效能。

自動機器學習（AutoML）工具的作用

AutoML工具可以幫助避免一些問題，特別是那些專門為邊緣AI設計的工具，它們可以考慮硬體約束，從而避免超出規格的風險。

更新計劃

在專案過程中，您對所要解決的問題和所採用的方法的理解可能會發生巨大的變化。有時會發現原定的目標是不現實或不相關的。如果出現這種情況，不要猶豫，與利益相關者重新評估目標。

道德AI審查

在迭代開發過程中，專案可能會發生重大變化，因此需要定期進行道德審查。這包括檢查專案是否仍在朝著設計過程中設定的關鍵效能指標前進，是否仍具有足夠的資料和領域專業知識等。最好在這個階段進行第三方道德審查，以捕捉潛在的道德問題。

模型卡片

隨著演算法的成型，記錄其特性對於未來的使用者至關重要。這包括演算法的使用意圖、評估結果和評估過程等資訊。模型卡片提供了一種標準化的格式來描述模型，相關資訊可以在GitHub上的儲存函式庫中找到。

佈署

迭代開發、佈署和支援之間沒有明顯的界限。專案逐漸演變，直到軟體部分佈署到硬體上，並滿足其目標。

邊緣AI應用的佈署與支援：從評估到長期維護

在邊緣AI專案的開發過程中，佈署、評估和支援是三個緊密相連且貫穿整個開發流程的重要環節。本章節將探討這三個關鍵領域，並提供實務上的指導。

佈署策略：早期且頻繁的佈署

在邊緣AI的背景下，佈署可能意味著兩件事：將軟體佈署到硬體裝置上，或將硬體裝置佈署到現實世界中。無論哪種情況，早期且頻繁的佈署是成功的關鍵。這種方法確保了硬體和軟體的協同工作，並建立了專案開發過程與實際效能之間的回饋迴圈。

牲畜監控系統的佈署例項

設想一個用於監控農業環境中牲畜活動的系統。開發團隊需要與農業生產者合作，迭代設計能夠承受田間環境的智慧項圈。首先，團隊會收集來自現實環境的資料，然後在有限的動物身上佈署原型裝置，並透過影片記錄來標記資料，以評估系統的有效性。

圖表翻譯： 此圖示展示了牲畜監控系統的佈署流程，從資料收集到逐步擴大系統規模，每一步都經過仔細評估和迭代。

隨著系統效能達到一定閾值，開發團隊可以開始擴大規模，同時監控各項指標以確保系統的一致性運作。透過逐步增加裝置數量，可以限制潛在的負面影響。

支援：持續的監控與維護

邊緣AI專案永遠不會真正「完成」。相反，它會逐漸進入一個以監控和維護為主的不同階段。這項工作是必要的，因為現實世界的變化會導致AI系統的效能隨著時間而下降。

支援的重要性

支援與評估緊密相關，因為評估指標使我們能夠瞭解系統效能或環境是否正在變化。第10章將探討邊緣AI應用的支援。

評估：成功的關鍵

評估是專案成功的關鍵。沒有評估，我們就無法真正瞭解專案是否成功。評估貫穿整個開發過程，甚至可能在開發之前就開始了，當時我們正在量化現有流程的效能，以便透過邊緣AI進行改進。

評估的多個階段

評估需要在多個階段進行，包括檢查現有解決方案、探索潛在演算法等。在這些階段中，與利益相關者和終端使用者的參與至關重要，因為不同的利益相關者可能有不同的評估標準。

內容重點整理

佈署是邊緣AI開發中的關鍵步驟，應早期且頻繁進行。
評估貫穿整個開發流程，需要與利益相關者和終端使用者合作。
支援是持續的過程，涉及監控和維護系統效能。

程式碼範例與解析

以下是一個簡單的Python程式碼範例，用於模擬邊緣AI裝置的資料收集過程：

import random

def simulate_edge_device():
    # 模擬裝置生成的資料
    data = {
        'activity': random.choice(['eating', 'moving', 'sleeping']),
        'duration': random.randint(1, 100)
    }
    return data

# 模擬收集10個資料點
for _ in range(10):
    print(simulate_edge_device())

內容解密：

此程式碼範例模擬了一個邊緣AI裝置，生成隨機的活動資料，包括活動型別和持續時間。simulate_edge_device函式傳回一個包含這些資訊的字典。透過迴圈呼叫此函式，可以模擬收集多個資料點的過程。這種模擬對於測試和開發邊緣AI應用程式非常有用。

評估的重要性與方法

在開發邊緣AI系統的過程中，評估是至關重要的環節。透過評估，我們可以瞭解系統的效能，找出問題，並進行改進。評估不僅在開發階段進行，也在佈署前後、以及佈署後持續進行。

為什麼需要評估

迭代開發過程：評估驅動迭代開發。我們建立一個解決方案，評估它，並根據評估結果進行調整，以使下一次迭代更好。
最佳化前後比較：在佈署到邊緣裝置時，通常需要應用有損最佳化技術。評估最佳化前後的效能，可以確定損失的程度。
真實硬體上的評估：在真實硬體上評估系統，可以發現開發機器與生產硬體之間的差異。
有限佈署期間的評估：在有限佈署期間評估系統，可以及時發現問題，避免擴大規模後出現更大的問題。
持續的佈署後監控：佈署後，持續監控系統的效能，需要持續的評估。

評估與負責任的設計

倫理AI：倫理AI嚴重依賴評估。透過在每個階段進行評估，可以讓團隊瞭解系統在不同輸入下的表現，從而檢測偏見等倫理問題。

評估系統的方法

有多種方法可以評估邊緣AI系統，不同的方法適用於開發過程的不同階段。

1. 評估個別元件

系統由多個較小的元件組成，每個元件都有自己的評估方法。例如：

視窗化（Windowing）
下取樣（Downsampling）
數位訊號處理（Digital Signal Processing）
機器學習（Machine Learning）
後處理（Postprocessing）
根據規則的演算法（Rule-based Algorithms）

每個元件都有其特定的評估工具和專家知識。評估個別元件有助於識別系統性問題的原因，並允許對特定元件進行獨立迭代。

2. 評估整合系統

除了瞭解個別元件的工作情況，還需要了解整個系統的功能是否正確。整合測試可以告訴我們系統是否表現良好，但單靠它無法提供太多解釋。

3. 模擬真實世界測試

在許多情況下，用於訓練的資料集並不真實，可能是在實驗室中收集或經過清理的理想資料集。為了真正瞭解效能，需要在真實世界中進行測試。

模擬真實世界條件是一種解決方案，可以盡可能地接近真實情況進行測試。例如，收集反映預期真實世界條件的資料集，然後透過完全整合的應用程式版本執行它。

4. 真實世界測試

盡早在真實世界中測試系統至關重要。有兩種主要的真實世界測試型別：

品質保證測試（QA Testing）：系統性地探索產品，瞭解其是否達到適當的品質水平。
可用性測試（Usability Testing）：允許使用者自然地與產品互動，以瞭解其工作效果。

圖表翻譯：

此圖示展示了邊緣AI系統開發過程中不同階段的評估方法，包括迭代開發、最佳化前後比較、真實硬體上的評估、有限佈署期間的評估和持續的佈署後監控。每個階段都有其特定的評估重點和方法。

圖表翻譯： 此圖示展示了邊緣AI系統開發過程中不同階段的評估方法之間的關係，從迭代開發到持續的佈署後監控，每個階段如何銜接和影響下一個階段。

邊緣AI系統的評估與測試

在開發邊緣AI系統時，評估和測試是至關重要的環節。這涉及到多個方面，包括品質保證（QA）、可用性測試、以及對已佈署系統的監控。這些過程有助於確保系統的效能、可靠性和使用者經驗。

品質保證（QA）

QA是產品開發過程中不可或缺的一部分，尤其是在邊緣AI專案中。QA專業人員可以透過以下方式參與專案：

對原型進行實際測試以發現問題
在開發過程中測試個別元件（例如，關鍵字識別演算法）
設計測試系統和程式，以在整個工作流程中測試產品
認證產品是否達到其設計目標

QA過程從設計目標開始，因為QA角色的人員需要提出一個測試系統。理想情況下，QA將在整個開發過程中進行，作為評估每次迭代工作的程式的一部分。

可用性測試

可用性測試與QA測試不同，它關注的是觀察產品的自然使用情況，並利用觀察結果來指導改進。可用性測試涉及真實使用者，他們可能是公眾、潛在客戶或組織內部人員。測試可以在受控環境中進行，也可以透過beta測試等更自然的方式進行。

有一種有趣的可用性測試稱為「dogfooding」（源自「吃自己的狗糧」的概念），即組織成員使用自己的預發布硬體，以瞭解其可用性並產生反饋。

對已佈署系統的監控

瞭解系統在佈署後的效能至關重要。這可以透過收集和分析相關的指標來實作。

有用的指標

任何定量評估都會產生指標，即代表產品或元件效能某些方面的關鍵數字。收集正確的指標非常重要，因為它將影響迭代過程的方向。以下是一些與邊緣AI系統相關的重要指標：

演算法效能

這些指標有助於瞭解AI演算法的效能。它們通常根據演算法型別而有所不同。

損失（Loss）

損失是一種衡量模型預測正確性的方法。損失分數越高，預測越不準確。損失的確切含義由損失函式決定。在某些型別的機器學習模型的訓練過程中，會計算和使用損失。

精確度（Accuracy）

精確度是衡量分類別器效能的最簡單、最知名的指標之一。它是給定資料集中正確分類別的百分比。

混淆矩陣（Confusion Matrix）

混淆矩陣是一個強大的工具，用於瞭解模型的效能。它是一個簡單的表格，顯示了個別樣本被分類別的方式。

精確度和召回率（Precision and Recall）

精確度和召回率提供了描述錯誤發生的頻率的方法。精確度告訴我們模型多久會把無關的東西誤認為是我們關心的類別，而召回率描述了模型多久會錯過它應該識別的例項。

# 計算精確度和召回率的範例程式碼
def calculate_precision_recall(true_positives, false_positives, false_negatives):
    precision = true_positives / (true_positives + false_positives)
    recall = true_positives / (true_positives + false_negatives)
    return precision, recall

# 假設真實陽性、假陽性和假陰性的數量
true_positives = 80
false_positives = 20
false_negatives = 10

precision, recall = calculate_precision_recall(true_positives, false_positives, false_negatives)

print(f"精確度：{precision:.2f}")
print(f"召回率：{recall:.2f}")

內容解密：

此程式碼範例展示瞭如何計算精確度和召回率。首先，我們定義了一個函式calculate_precision_recall，該函式接受真實陽性、假陽性和假陰性的數量作為輸入，並傳回精確度和召回率。然後，我們使用假設的資料呼叫此函式，並列印出結果。

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title 邊緣AI專案迭代開發與佈署

package "邊緣 AI 迭代開發" {
    package "迭代流程" {
        component [訓練模型] as train
        component [硬體佈署] as deploy
        component [效能評估] as eval
    }

    package "最佳化工具" {
        component [AutoML] as automl
        component [模型卡片] as card
        component [道德審查] as ethics
    }

    package "佈署支援" {
        component [早期佈署] as early
        component [持續監控] as monitor
        component [長期維護] as maintain
    }
}

train --> eval : 快速迭代
automl --> deploy : 硬體約束
early --> monitor : 回饋迴圈

note bottom of automl
  縮短迭代時間
  自動化最佳化
end note

collect --> clean : 原始資料
clean --> feature : 乾淨資料
feature --> select : 特徵向量
select --> tune : 基礎模型
tune --> cv : 最佳參數
cv --> eval : 訓練模型
eval --> deploy : 驗證模型
deploy --> monitor : 生產模型

note right of feature
  特徵工程包含：
  - 特徵選擇
  - 特徵轉換
  - 降維處理
end note

note right of eval
  評估指標：
  - 準確率/召回率
  - F1 Score
  - AUC-ROC
end note

@enduml

圖表翻譯： 此圖示展示了從開始到輸出結果的流程。首先，我們收集資料，然後訓練模型。接著，我們評估模型的效能，並計算精確度和召回率。最後，我們輸出結果。這個過程展示了評估和測試邊緣AI系統的一個基本框架。

機器學習模型評估指標詳解

在機器學習領域中，評估模型的表現是至關重要的一環。不同的評估指標可以幫助我們更全面地瞭解模型的優缺點，從而進行有針對性的改進。本文將探討精確率（Precision）、召回率（Recall）、信賴度閾值（Confidence Thresholds）、F1分數、Matthews相關係數（MCC）、ROC曲線及AUC等關鍵評估指標。

精確率與召回率的權衡

精確率和召回率是兩個基本的評估指標，它們分別衡量模型的準確性和完整性。精確率表示模型預測為正類別的樣本中，真正為正類別的比例；而召回率則表示所有正類別樣本中，被模型正確預測的比例。

# 簡單的精確率和召回率計算範例
def calculate_precision_recall(tp, fp, fn):
    precision = tp / (tp + fp) if (tp + fp) != 0 else 0
    recall = tp / (tp + fn) if (tp + fn) != 0 else 0
    return precision, recall

# 假設真陽性(tp)=80，假陽性(fp)=20，假陰性(fn)=10
tp, fp, fn = 80, 20, 10
precision, recall = calculate_precision_recall(tp, fp, fn)
print(f"精確率：{precision:.2f}, 召回率：{recall:.2f}")

內容解密：

tp、fp和fn分別代表真陽性、假陽性和假陰性的數量。
精確率計算公式為tp / (tp + fp)，表示在所有預測為正類別的樣本中，真正為正類別的比例。
召回率計算公式為tp / (tp + fn)，表示在所有實際為正類別的樣本中，被正確預測的比例。

信賴度閾值的調整

信賴度閾值是用於決定模型預測結果的關鍵引數。透過調整信賴度閾值，可以在精確率和召回率之間進行權衡。

# 調整信賴度閾值的範例
import numpy as np

def adjust_confidence_threshold(scores, threshold):
    predictions = [1 if score >= threshold else 0 for score in scores]
    return predictions

# 假設模型預測的分數
scores = np.array([0.8, 0.4, 0.9, 0.1, 0.7])
threshold = 0.5
predictions = adjust_confidence_threshold(scores, threshold)
print("預測結果：", predictions)

內容解密：

scores代表模型預測的分數。
threshold是信賴度閾值，用於決定預測結果。
當預測分數大於等於閾值時，預測結果為1（正類別）；否則為0（負類別）。

F1分數與MCC

F1分數是精確率和召回率的調和平均值，提供了一個綜合評估指標。然而，F1分數並未考慮真陰性，在類別不平衡的情況下可能不夠全面。Matthews相關係數（MCC）則同時考慮了真陽性、真陰性、假陽性和假陰性，是更全面的評估指標。

# F1分數和MCC計算範例
def calculate_f1_mcc(tp, tn, fp, fn):
    f1 = 2 * tp / (2 * tp + fp + fn) if (2 * tp + fp + fn) != 0 else 0
    numerator = tp * tn - fp * fn
    denominator = np.sqrt((tp + fp) * (tp + fn) * (tn + fp) * (tn + fn))
    mcc = numerator / denominator if denominator != 0 else 0
    return f1, mcc

# 假設真陽性(tp)=80，真陰性(tn)=70，假陽性(fp)=20，假陰性(fn)=10
tp, tn, fp, fn = 80, 70, 20, 10
f1, mcc = calculate_f1_mcc(tp, tn, fp, fn)
print(f"F1分數：{f1:.2f}, MCC：{mcc:.2f}")

內容解密：

F1分數計算公式為2 * tp / (2 * tp + fp + fn)，綜合了精確率和召回率。
MCC計算公式考慮了混淆矩陣中的所有元素，提供了一個更全面的模型評估指標。

ROC曲線與AUC

ROC曲線透過繪製不同信賴度閾值下的真陽性率（TPR）和假陽性率（FPR），直觀地展示了模型的分類別能力。AUC則是ROC曲線下的面積，用於量化模型的整體表現。

# 繪製ROC曲線的範例
import matplotlib.pyplot as plt
from sklearn.metrics import roc_curve, auc

# 假設真實標籤和預測分數
y_true = np.array([0, 1, 1, 0, 1])
y_scores = np.array([0.1, 0.8, 0.4, 0.3, 0.9])

fpr, tpr, thresholds = roc_curve(y_true, y_scores)
roc_auc = auc(fpr, tpr)

plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

圖表翻譯：

此ROC曲線圖展示了模型在不同信賴度閾值下的真陽性率和假陽性率之間的權衡關係。曲線下的面積（AUC）量化了模型的整體分類別效能。