2024年05月31日玄貓（BlackCat）

邊緣AI開發流程與偏差解析

本文探討邊緣AI開發流程中的產品、演算法和佈署偏差，並解析迭代開發模型的重要性。文章強調反饋迴圈在開發過程中的核心作用，並詳細介紹了設計交付成果、基線演算法的建立、硬體原型的迭代開發以及四個關鍵領域（應用、資料集、演算法和硬體）的相互依存關係。此外，文章還提供程式碼範例和圖表說明，以幫助讀者更好地理解邊緣AI開發的挑戰

機器學習系統設計

邊緣AI 偏差迭代開發基線演算法原型設計反饋迴圈

在邊緣裝置上佈署 AI 模型的過程中，理解並處理各種偏差至關重要。產品偏差源於設計選擇，例如選擇單一高精確度感測器或多個低精確度感測器，會影響系統在不同環境下的效能。演算法偏差則來自模型本身的特性，例如選擇單階段檢測器或更快速的方法，會影響檢測精確度和速度。佈署偏差則是由於實際應用場景與設計場景的差異所導致，例如將醫療裝置用於預測不同於設計目標的健康狀況。為降低這些偏差的影響，迭代式開發模型至關重要，透過反饋迴圈不斷調整設計、演算法和佈署策略，以確保系統在真實環境中的有效性。

邊緣 AI 開發流程包含多個階段，從初始的問題探索、可行性分析到系統佈署後的持續監控。在探索階段，需明確問題定義、進行資料探索與風險評估，並考量道德和利害關係人等因素。目標設定階段則需定義明確的評估指標和系統目標，並建立價值框架和評審機制。專案啟動階段則需進行 Bootstrapping，快速建立原型並驗證可行性。迭代開發階段則需關注應用程式、資料集、演算法和硬體四個關鍵領域的協同發展，並建立有效的反饋迴圈，以應對不確定性和持續改進系統效能。基線演算法的建立有助於評估系統效能，並作為後續最佳化的基礎。硬體原型的迭代開發則需考量通用性和專用性，並選擇合適的平台進行原型設計和資料收集。

設計過程中的偏差：產品、演算法與佈署偏差的解析

在人工智慧（AI）系統的開發過程中，偏差（Bias）的存在是一個不可忽視的問題。這些偏差可能源自多個方面，包括資料集、設計過程等。本文將重點探討源自設計過程的三類別主要偏差：產品偏差、演算法偏差和佈署偏差。

產品偏差

產品偏差是指由於產品設計的特定解決方案所帶來的偏差。每個產品都是為瞭解決特定的問題而設計的，因此它代表了一種對問題解決方案的特定看法，並包含了與這種看法相關的限制和權衡。

例如，假設我們正在開發一款智慧家居溫控器，該溫控器能夠根據使用者的活動預測最佳的溫度調節時機。我們需要在兩種不同的架構之間做出選擇：一種是單一裝置，包含高解析度的感測器和強大的處理器；另一種是智慧閘道器架構，多個低解析度的遠端感測器安裝在各個房間，並無線傳輸資料到中央樞紐進行處理。

這兩種不同的設計選擇會導致產品傾向於特定的解決方案。例如，單一裝置的系統可能在開放式住宅或小公寓中表現更好，因為它具有較高的感測精確度；而具有遠端感測器的系統可能更適合有多個房間的住宅。

內容解密：

產品設計的特定性：每個產品都是為瞭解決特定的問題而設計的，這意味著它內在地包含了對問題解決方案的特定看法。
架構選擇的重要性：不同的架構設計會影響產品的效能和適用性。
目標市場的研究：瞭解目標客戶的生活環境對於選擇合適的產品架構至關重要。

演算法偏差

演算法偏差是指演算法本身所帶有的偏差。不同演算法對同一問題可能會有不同的解決方案和假設，這些假設可能更適合某些特定的問題或資料。

例如，在開發一個使用物件檢測技術來計數農場動物的農業產品時，我們可以在多種不同的物件檢測演算法中進行選擇，如單階段檢測器（SSD）和Faster Objects, More Objects（FOMO）。SSD使用深度學習模型來預測精確的邊界框，而FOMO則使用更簡單、更快速的方法來識別物件的中心。

內容解密：

演算法選擇的多樣性：有多種演算法可供選擇，每種都有其優缺點。
演算法偏差的影響：不同演算法的效能會因應用場景的不同而有所差異。
資料集的重要性：資料集的代表性對於檢測和減少演算法偏差至關重要。

佈署偏差

佈署偏差發生在系統被佈署在與其設計初衷不同的場景中。無論開發者如何努力減少偏差，當產品被用於與原設計不同的情境時，其有效性都無法得到保證。

例如，一款醫療裝置被設計用於監測患者的生物訊號並預測特定健康狀況的發生機率。如果醫生嘗試將其用於預測另一種類別似但細節不同的健康狀況，那麼該裝置的有效性將無法保證。

內容解密：

佈署場景的多變性：產品可能會被用於多種不同的場景。
使用者理解的重要性：使用者需要了解產品的設計限制，以避免誤用。
測試的必要性：在新的應用場景中進行廣泛的測試是必要的，以確保產品的有效性。

開發邊緣AI應用程式的挑戰與迭代式開發模型

開發邊緣AI應用程式是一項艱鉅的任務。在本章中，我們將深入瞭解迭代式開發模型，該模型有助於在實際專案中成功佈署邊緣AI。

邊緣AI開發的迭代式工作流程

成功開發應用程式的過程基本上很簡單：從小處著手，進行增量變更，衡量進展，並在達到目標時停止。複雜性來自於構成邊緣AI技術的大量活動部件。本章旨在提供一個具體的流程，您可以遵循該流程來最大限度地提高成功的機會。

反饋迴圈的核心作用

正如在「邊緣AI工作流程」中所討論的，該工作流程的核心思想是反饋迴圈的力量。我們的目標是在流程的各個階段之間建立反饋迴圈，從而不斷加深對問題、解決方案以及如何將它們結合起來的理解（如圖9-1所示）。

設計交付成果

在設計過程中，考慮到設計過程所產生的檔案是非常有幫助的。接下來的三個側欄列出了與設計過程初始探索部分相關的最常見的筆記和檔案。

初始探索階段

首先，我們透過瞭解問題並提出一些潛在的解決方案來開始這個過程。

問題與解決方案

問題描述（參見「描述問題」）
BLERP分析（參見「我需要佈署到邊緣嗎？」）
最小可行產品想法（參見「確定解決方案範圍」）

探索可行性

我們的下一步是確定可行的解決方案型別。

可行性研究

道德可行性研究（參見「道德可行性」）
商業可行性研究（參見「商業可行性」）
資料集可行性研究（參見「資料集可行性」）
技術可行性研究（參見「技術可行性」）

設計與規劃

一旦我們有了一個認為可行的解決方案，我們就可以開始建立設計。

設計與規劃檔案

設計目標和標準（參見「設定設計目標」）
時間和資源限制的描述（參見「規劃邊緣AI專案」）
擬議的應用程式流程（參見「架構設計」）
擬議的硬體架構（參見「邊緣AI硬體架構」）
擬議的軟體架構（參見「架構設計」）
長期支援計劃（參見「設定設計目標」）
設計選擇分析（參見「考慮設計中的選擇」）

圖9-1：邊緣AI工作流程中的反饋迴圈示意圖

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title 邊緣AI開發流程與偏差解析

package "邊緣 AI 偏差分析" {
    package "偏差類型" {
        component [產品偏差] as product
        component [演算法偏差] as algo
        component [佈署偏差] as deploy
    }

    package "迭代開發" {
        component [應用程式] as app
        component [資料集] as data
        component [硬體原型] as hw
    }

    package "反饋機制" {
        component [效能量測] as measure
        component [目標評估] as goal
        component [持續調整] as adjust
    }
}

product --> algo : 設計選擇
algo --> deploy : 場景差異
measure --> adjust : 反饋迴圈

note bottom of deploy
  佈署場景與設計
  初衷的差異
end note

collect --> clean : 原始資料
clean --> feature : 乾淨資料
feature --> select : 特徵向量
select --> tune : 基礎模型
tune --> cv : 最佳參數
cv --> eval : 訓練模型
eval --> deploy : 驗證模型
deploy --> monitor : 生產模型

note right of feature
  特徵工程包含：
  - 特徵選擇
  - 特徵轉換
  - 降維處理
end note

note right of eval
  評估指標：
  - 準確率/召回率
  - F1 Score
  - AUC-ROC
end note

@enduml

圖表翻譯： 此圖展示了邊緣AI工作流程中的反饋迴圈。從探索階段開始，經過目標設定、引導、測試和迭代，最終到達佈署階段。反饋迴圈使得整個過程能夠不斷改進和最佳化。

重點解析

迭代式開發的重要性：強調了在邊緣AI開發中使用迭代式工作流程的重要性，透過不斷的測試和改進來達到最佳結果。
多個可行性研究：詳細介紹了在開發過程中需要進行的多個可行性研究，包括道德、商業、資料集和技術可行性。
設計與規劃檔案：列出了在設計與規劃階段需要完成的檔案，包括設計目標、時間和資源限制、應用程式流程等。
反饋迴圈的作用：透過圖9-1和Plantuml圖表展示了反饋迴圈在整個開發過程中的核心作用，使得開發過程能夠根據新的資訊和資料進行調整和最佳化。

內容解密：

此段落主要闡述了在邊緣AI開發過程中，如何透過迭代式工作流程來確保專案的成功。其中，反饋迴圈扮演了至關重要的角色，透過不斷地測試、評估和改進，逐步達到預定的目標。同時，各種可行性研究和詳細的設計規劃檔案也是保證專案順利進行的關鍵因素。圖9-1透過Plantuml圖表的方式，直觀地展示了整個工作流程中的反饋迴圈機制，使得讀者能夠更好地理解其運作原理和重要性。

邊緣AI專案開發流程與關鍵要素

在邊緣AI的開發過程中，專案的成功取決於多個階段的迭代與最佳化。整體工作流程涵蓋了從問題探索到系統佈署的各個環節，每個階段都有其特定的目標和挑戰。

探索階段：理解問題與可行性分析

在探索階段，團隊需要深入瞭解所要解決的問題，並評估使用邊緣AI的必要性。主要任務包括：

問題描述：明確定義需要解決的問題，並評估其是否適合使用邊緣AI技術。
可行性分析：判斷專案是否具有技術和資源上的可行性，包含資料的可取得性與品質。
風險評估：分析潛在的風險、危害及非預期後果，確保專案的道德可行性。
利害關係人分析：識別並理解相關利害關係人的需求和期望。
初步資料探索：儘早進行資料探索，以瞭解資料的特性及其在解決問題中的作用。

資料探索的重要性

資料探索（Exploratory Data Analysis, EDA）是瞭解資料集的關鍵步驟，涉及以下活動：

統計分析：使用描述性統計來總結資料的屬性。
降維處理：轉換資料以便於分析。
特徵工程：從資料中提取有用的訊號。
視覺化：生成圖形以表示資料的結構。
建模：訓練機器學習模型以探索資料內部的關係。

邊緣AI的資料探索麵臨特殊挑戰，因為它經常涉及高頻時間序列和/or 高解析度影像等非結構化資料。因此，具備數位訊號處理或自然科學背景的工程師可能在這方面具有優勢。

目標設定：定義專案成功的標準

目標設定階段涉及定義專案的成功標準和評估指標。主要活動包括：

評估指標的確定：定義佈署前後用於評估系統效能的指標。
系統目標的設定：為設計設定整體系統目標。
技術目標的設定：為實作設定具體的技術目標。
價值框架的建立：與利害關係人協調價值觀，並建立根據價值的進展解釋框架。
評審委員會的設立：成立評審委員會以持續評估專案進展。

有效的目標設定需要可衡量的指標，這依賴於健全的測試和評估流程。在專案初期定義最低可行效能特徵至關重要，這有助於判斷何時應該終止專案。

何時終止專案

邊緣AI專案具有高風險性，因此識別何時應該終止專案至關重要。設定里程碑和繼續/終止標準可以幫助團隊及時調整方向，避免資源浪費。失敗是創新過程的一部分，及早識別無效的開發方向可以節省資源並加快迭代。

里程碑與繼續/終止決策

設定里程碑：在設計和開發過程中設立明確的里程碑，用於評估目前狀態。
繼續/終止標準：定義在每個里程碑階段決定是否繼續或終止專案的標準。

透過這種方式，團隊可以在專案早期進行調整，提高整體開發效率和成功率。

專案啟動與邊緣AI開發的挑戰

在開發邊緣AI專案時，瞭解專案的可行性與資源限制至關重要。當資料難以取得或專案進展不如預期時，及時中止專案可能是一種務實的選擇。在啟動專案前，明確預算限制與期望達到的進展程度，能幫助團隊在必要時做出停止專案的決定。

啟動專案（Bootstrapping）

Bootstrapping是將問題理解轉化為初步解決方案的過程，涉及資料收集、硬體需求評估、開發初始演算法、建立簡易的端對端應用程式，並進行初步的實地測試與評估。關鍵步驟包括：

收集最小可行資料集
初步評估硬體需求
開發最簡化的初始演算法
建立簡易的端對端應用程式
進行初步的實地測試與評估
對早期原型進行負責任的AI審查

為何Bootstrapping有幫助

Bootstrapping的目標是快速建立一個原型，即使它不夠完善或根據某些錯誤假設。透過快速建立端對端原型，團隊能夠測試假設、發現潛在問題，並向利益相關者展示產品雛形。迭代式開發強調測試假設和快速修正方向的重要性，特別是在像邊緣AI產品這樣複雜的系統中，需要觀察整體運作和真實世界的互動。

快速原型與早期測試的好處

早期驗證：讓團隊和利益相關者體驗產品，識別問題。
說服利益相關者：早期展示產品雛形，有助於獲得支援和資源。
風險管理：若整合困難，專案風險較高。

建立基準演算法

在開發演算法時，應立即建立基準以衡量效能。假設我們要建立一個系統來減少巧克力生產線上的品品檢查時間。當前人工檢查每箱巧克力需要30秒，我們的目標是將其降至10秒。

首先，使用簡單的電腦視覺技術來識別特定缺陷，而不是訓練複雜的深度學習模型。這樣可以快速建立基準原型，並在生產線上測試。若簡單的基準演算法已經帶來時間上的節省，我們可以根據實際效果調整下一步計劃。

import cv2

def detect_flaw(image_path):
    # 載入圖片
    image = cv2.imread(image_path)
    # 簡單的圖片處理，例如轉換為灰階
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    # 應用邊緣檢測
    edges = cv2.Canny(gray, 50, 150)
    # 簡單判斷是否存在缺陷（例如計算邊緣畫素數量）
    flaw_detected = edges.sum() > threshold_value
    return flaw_detected

#### 內容解密：
此段程式碼展示了一個簡單的缺陷檢測演算法。首先，使用OpenCV載入圖片並將其轉換為灰階影像，接著套用Canny邊緣檢測演算法。最後，透過計算邊緣畫素的總和來判斷是否存在缺陷。這種簡單的方法可以用於初步測試，以判斷是否值得投入更多資源開發更複雜的深度學習模型。

重點整理

專案啟動前需明確預算與期望進展，以便在必要時中止專案。
Bootstrapping是快速建立原型、測試假設和獲得早期反饋的過程。
建立基準演算法有助於衡量系統效能，並根據實際效果調整開發方向。
簡單原型可以用於早期測試和驗證，以減少後續開發的風險。

建立基線演算法與硬體原型的迭代開發

在開發複雜的機器學習（ML）系統時，建立簡單的基線演算法（baseline algorithm）是至關重要的第一步。這種做法有助於避免過度工程設計（overengineering），即在未經證實的問題上投入大量資源開發複雜的解決方案。基線演算法提供了一個堅實的起點，用於評估和改進現有的系統，並衡量改進的幅度。

基線演算法的重要性

基線演算法不僅幫助我們避免不必要的複雜化，還能為所需的架構提供參考。例如，如果基線演算法能夠處理大部分輸入，那麼最佳的整體解決方案可能是結合一個簡單的演算法來處理大多數輸入，再級聯（cascade）到一個更複雜的ML模型來處理更具挑戰性的輸入。

初步硬體設計

能夠評估基線演算法通常意味著我們已經達到了硬體設計的初始迭代階段。我們的目標是建立一個可佈署的原型，以便在實際環境中進行測試。然而，這並不意味著它必須滿足與最終產品相同的要求。

電腦硬體的範圍從通用型到專用型。在一端，現代個人電腦設計為能夠執行幾乎任何軟體並與任何硬體整合。在另一端，根據自定義微控制器的板子可能被設計用於特定產品內的單一功能。

選擇合適的硬體進行原型開發

硬體越通用和強大，開發就越容易。因此，在更強大的系統上進行原型設計往往比在小型、低功耗、專用裝置上更快。例如，在根據SoC（System-on-Chip）的開發板上使用Python指令碼實作巧克力品質控制系統的第一個迭代版本可能相當容易。

資料收集

如果沒有現成的資料集（通常情況下如此），就需要將一些硬體佈署到現場以收集資料。資料收集硬體通常需要具備與最終產品相同的感測器，因為實質性的差異會使建立有效的演算法變得困難。資料收集硬體在物理設計上可以與最終產品不同，但感測器型別和組態應該相似。

資料記錄硬體的多樣性

在資料收集過程中，可以使用多種型別的感測器，以確保在需要更改硬體設計時不必丟棄資料集。例如，可以使用兩種型別的麥克風收集資料，這樣在最終設計中就可以靈活選擇其中之一。

負責任的AI審查

佈署和測試第一個端對端原型使我們能夠開始衡量效能，並更好地想像最終版本在現場的工作方式。這也需要進行一些初步的演算法開發，這通常涉及進一步瞭解資料集及其侷限性。

透過系統地檢驗最初的假設，我們可以測試在確定道德可行性和價值觀設計目標時所做的假設。例如，在巧克力工廠的品質控制系統中，我們可能發現系統增加了員工的壓力，從而導致倦怠。這種發現可能會影響產品的設計。

測試與迭代

現在我們進入了工作流程的核心部分，即透過多次迭代逐步改進初始實作。主要有四個重點領域：應用、資料集、演算法和硬體。如圖9-2所示，這些領域是迭代開發的關鍵。

圖表翻譯：

此圖示展示了測試與迭代過程中的四個主要領域：應用、資料集、演算法和硬體。它們之間的相互關係和迭代過程對於開發出有效的機器學習系統至關重要。

程式碼範例與內容解密

# 簡單的基線演算法範例
def baseline_algorithm(input_data):
    # 對輸入資料進行簡單處理
    processed_data = input_data * 2
    return processed_data

#### 內容解密：
上述程式碼展示了一個簡單的基線演算法範例。這個函式接受輸入資料，將其乘以2後傳回結果。這種簡單的處理可以作為更複雜演算法的基礎。透過這種方式，我們可以快速評估系統的基本效能，並根據需要進行改進。

開發流程中的測試與迭代：四個關鍵領域的相互依存關係

在開發流程中，測試與迭代是至關重要的階段。如 Figure 9-2 所示，這個階段包含了四個主要的關注領域：應用程式、資料集、演算法和硬體。

四個關鍵領域的相互依存關係

這四個領域就像四個一起成長的兄弟姐妹，它們的發展會相互影響並對環境做出反應。這個環境就是由評估驅動的反饋迴路，我們的工作就是刻意地創造這個迴路。

相互依存的挑戰

在專案初期，很容易發現不同元件之間的依賴關係可能會造成僵局。例如：演算法依賴於足夠的資料集，硬體依賴於演算法，而應用程式又依賴於硬體。當事情被阻塞時，我們應該嘗試透過替代方案來解決問題。

設計彈性以應對不確定性

從工程的角度來看，系統中最具風險的元件是其演算法。這是因為事先很難知道需要什麼樣的演算法來解決問題，以及它們的資料和計算需求。因此，在硬體和應用程式中設計一些彈性總是一個好主意。例如，可能需要確保有額外的 RAM 或 ROM 可用，以防需要比預期更大的機器學習模型來達到所需的準確度。

平行開發與同步

這四個元件並不存在於任何特定的順序或層次結構中，開發也不是一個輪流進行的過程，不同的工程師或團隊會同時在不同的線索上工作。團隊必須定期同步，以分享他們目前的進展並預測是否有任何即將到來的障礙需要解決。

建立反饋迴路

成功的開發關鍵在於在四個線索之間以及在專案的不同階段（開發、佈署和支援）之間建立反饋迴路。傳統的 AI 開發觀點，如 Figure 9-3 所示，顯示了一個簡單的逐步反饋迴路，從資料收集開始到佈署到裝置結束。然而，實際上，系統中的每個元件之間都有動態的相互作用，如 Figure 9-4 所示。

實作無阻礙的反饋流動

在管理專案時，必須使反饋能夠在整個過程中暢通無阻地流動。例如，資料集的某些方面可能會影響硬體設計，而硬體的約束也會反過來影響資料集。因此，各個團隊之間需要定期溝通，以建立有效的反饋迴路。

關鍵的反饋迴路

以下是開發過程中一些最重要的反饋迴路：

演算法與資料集：演算法對資料有不同的需求。如果有大量的資料，可以使用多種不同的演算法；如果資料有限，能夠良好運作的演算法就會減少。
演算法與硬體設計：所選擇的演算法可能會決定硬體的選擇，因為某些硬體可能是執行該演算法所必需的。
演算法與現場表現：所選的演算法會影響現場表現，例如，更大的機器學習模型可能會提供更好的結果。
資料集與硬體設計：硬體設計通常會告知資料集，因為它可能決定了可用的感測器。反之，如果已經有特定的資料集，可用資料的型別或來源可能會影響硬體設計。
資料集與現場表現：如果現場表現不佳，可能需要收集更多資料，以改善系統的不足之處。

圖表翻譯：

Figure 9-2 顯示了測試和迭代階段的四個關鍵領域。Figure 9-3 展示了傳統的 AI 開發觀點中的簡單逐步反饋迴路。Figure 9-4 則更真實地表達了 AI 開發中各元件之間的動態相互作用。

此圖示顯示了測試和迭代階段中的四個主要關注領域之間的相互依存關係，以及它們如何透過評估驅動的反饋迴路相互影響。

圖表翻譯： Figure 9-2、Figure 9-3 和 Figure 9-4 分別展示了測試和迭代階段的不同方面，包括四個關鍵領域的相互依存關係、傳統的 AI 開發觀點和真實的 AI 開發過程中的動態相互作用。這些圖表共同闡述了在 AI 開發過程中建立有效反饋迴路的重要性。