2024年04月07日玄貓（BlackCat）

邊緣AI資料取樣與系統監控

本文探討邊緣AI佈署的挑戰，特別是在資料取樣、系統監控和持續改進方面。由於邊緣裝置資源受限且網路連線不穩定，資料收集和模型最佳化變得更加複雜。文章介紹了多種資料取樣策略，如隨機取樣、週期性取樣和智慧取樣，以及如何利用這些資料評估模型效能、偵測資料漂移和擴充資料集。此外，還討論了佈署後監控、版本控制和長期支援的重要性，並

機器學習系統設計

邊緣AI 資料取樣系統監控主動學習版本控制倫理考量

邊緣AI裝置受限於資源和連線能力，因此建立有效的回饋機制和資料收集策略至關重要。不同於伺服器端應用，邊緣AI裝置無法輕易地儲存和分析所有資料。因此，開發者需要採用如隨機取樣、週期性取樣和智慧取樣等策略來收集現場資料。這些取樣資料可用於評估模型在真實世界中的效能、除錯演算法和擴充資料集，以提升模型的泛化能力。此外，資料降取樣和部分傳輸技術可以有效降低資料傳輸成本和儲存空間需求。在初始佈署階段，可考慮額外成本以收集更多真實世界資料，進而最佳化系統設計。佈署後的持續監控和改進對於邊緣AI系統的長期運作至關重要，日誌記錄、資料取樣和應用程式指標收集都是常用的監控手段。持續追蹤系統互動結果和收集使用者回饋，有助於及時發現問題並調整系統，以保持最佳效能。

邊緣AI的回饋機制與資料取樣

在邊緣AI的應用中，由於裝置通常位於遠端且資源受限，回饋機制的建立和資料收集變得相當困難。缺乏有效的回饋機制意味著開發者無法瞭解系統的實際表現，這對於後續的改進和最佳化是一個巨大的挑戰。

伺服器端與邊緣端的回饋差異

伺服器端的機器學習應用通常具備完整的資料記錄和分析能力。以一個使用電腦視覺技術識別產品的伺服器端應用為例，所有上傳的照片都可以被儲存和分析，從而評估模型的預測效果並進一步訓練模型。有些應用甚至具備內建的成功衡量標準，例如推薦演算法可以透過使用者購買推薦產品的頻率來評估其有效性。

然而，邊緣AI裝置由於資源和連線性的限制，通常難以實作同樣的回饋機制。開發者需要採用一些創新的方法來瞭解系統在實際環境中的表現。

資料取樣策略

在理想情況下，邊緣裝置可以收集原始輸入資料的樣本並將其傳回伺服器進行儲存和分析。然而，這種做法需要具備足夠的能源、連線性和頻寬，同時也要考慮隱私問題。例如，設計用於監控包裹運輸過程的低功耗感測器可能無法在運輸過程中儲存或傳輸資料；而強調隱私保護的家庭安全攝影機也不太可能傳送原始影像資料。

儘管如此，仍然有一些方法可以實作有限的資料取樣：

隨機取樣：每隔一定數量（如每1000次中的1次）取樣資料。
週期性取樣：定期（如每天一次）取樣資料。
智慧取樣：根據特定條件取樣，例如當模型對輸入資料不確定時進行取樣。

取樣資料的應用

取樣資料可以用於多個方面：

評估真實世界的效能：直接觀察現場資料有助於瞭解資料集是否具有代表性，並檢測資料漂移等問題。
除錯演算法：分析模型不確定的樣本有助於找出演算法的問題所在，並指導進一步的資料收集或模型改進。
擴充資料集：將取樣的資料加入訓練資料集，尤其是那些模型表現不佳的「難例」，可以有效提升模型的效能。

資料降取樣與部分傳輸

為了節省能源和頻寬，可以對資料進行降取樣或部分傳輸，例如降低影像解析度或僅傳送灰階影像。又或者，傳送經過訊號處理後的資料，因為這些資料通常比原始輸入更小，更容易傳輸。

內容解密：

在邊緣AI裝置中，由於資源限制和隱私考量，直接傳送原始資料往往不可行。因此，開發者需要採用多種策略來收集和分析資料，包括隨機或智慧取樣、資料降取樣等，以確保系統能夠持續改進和最佳化。

初始佈署階段的資料收集

雖然在正式佈署後可能無法傳送大量資料，但開發者可以在初始佈署階段透過支付額外的連線費用（如使用蜂巢式或衛星資料機）來收集寶貴的真實世界資料，從而改進系統設計。

圖表翻譯：

此圖示展示了邊緣AI裝置在不同場景下的資料取樣和傳輸策略，包括隨機取樣、週期性取樣和智慧取樣等方法。

邊緣裝置的資料收集與分析

在邊緣運算的場景中，資料的收集與分析對於模型的準確性和系統的穩定性至關重要。由於邊緣裝置通常佈署在多變的環境中，如何有效地收集資料、檢測資料分佈的變化以及監控應用程式的效能，成為了關鍵課題。

資料收集的挑戰

邊緣裝置的資料收集面臨多項挑戰。首先，許多邊緣裝置並不具備穩定的網路連線，使得資料傳輸變得困難。在這種情況下，可以採用 sneakernet 的方式，即讓裝置將資料記錄在本地儲存中，然後定期取回這些裝置以取得資料。雖然這種方法可能無法擴充套件到整個佈署，但對於某些裝置或在特定的時間段內是可行的。

資料分佈的變化

現實世界的環境會隨著時間而變化，但我們的資料集通常只代表某一時刻的情況。如果資料集不再具有代表性，就需要了解這種變化。最直接的方法是收集新的資料集並與現有的資料集進行比較。然而，收集和標註資料是非常耗時的。

簡單的漂移檢測方法

一種簡單的漂移檢測方法是計算資料集的摘要統計資訊（如平均值、中位數、標準差等），並在裝置上計算相同的統計資訊，然後進行比較。如果這些值之間存在顯著差異，可能意味著資料分佈已經發生了變化。

import numpy as np

# 計算資料集的摘要統計資訊
def calculate_summary_statistics(data):
    mean = np.mean(data)
    median = np.median(data)
    std_dev = np.std(data)
    return mean, median, std_dev

# 示例資料
dataset = [1, 2, 3, 4, 5]
device_data = [2, 3, 4, 5, 6]

# 計算統計資訊
dataset_mean, dataset_median, dataset_std_dev = calculate_summary_statistics(dataset)
device_mean, device_median, device_std_dev = calculate_summary_statistics(device_data)

# 比較統計資訊
print("Dataset Mean:", dataset_mean)
print("Device Mean:", device_mean)

#### 內容解密：
此段程式碼展示瞭如何計算一組資料的平均值、中位數和標準差。首先，我們定義了一個函式 `calculate_summary_statistics`，它接受一個資料列表作為輸入，並傳回計算出的統計資訊。然後，我們使用示例資料集和裝置資料進行計算，並比較它們的平均值。這種方法可以用於初步檢測資料分佈是否發生了變化。

更複雜的漂移檢測方法

除了簡單的摘要統計資訊比較，還有更複雜的統計測試方法可以用於檢測資料分佈的變化，例如 Alibi Detect 這樣的開源函式庫所提供的演算法。然而，這些方法在處理高維資料（如影像和音訊頻譜圖）時可能會遇到困難。

異常檢測與漂移檢測

目前，漂移檢測通常透過異常檢測演算法來實作。異常檢測模型在訓練資料集上進行訓練，然後在裝置上執行，對每個新的輸入進行分類別。如果大量的輸入被分類別為異常，可能意味著資料分佈已經發生了漂移。

監控輸入和輸出的分佈變化

監控輸入資料（如影像、時間序列或音訊）和演算法輸出的分佈變化（如分類別器的機率分佈）是非常有用的。輸出的分佈變化可能是漂移的下游跡象，也可能是演算法或應用程式碼中錯誤的跡象。

應用程式指標

除了模型的原始輸入和輸出外，跟蹤應用程式的行為也是非常重要的。這包括系統日誌、使用者活動和裝置動作等指標。這些指標可以幫助我們瞭解系統在實際佈署中的表現，並找出潛在的問題。

邊緣AI系統的持續改進與監控

在佈署邊緣AI系統後，持續的監控和改進是確保系統有效運作的關鍵。監控和反饋機制能夠幫助開發團隊及時發現問題並進行調整，以保持系統的最佳效能。

佈署後監控

佈署後監控是收集系統執行狀態和表現的重要手段。這包括日誌記錄、資料取樣、應用程式指標收集等。

日誌記錄與資料傳輸

邊緣裝置的日誌記錄對於瞭解系統執行狀態至關重要。然而，由於連線性和頻寬的限制，可能無法傳輸完整的日誌資料。在這種情況下，可以考慮傳輸總結性統計資料，以減少資料傳輸量。

例如，可以預先定義哪些資訊是有價值的，例如微波爐是否被超時使用，並僅傳輸這些特定的資訊，而不必上傳完整的日誌資料。如果無法上傳任何資料，可以在裝置上本地儲存日誌，並在必要時透過物理方式下載。

結果評估

大多數邊緣AI系統的目標超出了裝置本身的運作。例如，產品可能旨在降低工業流程成本、鼓勵使用者保持健康或提高農業產品品質。

為此，追蹤系統互動過程的結果至關重要。這需要領域專業知識，並在系統佈署前就開始測量目前的結果，以便進行比較。

使用者反饋

如果使用者與產品或其影響的系統互動，可以透過調查收集反饋。這是取得反饋的重要來源，因為使用者通常是第一個注意到任何好處或問題的人。

收集使用者反饋需要結構化的方法，並考慮到可能導致不同結論的各種因素。因此，匯總多個使用者的反饋比單個使用者的反饋更可靠。

改善線上應用程式

迭代開發過程在佈署後並未停止，但確實發生了變化。一旦裝置在生產環境中執行，對其進行修改的靈活性就會降低。

利用反饋解決問題

監控過程中收集的各種反饋可以用於識別和解決問題。這些反饋包括：

資料樣本提供了對現實世界資料演變狀態的洞察。
分佈變化不僅提供了對現實世界資料的洞察，也幫助識別演算法管道中的問題。
應用程式指標使我們能夠在技術層面瞭解系統的高層運作。
結果幫助我們瞭解系統的整體行為以及是否解決了預期問題。
使用者報告提供了產品整體健康和實用性的進一步證據。

透過收集這些方面的反饋，可以鎖定問題的根源。例如，如果結果資料表明系統對預期問題沒有產生積極影響，可以調查輸入和輸出分佈的變化。如果輸入分佈與資料集中的相同，但輸出分佈與開發期間觀察到的不同，則可能是裝置上的演算法實作存在問題。

隨時間最佳化演算法

所有環境都會經歷漂移，幾乎肯定需要隨時間改進系統以跟上變化。此外，由於邊緣AI領域仍在快速發展，很可能在佈署過程中會有新的演算法方法可用。

邊緣AI系統持續改進流程

圖表翻譯： 此圖示呈現了邊緣AI系統在佈署後持續改進的流程。首先，透過佈署後監控收集日誌記錄、結果評估和使用者反饋。接著，利用這些反饋來識別和解決問題。最後，根據收集到的資訊隨時間最佳化演算法，以保持系統的最佳效能。

程式碼範例：日誌記錄與資料傳輸

import logging
from logging.handlers import RotatingFileHandler

# 設定日誌記錄
logger = logging.getLogger(__name__)
logger.setLevel(logging.INFO)

# 設定日誌檔案處理器
handler = RotatingFileHandler('edge_ai_log.log', maxBytes=100000, backupCount=3)
handler.setLevel(logging.INFO)

# 設定日誌格式
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
handler.setFormatter(formatter)

# 將處理器新增到日誌記錄器
logger.addHandler(handler)

# 記錄日誌
logger.info('這是一條資訊日誌')
logger.warning('這是一條警告日誌')
logger.error('這是一條錯誤日誌')

#### 內容解密：
1. 首先匯入必要的`logging`模組和`RotatingFileHandler`類別，用於設定日誌記錄。
2. 設定日誌記錄器的名稱和層級，這裡使用`__name__`作為記錄器名稱，並設定層級為`INFO`。
3. 建立一個`RotatingFileHandler`例項，用於處理日誌檔案的輪替。這裡設定日誌檔案的最大大小為100KB，並保留最多3個備份檔案。
4. 設定日誌格式，使用`Formatter`類別定義日誌的格式，包括時間戳、記錄器名稱、日誌層級和日誌訊息。
5. 將處理器新增到日誌記錄器，使其能夠處理日誌事件。
6. 使用不同層級的方法（如`info`、`warning`、`error`）記錄不同型別的日誌訊息。

邊緣AI佈署與演進的挑戰

在開發和佈署邊緣AI應用時，改善演算法是開發工作流程的自然延伸。這個過程是迭代的，並由資料驅動。在佈署到實際環境後，我們可以更好地瞭解真實世界的條件。例如，監控模型輸出分佈的差異可能會提醒我們，實際環境中的類別平衡與資料集中的不同。

即使沒有獲得新的資訊，預佈署評估也應該能夠告知我們系統效能的弱點。例如，應用程式可能對某些子群體的表現不佳。我們可以利用這些資訊來改進資料集。如果幸運的話，我們可能能夠直接從實際環境中取得資料，儘管這可能會受到技術或法律障礙的限制。至少，我們應該意識到哪些部分需要改進：也許我們可以透過提高多樣性或增加特定類別的示例來受益。

主動學習在生產環境中的應用

在「半監督和主動學習演算法」中，我們遇到了主動學習的概念，作為引導資料集企劃和標註的一種方法。可以合理地將佈署系統與演算法開發過程之間的互動視為主動學習迴圈。來自生產環境的反饋用於確定在擴充套件資料集時優先收集哪些型別的樣本，甚至可以從生產裝置中取得新的樣本（例如，未被自信分類別的樣本可以上傳到伺服器）。

這種資料集和演算法的引導式演進可能非常強大，但也伴隨著一些風險。主動學習過程可能會無意中強化系統中的偏差，引導資料集收集的方向導致模型對某些型別的輸入工作得更好，而對其他型別的輸入工作得更差。確保考慮與結果相關的反饋非常重要，以便使用系統整體效能來控制潛在的改進。

內容解密：

主動學習在生產環境中的關鍵作用包括：

利用生產環境中的反饋來指導資料集的擴充套件
從生產裝置中收集新的樣本以增強資料集
風險控制：避免強化系統偏差

支援多個佈署演算法

佈署伺服器端程式碼可能就像按一下按鈕一樣簡單，最新的版本可以立即對所有使用者可用。邊緣佈署則要複雜得多。

邊緣AI通常被佈署以解決連線和頻寬的挑戰。這些挑戰使得佈署變得棘手。在多裝置佈署中，不一定能夠同時將最新版本的應用程式推播到每個邊緣裝置。即使有足夠的頻寬，一些裝置可能無法使用：關閉電源或離線。在某些情況下，透過設計或意外，根本無法更新已經佈署在現場的裝置。

這種情況因邊緣AI應用程式的開發和佈署方式而加劇。在迭代工作流程中的分階段佈署自然會導致現場存在許多不同的硬體和軟體組合，即使在初始推出後，新佈署的裝置可能具有比現有裝置更新版本的硬體和軟體。

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title 邊緣AI資料取樣與系統監控

package "邊緣 AI 資料取樣" {
    package "取樣策略" {
        component [隨機取樣] as random
        component [週期性取樣] as periodic
        component [智慧取樣] as smart
    }

    package "資料應用" {
        component [效能評估] as eval
        component [演算法除錯] as debug
        component [資料集擴充] as augment
    }

    package "系統監控" {
        component [日誌記錄] as log
        component [資料漂移偵測] as drift
        component [使用者回饋] as feedback
    }
}

smart --> eval : 不確定樣本
drift --> augment : 難例收集
log --> feedback : 持續改進

note bottom of smart
  模型不確定時
  觸發取樣
end note

collect --> clean : 原始資料
clean --> feature : 乾淨資料
feature --> select : 特徵向量
select --> tune : 基礎模型
tune --> cv : 最佳參數
cv --> eval : 訓練模型
eval --> deploy : 驗證模型
deploy --> monitor : 生產模型

note right of feature
  特徵工程包含：
  - 特徵選擇
  - 特徵轉換
  - 降維處理
end note

note right of eval
  評估指標：
  - 準確率/召回率
  - F1 Score
  - AUC-ROC
end note

@enduml

圖表翻譯： 此圖示展示了邊緣AI佈署的多版本管理挑戰，從開始佈署到使用IoT裝置管理軟體進行版本控制的全過程。

這意味著在某一時刻，您很可能會在生產環境中同時擁有多個應用程式版本。事實上，有幾個實體可能具有不同的版本：

裝置硬體本身
在裝置上執行的應用程式韌體
韌體內的演算法實作或模型
用於訓練任何機器學習模型的資料集
裝置連線到的任何後端網路服務

由於不太可能同時更新所有這些，因此在任何給定的時刻，現場佈署的工件的不同組合數量龐大。跟蹤它們極為重要。如果沒有對佈署內容的良好記錄，您將失去除錯系統的能力。如果每個裝置都有不同的元件混合，而您不確定它們是什麼，那麼很難找出效能問題的根本原因。

為了允許除錯和可追溯性，您需要一個系統來跟蹤每個元件的版本佈署在哪裡。例如，您可以維護一個資料函式庫，每次更新韌體或建立新的硬體迭代時都會更新。該功能可以由IoT裝置管理軟體提供。

在監控指標時，您需要將它們與裝置管理平台中的記錄相關聯，以便了解哪些元件可能需要關注。

長期支援與倫理考量

同時管理許多不同的版本可能是一場惡夢，因此盡量限制正在使用的組合數量符合您的利益。如果您的裝置連線到後端，則強制相對統一的一種方法是要求最低韌體版本。缺點是這可能會影響系統的穩健性和可用性。

內容解密：

長期支援與倫理考量包括：

管理多版本挑戰
使用IoT裝置管理軟體進行版本控制
強制最低韌體版本以維持系統統一性

長期支援與倫理考量

隨著世界和我們的應用程式不斷演變，只要系統仍在使用，就必須持續從倫理角度進行分析。本章節將探討一些可能影響長期佈署的倫理問題。

績效衰退

本章介紹了一些監控和改善效能的技術，但隨著資料漂移（drift）的發生，效能自然會下降。大多數佈署的應用程式都有有限的使用壽命，最終會因為漂移過大或維護預算不足而無法繼續運作。

例如，假設一個系統用於識別製造缺陷，隨著製造流程的改變，可能會出現新的缺陷型別。如果系統沒有更新，這些新缺陷就無法被捕捉，可能導致安全問題。機器學習模型不一定知道何時被輸入未經訓練的資料，它仍會繼續產生輸出，可能完全錯誤。如果有人依賴您的應用程式做出正確的判斷，這將是災難性的。

這引出了這樣一個問題：對於那些超過使用壽命的專案，該怎麼辦？事實是，簡單放棄一個專案在倫理上是不可接受的。相反，您需要規劃專案變得不可行時的應對方案。一個負責任的設計涵蓋了專案的整個生命週期，從開始到結束。

對於邊緣AI專案，這包括硬體部分。例如，您可能需要計劃如何處理硬體裝置中的有害物質，如鋰電池。您的硬體是否可持續，還是會產生自身的問題？

終止標準

每個佈署在生產環境中的專案都應有終止標準：列出可能導致佈署停止的問題清單，至少在這些問題得到解決之前。

終止標準可能包括以下內容：

與專案資料集相比，分配的最大漂移量
對相關系統的預測影響，以及偏差的容忍閾值
成功業務指標的最低標準

提前擬定這份清單將使您能夠在事情不順利時迅速採取行動。這些終止標準應持續檢討，並在獲得新資訊時進行更新。

如果需要終止，您可以依靠在設計階段規劃的優雅降級（graceful degradation）功能。

新資訊

佈署後，可能會出現新的事實，導致對專案的倫理重新評估。以下是一些例子：

發現可能損害公平性的演算法限制
發現可能被利用的安全漏洞
對問題的理解有所改進，暴露了應用程式的缺陷
邊緣AI技術的改進，使當前應用程式過時
問題領域的變化，使當前應用程式過時

人工智慧是一個快速發展的領域，現有演算法和技術的問題經常被發現。例如，對抗性攻擊（adversarial attacks）使攻擊者能夠透過輸入精心建構的資料來操縱機器學習模型，以獲得他們想要的輸出。新的對抗性攻擊不斷被發現，防禦措施也在不斷被發明和擊破。

程式碼範例：防禦對抗性攻擊

# 防禦對抗性攻擊的基本範例
import numpy as np

def adversarial_training(model, clean_data, labels, epsilon=0.1):
    # 生成對抗性樣本
    adversarial_samples = clean_data + epsilon * np.sign(np.random.randn(*clean_data.shape))
    # 將對抗性樣本加入訓練集
    combined_data = np.concatenate((clean_data, adversarial_samples))
    combined_labels = np.concatenate((labels, labels))
    # 使用結合後的資料訓練模型
    model.fit(combined_data, combined_labels)

# 使用範例
model = create_model()  # 建立模型
clean_data = load_data()  # 載入清潔資料
labels = load_labels()  # 載入標籤
adversarial_training(model, clean_data, labels)

內容解密：

此範例展示瞭如何透過對抗性訓練來增強模型的魯棒性。首先，我們生成對抗性樣本，然後將其與清潔資料結合，用於訓練模型。這種方法可以提高模型對對抗性攻擊的防禦能力。關鍵在於使用epsilon控制擾動的大小，並使用np.sign來確保擾動的方向正確。訓練過程中，模型學習到如何正確分類別原始資料和對抗性樣本，從而提高其整體安全性。

文化規範的演變

社會變化迅速，您可能會發現以前佈署的應用程式逐漸超出可接受的標準。例如，消費者對隱私的期望正在隨著時間而改變。今天，消費者接受將錄音對話音訊傳送到雲端進行處理的智慧音箱，因為歷史上沒有其他方法能夠準確進行語音辨識。

然而，隨著裝置端轉錄變得更加普遍，消費者可能會開始期待這種技術，並認為使用伺服器端轉錄是一種過時的概念，違反了他們對隱私的期望。

作為專案的管理者，您應該與領域專家合作，跟蹤文化規範，並確保您的應用程式不違反這些規範。

法律標準的變化

法律標準往往跟隨文化規範。例如，隨著網路上對隱私的期望不斷演變，歐盟的《通用資料保護條例》（GDPR）等法律被制定出來，以規範公司處理私人資訊的方式。

無論您在哪個領域營運，都應該與領域專家合作，瞭解您的法律義務，並確保以合乎道德的方式處理這些義務。