2024年04月08日玄貓（BlackCat）

基礎模型應用於資料清理與趨勢分析

本文探討利用 ChatGPT 結合 GPT-4 模型進行資料清理和趨勢分析的實驗。實驗使用包含不一致銷售資料的工作表，測試 ChatGPT 在資料識別、清理和分析方面的能力，並觀察其在處理不同資料結構和問題時的表現。實驗結果顯示，ChatGPT

資料科學人工智慧

資料清理趨勢分析基礎模型 ChatGPT GPT-4 Foundation Models

近年來，基礎模型（Foundation Models，FMs）的應用日益廣泛，資料清理和分析是其中一個重要的領域。本實驗探討了 ChatGPT 搭配 GPT-4 模型在資料清理和分析方面的能力。實驗資料為一個包含不一致銷售資料結構的工作表，涵蓋消費者、企業和家庭辦公室等不同段落，每個段落都有不同的運送模式和對應的總計。實驗過程包含提出多個關於不同類別值的問題，例如特定訂單的銷售金額細節、消費者段落在特定期間內的銷售趨勢等。ChatGPT 成功地回答了這些問題，即使在原始資料欄位標籤不明確的情況下，也能透過替代方法定位正確欄位並提取資料。此外，ChatGPT 也成功地執行了多項資料清理操作，展現其在資料處理方面的潛力。實驗結果顯示，基礎模型在資料清理和分析領域具有相當的應用價值，能有效協助開發者處理複雜的資料問題。

資料清理實驗

近年來，Foundation Models（FMs）功能不斷擴充套件，應用領域也日益廣泛。對於 AI 系統開發者而言，資料清理和準備是其中一個重要的應用領域。為了探索 FMs 在資料清理和分析方面的能力，我們進行了一個實驗，嘗試使用 ChatGPT 搭配 GPT-4 模型進行資料清理和分析。以下是實驗結果的摘要，完整對話記錄可線上上查閱。

實驗過程

我們首先上傳了一個包含名為「Dirty 1」的工作表的檔案，該工作表包含不一致的銷售資料結構。資料包括消費者、企業和家庭辦公室等不同段落，每個段落都有不同的運送模式和對應的總計。接著，我們提出了多個有關不同類別值的問題。

ChatGPT 正確回答了這些問題，包括識別特定訂單 ID（CA-2012-162201）的銷售金額細節。由於原始資料中「訂單 ID」欄位沒有明確標籤，ChatGPT 採用了替代方法來定位正確的欄位並提取指定訂單 ID 的詳細資料。

趨勢分析

當被問及消費者段落在給定期間內的銷售趨勢時，ChatGPT 進行了銷售資料的聚合分析，以確保正確地處理日期並找出可能的趨勢。

資料清理

在提出多個有關資料的問題後，包括繪製圖表，我們要求 ChatGPT 清理資料。它成功識別了原始資料中的問題，並執行了多個清理操作。完整的對話記錄可供查閱。

組織成熟度

FMs 的功能不斷增強，越來越多的組織正在採用它們。使用 FMs 不僅需要考慮技術層面的問題，也需要評估組織自身的成熟度和適應能力。只有當組織充分理解並準備好利用 FMs 的潛力時，才能真正發揮出其價值。因此，評估組織成熟度和制定適合的戰略是成功匯入和應用 FMs 的關鍵一步。

基礎模型的複雜性與挑戰

基礎模型（Foundation Models，FM）是一種大規模、通用的人工智慧模型，預先訓練在大量的廣泛資料上。這些模型可以適應執行多種任務，但要達到最佳的能力和效能，往往需要結合多個互動元件，而不是僅僅依靠單一的基礎模型。基礎模型通常根據 Transformer 架構，這種架構依賴向量空間和注意力機制。

基礎模型的自訂

基礎模型可以透過多種技術進行自訂，例如提示工程（Prompt Engineering）、增強生成（Retrieval Augmented Generation，RAGs）、微調（Fine Tuning）、蒸餾（Distillation）和防護欄（Guardrails）。然而，組織在使用基礎模型時需要考慮的問題之一是專有資訊的洩露。使用基礎模型設計應用程式取決於成本因素和基礎模型的型別。利用基礎模型不僅取決於基礎模型的能力，也取決於開發組織的成熟度。

基礎模型的挑戰

基礎模型仍然存在一些內在的挑戰。其中兩個主要挑戰是：

有限的基礎：基礎模型關注於在資料序列中識別統計模式，而不是根據事實或權威知識。它們可以識別相關性，但缺乏底層的因果模型或世界模型，這可能導致輸出的顯著不準確。
幻覺或填補：沒有基礎，基礎模型缺乏評估其輸出信心和真實性的能力，並且傾向於提供答案，即使這些答案不完全正確。這種現象被稱為“幻覺”或“填補”，它強調了基礎模型在不確定情況下填補空白的創造性方法。

討論問題

選擇一個特定的組織或個人任務，比較使用狹窄的人工智慧模型和基礎模型來實作它的優缺點。
選擇一個特定的組織或個人任務，比較使用不同方法自訂基礎模型來更好地實作它的優缺點。
選擇一個您熟悉的應用程式，比較使用基礎模型和狹窄的人工智慧模型的成本。

圖表翻譯

此圖表展示了基礎模型從預先訓練到自訂的過程，以及它們面臨的挑戰。

第五章：AI 模型生命週期

與 Boming Xia 合作

“選擇你的工具時要謹慎，但不要太過謹慎，以至於你會因為這些工具而分心，或花更多時間在購買工具而不是在寫作桌前。”

——Natalie Goldberg

從模型選擇到生產佈署需要經過多個步驟，並且需要使用大量的支援工具。因此，我們的開篇參照語是如此。你可以花費大量時間在選擇工具上，但不要陷入過度的選擇困難中。

有些工具用於管理用於訓練模型的資料，而其他工具則用於封裝模型以便佈署和服務。我們將在工具使用的背景下討論可用的工具型別。本章旨在幫助那些管理自己資料的人。如果你正在使用供應商提供的預先訓練好的模型，不論是狹義的機器學習模型還是基礎模型，供應商將負責準備和訓練模型，雖然你將負責任何用於自定義模型的資料，例如用於微調、推理和 RAGs 的資料。本章的組織遵循圖 5.1 所描述的 AI 模型開發生命週期。

圖 5.1：AI 模型生命週期——圖 1.2 的下半部分。

5.1 開發模型

如我們在第 1.5 節中定義的，MLOps 是一套用於準備機器學習模型投入生產和營運的實踐。我們將 MLOps 實踐分為三個部分進行討論。

第三章和第四章討論了模型選擇和超引數定義。本章討論了從模型開發到準備提交到構建階段的過程，第六章討論了從系統生命週期到營運的過程，包括但不限於 AI 模型部分。如我們將在第十三章《ARM Hub 案例研究》中看到的，MLOps 步驟適用於狹義機器學習模型和基礎模型的開發。

為了建立一個狹義的機器學習模型，它必須在一組特定於域和應用程式的資料上進行訓練。該集合中的每個資料項都可以被視為一組屬性的集合。其中大多數屬性將被視為獨立變數，其餘被視為依賴變數。所得到的模型的目的是預測依賴變數的值。這個過程涉及選擇一個合適的模型架構、組態模型引數以及訓練模型。

內容解密：

上述過程涉及多個步驟，包括資料預處理、模型選擇、超引數調整和模型訓練。每個步驟都需要仔細考慮，以確保最終模型的準確性和效率。例如，資料預處理可能涉及處理缺失值、資料歸一化和特徵工程。模型選擇需要考慮問題的複雜性、可用資料的大小和品質以及計算資源的限制。超引數調整需要使用技術如網格搜尋、隨機搜尋或貝葉斯最佳化來找到最佳引陣列合。最後，模型訓練需要選擇合適的最佳化演算法和損失函式，並監控訓練過程以避免過度擬合。

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title 基礎模型應用於資料清理與趨勢分析

package "基礎模型資料清理應用" {
    package "Foundation Models" {
        component [ChatGPT] as chatgpt
        component [GPT-4] as gpt4
        component [Transformer 架構] as transformer
    }

    package "資料處理任務" {
        component [資料識別] as identify
        component [資料清理] as clean
        component [趨勢分析] as trend
    }

    package "模型自訂" {
        component [提示工程] as prompt
        component [RAG 增強] as rag
        component [微調/蒸餾] as finetune
    }
}

chatgpt --> gpt4 : 模型選擇
gpt4 --> transformer : 底層架構
transformer --> identify : 資料查詢
identify --> clean : 欄位定位
clean --> trend : 聚合分析
trend --> prompt : 效能回饋
prompt --> rag : 知識增強
rag --> finetune : 模型最佳化

note right of gpt4
  FM 挑戰：
  - 有限的基礎
  - 幻覺/填補
  - 缺乏因果模型
end note

note right of prompt
  自訂技術：
  - Prompt Engineering
  - Fine Tuning
  - Guardrails
end note

@enduml

圖表翻譯：

上述流程圖展示了 AI 模型開發生命週期中的各個步驟。從左到右，第一步是資料預處理，接著是模型選擇、超引數調整、模型訓練和最終的模型評估。每個步驟都對最終模型的效能有著重要影響，因此需要仔細考慮和最佳化。

資料清理在 AI 應用落地的過程中扮演著至關重要的角色，本實驗以 ChatGPT 搭配 GPT-4 模型進行資料清理的探索，驗證了 Foundation Models 在資料處理方面的潛力。透過實驗結果分析，我們發現 ChatGPT 不僅能理解複雜的資料結構，還能準確地回答特定資料查詢、進行趨勢分析，並有效地執行資料清理任務，這展現了其在資料前處理階段的應用價值。然而，如同基礎模型的複雜性與挑戰章節所述，基礎模型仍存在「幻覺」和缺乏真實世界知識基礎的限制，這意味著在實際應用中，仍需人工介入和驗證以確保資料清理的準確性和可靠性。隨著 Foundation Models 的持續發展和技術的迭代更新，預期在資料清理領域的自動化程度和效率將獲得顯著提升。對於重視資料品質的企業而言，積極探索 Foundation Models 在資料清理方面的應用，並結合既有的資料治理策略，將有助於提升資料分析的效率並降低資料處理成本。玄貓認為，Foundation Models 在資料清理領域的應用仍處於早期階段，但其發展潛力不容忽視，及早佈局並累積實戰經驗將是企業未來保持競爭力的關鍵。