返回文章列表

基礎模型應用於資料清理與趨勢分析

本文探討利用 ChatGPT 結合 GPT-4 模型進行資料清理和趨勢分析的實驗。實驗使用包含不一致銷售資料的工作表,測試 ChatGPT 在資料識別、清理和分析方面的能力,並觀察其在處理不同資料結構和問題時的表現。實驗結果顯示,ChatGPT

資料科學 人工智慧

近年來,基礎模型(Foundation Models,FMs)的應用日益廣泛,資料清理和分析是其中一個重要的領域。本實驗探討了 ChatGPT 搭配 GPT-4 模型在資料清理和分析方面的能力。實驗資料為一個包含不一致銷售資料結構的工作表,涵蓋消費者、企業和家庭辦公室等不同段落,每個段落都有不同的運送模式和對應的總計。實驗過程包含提出多個關於不同類別值的問題,例如特定訂單的銷售金額細節、消費者段落在特定期間內的銷售趨勢等。ChatGPT 成功地回答了這些問題,即使在原始資料欄位標籤不明確的情況下,也能透過替代方法定位正確欄位並提取資料。此外,ChatGPT 也成功地執行了多項資料清理操作,展現其在資料處理方面的潛力。實驗結果顯示,基礎模型在資料清理和分析領域具有相當的應用價值,能有效協助開發者處理複雜的資料問題。

資料清理實驗

近年來,Foundation Models(FMs)功能不斷擴充套件,應用領域也日益廣泛。對於 AI 系統開發者而言,資料清理和準備是其中一個重要的應用領域。為了探索 FMs 在資料清理和分析方面的能力,我們進行了一個實驗,嘗試使用 ChatGPT 搭配 GPT-4 模型進行資料清理和分析。以下是實驗結果的摘要,完整對話記錄可線上上查閱。

實驗過程

我們首先上傳了一個包含名為「Dirty 1」的工作表的檔案,該工作表包含不一致的銷售資料結構。資料包括消費者、企業和家庭辦公室等不同段落,每個段落都有不同的運送模式和對應的總計。接著,我們提出了多個有關不同類別值的問題。

ChatGPT 正確回答了這些問題,包括識別特定訂單 ID(CA-2012-162201)的銷售金額細節。由於原始資料中「訂單 ID」欄位沒有明確標籤,ChatGPT 採用了替代方法來定位正確的欄位並提取指定訂單 ID 的詳細資料。

趨勢分析

當被問及消費者段落在給定期間內的銷售趨勢時,ChatGPT 進行了銷售資料的聚合分析,以確保正確地處理日期並找出可能的趨勢。

資料清理

在提出多個有關資料的問題後,包括繪製圖表,我們要求 ChatGPT 清理資料。它成功識別了原始資料中的問題,並執行了多個清理操作。完整的對話記錄可供查閱。

組織成熟度

FMs 的功能不斷增強,越來越多的組織正在採用它們。使用 FMs 不僅需要考慮技術層面的問題,也需要評估組織自身的成熟度和適應能力。只有當組織充分理解並準備好利用 FMs 的潛力時,才能真正發揮出其價值。因此,評估組織成熟度和制定適合的戰略是成功匯入和應用 FMs 的關鍵一步。

基礎模型的複雜性與挑戰

基礎模型(Foundation Models,FM)是一種大規模、通用的人工智慧模型,預先訓練在大量的廣泛資料上。這些模型可以適應執行多種任務,但要達到最佳的能力和效能,往往需要結合多個互動元件,而不是僅僅依靠單一的基礎模型。基礎模型通常根據 Transformer 架構,這種架構依賴向量空間和注意力機制。

基礎模型的自訂

基礎模型可以透過多種技術進行自訂,例如提示工程(Prompt Engineering)、增強生成(Retrieval Augmented Generation,RAGs)、微調(Fine Tuning)、蒸餾(Distillation)和防護欄(Guardrails)。然而,組織在使用基礎模型時需要考慮的問題之一是專有資訊的洩露。使用基礎模型設計應用程式取決於成本因素和基礎模型的型別。利用基礎模型不僅取決於基礎模型的能力,也取決於開發組織的成熟度。

基礎模型的挑戰

基礎模型仍然存在一些內在的挑戰。其中兩個主要挑戰是:

  1. 有限的基礎:基礎模型關注於在資料序列中識別統計模式,而不是根據事實或權威知識。它們可以識別相關性,但缺乏底層的因果模型或世界模型,這可能導致輸出的顯著不準確。
  2. 幻覺或填補:沒有基礎,基礎模型缺乏評估其輸出信心和真實性的能力,並且傾向於提供答案,即使這些答案不完全正確。這種現象被稱為“幻覺”或“填補”,它強調了基礎模型在不確定情況下填補空白的創造性方法。
討論問題
  1. 選擇一個特定的組織或個人任務,比較使用狹窄的人工智慧模型和基礎模型來實作它的優缺點。
  2. 選擇一個特定的組織或個人任務,比較使用不同方法自訂基礎模型來更好地實作它的優缺點。
  3. 選擇一個您熟悉的應用程式,比較使用基礎模型和狹窄的人工智慧模型的成本。

圖表翻譯

此圖表展示了基礎模型從預先訓練到自訂的過程,以及它們面臨的挑戰。

第五章:AI 模型生命週期

與 Boming Xia 合作

“選擇你的工具時要謹慎,但不要太過謹慎,以至於你會因為這些工具而分心,或花更多時間在購買工具而不是在寫作桌前。”

——Natalie Goldberg

從模型選擇到生產佈署需要經過多個步驟,並且需要使用大量的支援工具。因此,我們的開篇參照語是如此。你可以花費大量時間在選擇工具上,但不要陷入過度的選擇困難中。

有些工具用於管理用於訓練模型的資料,而其他工具則用於封裝模型以便佈署和服務。我們將在工具使用的背景下討論可用的工具型別。本章旨在幫助那些管理自己資料的人。如果你正在使用供應商提供的預先訓練好的模型,不論是狹義的機器學習模型還是基礎模型,供應商將負責準備和訓練模型,雖然你將負責任何用於自定義模型的資料,例如用於微調、推理和 RAGs 的資料。本章的組織遵循圖 5.1 所描述的 AI 模型開發生命週期。

圖 5.1:AI 模型生命週期——圖 1.2 的下半部分。

5.1 開發模型

如我們在第 1.5 節中定義的,MLOps 是一套用於準備機器學習模型投入生產和營運的實踐。我們將 MLOps 實踐分為三個部分進行討論。

第三章和第四章討論了模型選擇和超引數定義。本章討論了從模型開發到準備提交到構建階段的過程,第六章討論了從系統生命週期到營運的過程,包括但不限於 AI 模型部分。如我們將在第十三章《ARM Hub 案例研究》中看到的,MLOps 步驟適用於狹義機器學習模型和基礎模型的開發。

為了建立一個狹義的機器學習模型,它必須在一組特定於域和應用程式的資料上進行訓練。該集合中的每個資料項都可以被視為一組屬性的集合。其中大多數屬性將被視為獨立變數,其餘被視為依賴變數。所得到的模型的目的是預測依賴變數的值。這個過程涉及選擇一個合適的模型架構、組態模型引數以及訓練模型。

內容解密:

上述過程涉及多個步驟,包括資料預處理、模型選擇、超引數調整和模型訓練。每個步驟都需要仔細考慮,以確保最終模型的準確性和效率。例如,資料預處理可能涉及處理缺失值、資料歸一化和特徵工程。模型選擇需要考慮問題的複雜性、可用資料的大小和品質以及計算資源的限制。超引數調整需要使用技術如網格搜尋、隨機搜尋或貝葉斯最佳化來找到最佳引陣列合。最後,模型訓練需要選擇合適的最佳化演算法和損失函式,並監控訓練過程以避免過度擬合。

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title 基礎模型應用於資料清理與趨勢分析

package "基礎模型資料清理應用" {
    package "Foundation Models" {
        component [ChatGPT] as chatgpt
        component [GPT-4] as gpt4
        component [Transformer 架構] as transformer
    }

    package "資料處理任務" {
        component [資料識別] as identify
        component [資料清理] as clean
        component [趨勢分析] as trend
    }

    package "模型自訂" {
        component [提示工程] as prompt
        component [RAG 增強] as rag
        component [微調/蒸餾] as finetune
    }
}

chatgpt --> gpt4 : 模型選擇
gpt4 --> transformer : 底層架構
transformer --> identify : 資料查詢
identify --> clean : 欄位定位
clean --> trend : 聚合分析
trend --> prompt : 效能回饋
prompt --> rag : 知識增強
rag --> finetune : 模型最佳化

note right of gpt4
  FM 挑戰:
  - 有限的基礎
  - 幻覺/填補
  - 缺乏因果模型
end note

note right of prompt
  自訂技術:
  - Prompt Engineering
  - Fine Tuning
  - Guardrails
end note

@enduml

圖表翻譯:

上述流程圖展示了 AI 模型開發生命週期中的各個步驟。從左到右,第一步是資料預處理,接著是模型選擇、超引數調整、模型訓練和最終的模型評估。每個步驟都對最終模型的效能有著重要影響,因此需要仔細考慮和最佳化。

資料清理在 AI 應用落地的過程中扮演著至關重要的角色,本實驗以 ChatGPT 搭配 GPT-4 模型進行資料清理的探索,驗證了 Foundation Models 在資料處理方面的潛力。透過實驗結果分析,我們發現 ChatGPT 不僅能理解複雜的資料結構,還能準確地回答特定資料查詢、進行趨勢分析,並有效地執行資料清理任務,這展現了其在資料前處理階段的應用價值。然而,如同基礎模型的複雜性與挑戰章節所述,基礎模型仍存在「幻覺」和缺乏真實世界知識基礎的限制,這意味著在實際應用中,仍需人工介入和驗證以確保資料清理的準確性和可靠性。隨著 Foundation Models 的持續發展和技術的迭代更新,預期在資料清理領域的自動化程度和效率將獲得顯著提升。對於重視資料品質的企業而言,積極探索 Foundation Models 在資料清理方面的應用,並結合既有的資料治理策略,將有助於提升資料分析的效率並降低資料處理成本。玄貓認為,Foundation Models 在資料清理領域的應用仍處於早期階段,但其發展潛力不容忽視,及早佈局並累積實戰經驗將是企業未來保持競爭力的關鍵。