2025年07月30日玄貓（BlackCat）

多模態LLM技術發展與應用

本文探討多模態大語言模型（LLM）的技術發展與應用，涵蓋模型架構、提示工程、使用者介面設計、實際應用案例以及未來發展趨勢。多模態LLM整合文字、影像、影片等多種資訊形式，提升模型理解能力和應用範圍，解決LLM訓練資料不足的問題，並應用於視覺輔助、對話式介面等場景。文章也分析了Anthropic的Artifacts等創新

人工智慧自然語言處理

多模態 LLM 提示工程 Artifacts 使用者介面知識蒸餾

多模態大語言模型（LLM）結合文字、影像、影片等資訊，提升模型理解能力，應用範圍更廣泛。此技術有助於解決大語言模型訓練資料不足的問題，並應用於視覺輔助、對話式介面等場景。模型透過卷積神經網路提取影像特徵，轉換為嵌入向量，並賦予位置資訊以保留影像特徵間的關係，再將影像和文字向量串聯，透過 Transformer 架構處理，如同純文字 LLM 的處理方式。多模態模型能處理純文字難以捕捉的領域，例如視覺模型協助視障人士。在開發 LLM 應用程式時，可包含影像和影片等提示內容，但需注意影像與對話的相關性，並以文字介紹影像在對話中的角色。

多模態技術的未來發展與應用

在人工智慧領域中，多模態技術的發展正逐漸成熟。所謂多模態，即結合多種不同的資訊形式，如文字、影像、影片等，以提升模型的理解能力和應用範圍。目前，已有研究利用卷積神經網路將影像特徵轉換為嵌入向量，使其維度與文字標記的維度相同。這些影像向量被賦予位置資訊，以保留影像中特徵之間的關係。隨後，影像和文字向量被串聯起來，並透過Transformer架構進行處理，這種處理方式與純文字大語言模型（LLM）的處理方式相似。

多模態技術的重要性

多模態模型的重要性在於，它們能夠處理無法僅憑文字捕捉的領域。例如，視覺模型可以幫助視障人士閱讀標誌、尋找建築物和導航陌生環境。此外，多模態模型還能提供大量豐富的訓練資料，解決大語言模型可能面臨的訓練資料不足的問題。透過結合影像和影片訓練，模型能夠更好地理解空間推理、社會線索和物理常識等任務。

多模態技術的實際應用

作為提示工程師，在開發未來的LLM應用程式時，將可能包含影像和影片在內的提示內容。然而，即使這些內容與文字形式不同，仍可運用本文中的一些經驗教訓。需要注意的是，應確保影像與當前對話相關，避免讓模型分心。同時，應使用文字適當地介紹影像在對話中的角色，並運用訓練資料中的模式和主題。例如，在傳達資訊時，避免引入新的圖表型別，而應使用更常見的格式。

使用者經驗與使用者介面

許多消費者應用程式的使用者介面（UI）正朝向對話式互動發展。這種趨勢是合理的，因為人類已經進行了20萬年的口語交流，而僅在過去40年中使用螢幕上的按鈕。在本文中，我們將重點關注對話中的一個新元素——工件（Artifacts），或我們所稱的狀態化的對話物件。

狀態化對話物件的概念

在日常與他人的協作中，我們經常討論某個事物——對話的物件。隨著對它的討論，我們可以談論如何修改它，實際上對其進行修改，並討論它如何隨著時間變化——即討論其狀態。成對程式設計是一個很好的例子。檔案是對話的物件，在成對程式設計過程中，我們可以修改它們並討論它們如何變化。

現有聊天應用程式的侷限性

大多數當今的聊天應用程式中的助手並不能以狀態化的方式處理對話的物件。例如，如果你要求ChatGPT撰寫一個函式，然後稍後對其進行修改，它無法傳回並更新函式的內容。相反，它會一遍又一遍地從頭開始重寫該函式。這意味著ChatGPT將N個物件寫入對話中，而不是一個狀態不斷演變的物件。

Anthropic的Artifacts創新

在我們完成本文時，Anthropic推出了Artifacts，這代表著朝著狀態化對話物件方向邁出了一步。在與Anthropic的Claude對話時，Artifact是狀態化的對話物件。它可以是SVG影像、HTML檔案、Plantuml圖表、程式碼或任何其他型別的文字片段。在對話過程中，使用者與助手合作修改Artifact，直到達到使用者的期望。雖然來回的對話被捕捉在螢幕左側的記錄中，但他們正在討論的Artifact仍然狀態化地保留在螢幕右側。

@startuml
skinparam backgroundColor #FEFEFE
skinparam defaultTextAlignment center
skinparam rectangleBackgroundColor #F5F5F5
skinparam rectangleBorderColor #333333
skinparam arrowColor #333333

title Anthropic的Artifacts創新

rectangle "傳送請求" as node1
rectangle "生成Artifact" as node2
rectangle "使用者修改Artifact" as node3
rectangle "繼續對話" as node4

node1 --> node2
node2 --> node3
node3 --> node4

@enduml

Artifact的使用體驗

Claude的Artifacts正規化非常接近我們的設想，但仍有改進空間。例如，大部分的變化僅在UI上，而非在提示工程上。當你要求更改時，Claude仍會從頭開始重寫整個Artifact；它只是知道將Artifact放在右側面板中。這種編輯形式可能無法很好地擴充套件到更長的檔案。

此外，同時與多個Artifact互動並不容易。Claude的介面假設一次只處理一個Artifact。如果你開始討論不同的Artifact，則UI會將其視為前一個介面的不同版本。多個Artifact的另一個問題是，很難參照它們。如果UI和提示中都包含專案的簡稱，將會非常方便。

最後，Claude的介面和提示工程（就此而言）不允許使用者編輯Artifact。如果你看到一個可以輕易修復的小問題，唯一的解決方法是告訴助手為你修復問題（透過重新輸入整個檔案）。如果使用者可以更新Artifact，然後在下一個提示中反映此更新，以便模型瞭解更改，將會是更好的體驗。

LLM 介面設計與未來發展趨勢

在開發自己的 LLM 應用程式時，採用對話式介面是一個不錯的選擇，因為對話對人類來說非常直觀。然而，這需要投入時間來確保介面的品質。雖然使用 LLM 可以快速建立一個基本的功能，但如果沒有經過仔細的設計和改進，它可能會變成一個噱頭，而不是真正為使用者帶來價值的工具。

對話式介面的優勢

模型設計者們意識到了這一點，並不斷創新以提供更好的支援。工具（Tools）的引入是一個重大的改進，它讓助手能夠在現實世界中採取行動。同樣，工件（Artifacts）也非常有用，它讓對話可以圍繞著具體的事物（即具有狀態的討論物件）進行。

對話式介面也是保持使用者參與的最佳方式。正如第8章所討論的，如果讓模型自行運作，它們往往會偏離軌道。但是在緊密的對話互動中，使用者可以及早發現問題並讓助手回到正確的軌道上。

智慧的發展

許多人已經注意到 LLM 變得越來越聰明，而且這種趨勢將會持續下去。讓我們來看看一些即將到來的發展。

基準測試的進步

首先，我們在基準測試方面做得越來越好。基準測試是指具有已知答案的問題集，用於衡量模型相對於人類和其他模型的表現。目前，一些最有用的基準測試已經趨於飽和（見圖11-2），這意味著領先的模型往往能夠完美透過這些測試。這使得這些基準測試對於評估模型的改進變得毫無用處。

模型的飽和有兩個原因：（1）模型確實變得越來越聰明——這是一件好事；（2）模型透過訓練基準測試資料來“作弊”——這是一件非常糟糕的事情。這種“作弊”並非故意為之，只是經過幾年後，基準測試的資訊在網際網路上被複製（逐字或透過描述），並意外地被納入訓練資料中。

新型基準測試的出現

為了修復這個問題，AI 社群正在努力升級基準測試（例如，在 Open LLM Leaderboard 2 上）。我們也開始使用不可記憶的基準測試，例如 ARC-AGI，它實際上是一組由形狀模式組成的心理智力測試。它們測試個人（或 LLM）理解和重現新模式的能力，由於測試問題屬於一個非常大的可能測試空間，它們是透過演算法生成的，並且可以隨時生成更多的測試題，因此無法記憶所有的測試題。

模型訓練的進步

我們也在模型訓練方面做得越來越好。當你使用 ChatGPT 或其競爭對手時，你可以看到這種情況的發生，因為由於更好的 RLHF 訓練（參見第3章），模型能夠更好地表達其思維鏈推理，從而不可避免地導致更有用的回應。

知識蒸餾

接下來，我們在訓練方法上變得更加有創意。例如，大型模型通常無法充分利用其全部容量，因此，如果你能找到一種方法將知識傳達給小型模型，那麼你就可以有效地將大型模型的資訊壓縮到小型模型中。一種稱為知識蒸餾的訓練方法使用大型模型作為小型模型的“老師”。知識蒸餾不是訓練小型模型預測下一個詞，而是訓練小型模型模仿大型模型，預測下一個詞的完整機率集。這種更豐富的訓練資料使小型模型能夠快速訓練，並且與其老師模型相比，準確性僅略微下降。為了換取準確性的下降，這些小型模型比它們所訓練的大型模型便宜得多、速度快得多。

架構創新

除了訓練之外，模型的改進還將來自架構創新。在此，我們僅舉幾例。首先，透過量化方法，模型變得更小、更快。在量化方法中，你可以用8位元引數近似表示引數，而不是用32位元浮點數表示引數，這樣可以大大減少模型的尺寸，相應地降低成本並提高速度。

內容解密：

本段落主要闡述了兩個主要教訓。第一個教訓是 LLM 本質上是一個文字補全引擎，它根據訓練資料中的文字模式進行操作。第二個教訓強調了站在 LLM 的角度、瞭解其思維方式的重要性。這兩個教訓對於有效地使用 LLM 和設計好的提示具有指導意義。

未來趨勢

在你的提示工程工作中，你應該能夠期待這些趨勢繼續下去。如果今天某件事情太昂貴，那麼明天它將會變得更便宜。如果今天某件事情太慢，那麼明天它將會變得更快。如果今天某件事情不適合上下文，那麼明天它將會適合。如果你今天需要解決的問題對於模型來說太難，那麼明天它將會變得更容易解決。然而，請始終記住，即使模型將變得越來越聰明，它們永遠不會變得神奇。如果提示中不包含解決問題所需的資訊，那麼對於模型來說它可能也是不夠的。

程式碼說明

# 以下是一個簡單的 Python 程式碼範例，用於示範如何使用 LLM 進行文字補全。
def llm_text_completion(prompt):
    # 假設這裡有一個 LLM 模型，可以根據提示生成文字
    llm_model = get_llm_model()  
    completion = llm_model.complete(prompt)
    return completion

# 使用範例
prompt = "請根據這個提示生成一段文字。"
completion = llm_text_completion(prompt)
print(completion)

內容解密：

這段程式碼定義了一個名為 llm_text_completion 的函式，該函式接受一個提示（prompt）作為輸入，並使用一個假設的 LLM 模型來生成文字補全結果。函式內部呼叫了 get_llm_model() 函式來取得 LLM 模型的例項，然後呼叫該模型的 complete() 方法來生成補全結果。最後，函式傳回生成的補全結果。在使用範例中，我們展示瞭如何呼叫這個函式並列印生成的補全結果。

大語言模型的提示工程與應用開發

大語言模型（LLMs）在近年來迅速發展，成為人工智慧領域的重要技術。為了有效地使用LLMs，開發者需要了解如何設計有效的提示（prompts），並將其應用於各種任務中。

LLMs 的特性與挑戰

LLMs具有多種特性，包括容易分心、需要明確的指示、不具備心靈感應能力等。開發者需要了解這些特性，以便設計出有效的提示。

LLMs 容易分心：避免在提示中包含無用的資訊。
LLMs 需要明確的指示：提供明確的指示和範例，以幫助LLMs理解任務。
LLMs 不具備心靈感應能力：確保提示中包含LLMs完成任務所需的所有資訊。

應用設計

在設計LLM應用時，需要考慮多個因素，包括模型的選擇、提示的設計、以及評估模型的效能。

轉換使用者問題到模型領域：將使用者的問題轉換為LLMs可以理解的格式。
決定模型大小：根據任務的需求選擇適當大小的模型。
評估應用品質：使用各種指標評估LLM應用的品質。

提示工程

提示工程是設計有效的提示，以引導LLMs完成特定任務的過程。

鏈式思考提示（Chain-of-Thought Prompting）：透過提供一系列的思考步驟，引導LLMs完成複雜的任務。
ReAct：與鏈式思考提示類別似，但更注重模型的反應和互動。

評估與改進

評估LLM應用的效能，並根據評估結果進行改進，是開發過程中非常重要的一環。

使用指標評估品質：使用各種指標，如接受率、達成影響等，評估LLM應用的品質。
A/B 測試：透過A/B測試比較不同的模型或提示，以確定最佳的解決方案。

未來發展

LLMs 的未來發展將繼續加速，開發者需要保持靈活，並不斷嘗試新的方法和技術。

加速變化：LLMs 的發展將繼續加速，開發者需要跟上這一趨勢。
保持實驗精神：不斷嘗試新的方法和技術，以改進LLM應用的效能。

大語言模型（LLMs）技術深度解析與應用

LLM 基礎功能與運作原理

大語言模型（LLMs）是人工智慧領域的一大突破，其基本運作原理建立在自迴歸模型（auto-regressive models）之上。LLMs 能夠根據輸入的提示（prompt）生成連貫的文字，這一過程涉及對語言模式的深度學習和理解。

LLM 的歷史與發展

從早期的語言模型到現在的 GPT 模型，LLMs 的發展經歷了多個階段。GPT 模型的引入標誌著 LLMs 的一個重要里程碑，其根據 Transformer 架構，能夠處理複雜的語言任務。

LLM 的應用設計

在應用設計方面，LLMs 可以用於多種任務，包括但不限於文字生成、問答系統、文字摘要等。設計有效的 LLM 應用需要考慮多個因素，如提示詞的設計、模型的選擇、以及上下文的管理。

提示詞設計與上下文管理

提示詞的設計對於 LLM 的輸出品質至關重要。有效的提示詞設計可以引導模型生成更準確、更相關的內容。同時，上下文的管理也非常重要，因為它直接影響模型對輸入資訊的理解和處理。

動態內容與檢索增強生成（RAG）

動態內容的處理是 LLM 應用中的一個挑戰。檢索增強生成（RAG）技術透過結合檢索和生成能力，能夠有效處理動態內容，提高輸出的品質和相關性。

模型選擇與評估

選擇合適的 LLM 對於應用的成功至關重要。評估模型的效能需要考慮多個指標，包括但不限於準確性、延遲、以及成本效益。

LLM 的未來發展

隨著技術的進步，LLMs 將繼續演進，提供更強大的功能和更廣泛的應用場景。未來，LLMs 可能會在多模態處理、知識蒸餾等方面取得突破。

內容解密：

本篇文章探討了大語言模型（LLMs）的技術深度和應用。首先介紹了LLMs的基本功能和運作原理，接著討論了其歷史與發展。然後，文章重點解析了LLM的應用設計，包括提示詞設計、上下文管理、動態內容處理等關鍵技術。同時，也討論了模型選擇與評估的重要性。最後，文章展望了LLMs的未來發展趨勢，包括多模態處理和知識蒸餾等方向。

LLM 在實際應用中的挑戰與解決方案

挑戰一：提示詞設計

有效的提示詞設計是確保LLM輸出品質的關鍵。然而，設計有效的提示詞並不容易，需要深入瞭解模型的特性和任務需求。

內容解密：

瞭解模型特性：不同的LLM可能對提示詞有不同的反應，瞭解模型的特性和限制對於設計有效的提示詞至關重要。
明確任務需求：清晰定義任務需求可以幫助設計出更精確的提示詞，從而提高輸出的品質。

挑戰二：上下文管理

LLMs 需要有效的上下文管理來理解和處理輸入資訊。上下文管理的挑戰在於如何提供足夠的上下文資訊，同時避免過多的無關資訊。

內容解密：

動態上下文：使用動態上下文可以根據任務需求調整上下文資訊，提高模型的靈活性和輸出品質。
檢索增強生成（RAG）：RAG技術可以幫助LLMs在生成內容時檢索相關資訊，提高輸出的相關性和準確性。

多模態處理

未來的LLMs可能會在多模態處理方面取得突破，能夠同時處理文字、影像、音訊等多種形式的輸入。

內容解密：

技術挑戰：多模態處理面臨著技術上的挑戰，包括如何有效地融合不同模態的資訊。
應用前景：多模態LLMs將具有更廣泛的應用前景，可以應用於多媒體分析、智慧助手等領域。

知識蒸餾

知識蒸餾是一種將大型模型的知識轉移到小型模型上的技術，可以提高小型模型的效能。

內容解密：

提高效率：知識蒸餾可以提高小型模型的效率，使其能夠在資源受限的裝置上執行。
保持效能：透過知識蒸餾，小型模型可以保持與大型模型相似的效能，同時減少計算資源的需求。

LLM 工作流程與應用深度解析

LLM 工作流程概述

大語言模型（LLM）工作流程是建構智慧應用系統的核心架構，其設計與實作直接影響系統的效能與可用性。LLM 工作流程涵蓋從基本互動到複雜任務處理的多個層面，為開發者提供了靈活且強大的工具來開發各種應用。

基本工作流程架構

LLM 的基本工作流程主要圍繞以下幾個關鍵要素展開：

對話式互動與工作流程代理
- 對話式互動著重於自然語言的流暢溝通
- 工作流程代理則強調任務導向的執行效率
- 兩者結合可實作更靈活的應用場景
進階工作流程設計
- 支援多步驟任務處理
- 可整合外部工具與服務
- 提供靈活的自定義選項

關鍵技術與實作

模型選擇與調校

模型選擇原則
- 根據任務需求選擇適當的模型大小
- 平衡效能需求與資源限制
- 考慮模型的特定能力（如多模態處理）
微調（Fine-tuning）技術
- 使用特定領域資料進行模型微調
- 採用低秩適應（LoRA）等高效微調方法
- 確保模型輸出的穩定性與準確性

提示工程（Prompt Engineering）

提示設計原則
- 精確定義任務目標與輸入格式
- 使用清晰的指令與上下文資訊
- 避免歧義性表達
進階提示技術
- 鏈式思考（Chain-of-Thought）提示
- 計劃與解決（Plan-and-Solve）提示
- 自我修正（Reflexion）機制

應用場景與實務案例

電子商務整合範例
- 以 Shopify 外掛行銷為例的 LLM 應用
- 展示如何透過工作流程最佳化業務流程
- 實作自動化客戶服務與行銷活動
多模態應用發展
- 結合文字、影像等多模態輸入
- 提升使用者經驗與互動介面設計
- 開啟智慧應用新可能

評估與最佳化

離線評估
- 使用範例套件進行系統性評估
- 評估指標包括功能正確性等
- 建立完善的測試框架
線上評估
- 實施 A/B 測試以比較不同版本表現
- 蒐集使用者回饋與互動資料
- 持續最佳化系統效能與使用者經驗

未來發展趨勢

多模態智慧發展
- 邁向更全面的多模態模型整合
- 提升跨模態理解與生成能力
- 開拓新的應用領域
高效能運算最佳化
- 探索量化技術等最佳化方法
- 在效能與準確性之間取得平衡
- 支援更廣泛的實務應用場景

透過深入理解 LLM 工作流程的設計原理與實作技術，開發者可以開發出更智慧、更高效的應用系統，滿足不斷演變的業務需求與使用者期望。未來，隨著多模態技術的持續進步，LLM 的應用將拓展至更多創新領域，為各行各業帶來顛覆性的變革。

索引解析與重要概念彙整

本索引涵蓋了大語言模型（LLM）相關的多個技術領域，包括提示工程、模型評估、工具使用和工作流程最佳化等。以下為主要內容的解析與重點整理。

提示工程與模型互動

提示工程（Prompt Engineering）：涉及如何設計有效的提示（prompts）以引導LLM生成預期的輸出。包括零樣本提示（zero-shot prompts）、少樣本提示（few-shot prompting）及軟提示（soft prompting）等技術。
模型互動：涵蓋了與LLM互動的基本模式，如「思考-行動-觀察」（think-act-observe）模式，以及如何透過互動最佳化輸出結果。

模型評估與測試

評估方法：包括功能測試（functional testing）、A/B測試、對比A/B測試等，以確保LLM輸出的準確性和可靠性。
評估指標：如正確性、穩定性、速度等，用於衡量LLM的表現。
測試套件（Test Suites）：用於系統性地評估LLM在不同任務上的表現。

工具使用與整合

工具定義：指導如何定義和使用工具以增強LLM的能力，包括呼叫外部工具和API。
工具選擇：評估何時以及如何選擇合適的工具來完成特定任務。

工作流程最佳化

LLM工作流程（LLM Workflows）：涉及如何設計和管理涉及LLM的自動化流程，以提高效率和輸出品質。
串流工作流程（Streaming Workflows）：最佳化處理連續輸入或大量資料的工作流程。

技術細節與模型架構

轉換器架構（Transformer Architecture）：解析了轉換器架構的基本原理及其在LLM中的應用。
分詞技術（Tokenization）：討論了分詞的過程、不同分詞器的特點及其對LLM輸入輸出的影響。

未來發展與應用

前沿應用：包括將LLM與其他技術（如視覺模型）結合，創造新的應用場景。
挑戰與限制：如偽模式（spurious patterns）、錯誤處理和使用者經驗最佳化等，突出了持續改進的必要性。