2024年10月17日玄貓（BlackCat）

代理分割技術實作文字分塊與語義分析

本文探討了語義分割和代理分割兩種文字分割技術，並使用 LangChain 和 OpenAI 的 GPT-4o 模型實作代理分割，同時利用 Pydantic 模型提取段落，闡述了文字分塊在處理大型檔案中的重要性以及代理分塊器的應用價值。

自然語言處理資訊檢索

文字分割語義分割代理分割 LangChain GPT-4o Pydantic

文字分割技術在自然語言處理領域中扮演著關鍵角色，它能將長篇文字分解成更易於理解和處理的小塊。本文介紹了語義分割和代理分割兩種技術，前者根據語義相似度進行分割，後者則藉助代理技術和自然語言處理技術，根據指令將文字分割成小塊，更具靈活性。代理分割能有效簡化複雜文字，並根據讀者需求提供個人化資訊檢索體驗。文章進一步闡述瞭如何使用 LangChain 和 OpenAI 的 GPT-4o 模型實作代理分割，並搭配 Pydantic 模型定義段落結構，以便於提取和處理文欄位落。最後，文章強調了文字分塊在處理大型檔案中的重要性，特別是代理分塊器如何根據檔案內容和結構自動分塊，提升資訊處理效率。

文字分割技術：從語義分割到代理分割

文字分割是一種將長篇文字分割成小塊、易於理解的技術，對於自然語言處理和資訊檢索有重要意義。在本文中，我們將探討兩種文字分割技術：語義分割和代理分割。

語義分割

語義分割是一種根據文字的語義相似度進行分割的技術。它使用自然語言處理技術來分析文字的語義結構，並根據語義相似度將文字分割成小塊。語義分割可以有效地將相關的資訊分組在一起，提高資訊檢索的效率。

例如，使用語義分割技術可以將一篇長篇文章分割成多個小塊，每個小塊代表一個不同的主題或概念。這樣可以使讀者更容易地找到相關的資訊，並提高文章的可讀性。

代理分割

代理分割是一種使用代理技術來進行文字分割的方法。它使用自然語言處理技術來分析文字的語義結構，並根據代理的指令將文字分割成小塊。代理分割可以有效地將複雜的文字分割成簡單、易於理解的小塊。

例如，使用代理分割技術可以將一篇長篇文章分割成多個小塊，每個小塊代表一個不同的主題或概念。代理技術可以根據讀者的需求和偏好進行分割，提供更個人化的資訊檢索體驗。

實作代理分割

要實作代理分割，需要使用自然語言處理技術來分析文字的語義結構，並根據代理的指令將文字分割成小塊。以下是實作代理分割的步驟：

載入文字: 載入需要分割的文字。
分析語義結構: 使用自然語言處理技術來分析文字的語義結構。
定義代理指令: 定義代理指令，例如將文字分割成小塊、合併相關的小塊等。
執行代理指令: 執行代理指令，將文字分割成小塊。
輸出結果: 輸出分割後的小塊。

內容解密：

在上述程式碼中，我們使用了 LangChain 和 OpenAI 的 GPT-4o 模型來實作代理分割。首先，我們載入需要分割的文字，然後使用自然語言處理技術來分析文字的語義結構。接下來，我們定義代理指令，例如將文字分割成小塊、合併相關的小塊等。最後，我們執行代理指令，將文字分割成小塊，並輸出結果。

from langchain import hub
import openai

# 載入需要分割的文字
text = "Sarah bought a new book. She enjoys reading fantasy novels."

# 定義代理指令
prompt_template = hub.pull("wfh/proposal-indexing")

# 定義 LLM 模型
llm = openai.ChatOpenAI(model="gpt-4o")

# 執行代理指令
propositions = llm(prompt_template, text)

# 輸出結果
print(propositions)

圖表翻譯：

以下是代理分割的流程圖：

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title 代理分割技術實作文字分塊與語義分析

package "文字分割技術" {
    package "語義分割" {
        component [語義分析] as semantic
        component [相似度計算] as similarity
        component [主題分組] as grouping
    }

    package "代理分割" {
        component [LangChain] as langchain
        component [GPT-4o 模型] as gpt4o
        component [代理指令] as agent_cmd
    }

    package "結構化輸出" {
        component [Pydantic 模型] as pydantic
        component [段落提取] as extract
        component [結果輸出] as output
    }
}

semantic --> similarity : 語義向量
similarity --> grouping : 相似度分數
grouping --> langchain : 分組結果
langchain --> gpt4o : 提示模板
gpt4o --> agent_cmd : 模型回應
agent_cmd --> pydantic : 分割指令
pydantic --> extract : 結構定義
extract --> output : 段落資料

note right of agent_cmd
  代理分割流程：
  - 載入文字
  - 分析語義結構
  - 執行分割指令
end note

note right of pydantic
  Pydantic 優勢：
  - 型別驗證
  - 結構化輸出
  - 易於序列化
end note

@enduml

在這個流程圖中，我們可以看到代理分割的步驟，從載入文字到輸出結果。每個步驟都對應到上述程式碼中的函式或變數。

使用Pydantic模型提取段落

在自然語言處理中，提取段落是一個重要的步驟。為了實作這一功能，我們可以使用Pydantic模型來定義段落的結構。

from pydantic import BaseModel
from typing import List

class 段落(BaseModel):
    段落列表: List[str]

然後，我們可以使用這個模型來建立一個提取段落的鏈條。

extraction_llm = llm.with_structured_output(段落)
extraction_chain = obj | extraction_llm

現在，我們可以使用這個鏈條來提取段落了。

段落列表 = extraction_chain.invoke("""
7月20日，1969年，宇航員尼爾·阿姆斯特朗登上了月球。
他是長官NASA的阿波羅11號任務。
阿姆斯特朗著名地說道：“這是人類的一小步，是人類的一大步。”
當他踏上月球表面時。
""")

print(段落列表)

文字分塊的重要性

在處理大型檔案時，文字分塊是一個非常重要的步驟。它可以幫助我們將檔案分割成較小的、更容易管理的塊，這樣我們就可以更好地理解和處理檔案的內容。

然而，文字分塊並不是一個簡單的任務。不同的檔案有不同的結構和內容，需要不同的分塊策略。例如，在書籍、契約或其他長篇檔案中，資訊通常分散在整個檔案中，使得分塊成為了一個挑戰。

為瞭解決這個問題，我們可以使用代理分塊器（Agentic Chunker）。代理分塊器是一種可以根據檔案的內容和結構自動分塊檔案的工具。它可以幫助我們將檔案分割成較小的、更容易管理的塊，並且保留了檔案的內容和結構。

從技術架構視角來看，本文介紹的語義分割和代理分割技術為處理長篇文字提供了新的思路。深入剖析這兩種技術的核心概念，可以發現它們都致力於提高文字理解和資訊檢索的效率。代理分割更進一步，透過代理技術實作更精細、更個人化的文字分割，展現了其在處理複雜文字方面的優勢。然而，代理分割的實作依賴於自然語言處理技術的發展，其效能和準確性仍有提升空間。目前技術的限制主要體現在對語義理解的深度和對代理指令的精確執行上。對於資源有限的團隊，建議優先將代理分割技術應用於對資訊檢索精準度要求較高的場景，例如知識函式庫構建、檔案摘要等。玄貓認為，隨著自然語言處理技術的持續發展，代理分割技術將在更多領域展現其應用價值，並推動更智慧化的文字處理方案的誕生。接下來的幾年，將是代理分割技術從實驗室走向實際應用的關鍵時期。