2025年08月04日玄貓（BlackCat）

LLM效能提升之文字分段策略探討

本文探討如何透過有效的文字分段策略提升大語言模型（LLM）的效能。文章分析了不良分段的缺點，並提出了根據句子、段落、主題、複雜度和長度的改進策略。同時，也介紹了分詞器的作用、SpaCy 的應用以及實作分塊演算法的範例，提供更全面的技術參考。

自然語言處理機器學習

LLM 文字分段分詞器 SpaCy 預處理 BPE

大語言模型（LLM）的效能與文字分段策略息息相關。不佳的文字分段會導致上下文資訊遺失，增加處理負擔，進而影響模型理解、摘要生成、翻譯和情感分析等任務的準確性。因此，選擇適當的文字分段策略至關重要。常見的策略包含根據句子、段落、主題、複雜度和長度等不同層級的分割，需根據任務需求和資料特性選擇。此外，分詞器在將文字分解成 LLM 可處理的單元扮演關鍵角色，例如 BPE 技術。

糟糕的文字分段範例

如果文字分段沒有做好，可能會導致LLM的效能下降。以下是一個來自新聞文章的段落範例：

「當地議會決定今年增加教育預算玄貓%，這一舉動得到了玄貓的歡迎。額外的資金將用於改善學校基礎設施、聘用更多老師、為學生提供更好的資源。然而，一些批評者認為這次增加還不足以滿足教育系統日益增長的需求。」

如果我們將這段文字分解成孤立的單詞，結果就會缺乏原來的上下文：

[“The”, “local”, “council”, “has”, “decided”, “to”, “increase”, “the”, “budget”,…]

這種糟糕的文字分段範例存在以下問題：

失去上下文：透過將文字分解成單個單詞，原來的意思和單詞之間的關係就丟失了，這使得AI模型難以理解和有效地回應。
增加處理負擔：處理單個單詞需要更多的計算資源，使得它比處理更大的文字塊更為低效。

由於這種糟糕的文字分段，LLM可能面臨以下挑戰：

難以理解文字的主要思想或主題
難以生成準確的摘要或翻譯
無法有效地執行情感分析或文字分類別等任務

改進的文字分段範例

透過應用提示工程原則，可以改進文字分段過程，從而獲得更好的結果。以下是使用相同新聞文章段落的改進範例，但這次按照玄貓進行文字分段：

[“““當地議會決定今年增加教育預算玄貓%，這一舉動得到了玄貓的歡迎。 “””, “““額外的資金將用於改善學校基礎設施、聘用更多老師、為學生提供更好的資源。 “””, ““““然而，一些批評者認為這次增加還不足以滿足教育系統日益增長的需求。 “””]

分工和評估品質

定義文字應該以什麼粒度進行分段，例如按照句子、段落或主題。調整引數，如token數量，以確保分段後的文字塊大小適合LLM處理。這樣可以幫助確保文字被有效地分段和處理，從而提高LLM的效能和準確性。

文字生成的標準實踐

在使用LLM（大語言模型）進行文字生成時，需要考慮到文字的分割策略，以最佳化生成過程。這些策略包括根據句子、段落、主題或複雜度進行分割。

分割策略

句子級別分割：這種方法對於摘要、翻譯和情感分析等任務尤其有用，因為它使LLM更容易理解和處理資訊。
段落級別分割：這種方法允許LLM一次集中於一個連貫的單元，適合於檔案分析、主題建模和資訊提取等應用。
主題級別分割：根據主題進行分割，適合於文字分類別、內容推薦和聚類別等任務。
複雜度級別分割：根據文字的複雜度（如閱讀級別或技術性）進行分割，可以幫助LLM更有效地處理和分析文字，適合於可讀性分析、內容適應和個人化學習等任務。
長度級別分割：根據文字的長度進行分割，可以使LLM更高效地處理內容，適合於大規模文字分析、搜尋引擎索引和文字預處理等應用。

分詞器的作用

在進行文字分割時，還需要使用分詞器（tokenizer）將文字分解為個別的標記（token），如單詞、短語或符號。這些標記可以被LLM分析和處理。有一種稱為BPE（位元組對編碼）的分詞器技術，特別適合於文字的分割和分析。

策略選擇

選擇合適的分割策略取決於具體的任務需求和優先順序。需要考慮的是是否要保留語義上下文，還是簡單地根據某些標準進行分割。每種策略都有其優缺點，需要根據具體情況進行選擇。

文字預處理步驟

文字預處理是自然語言處理（NLP）中的重要步驟，能夠幫助提高AI語言模型的效能和準確度。其中一個常見的預處理步驟是使用分詞器（tokenizer）來分割文字，以避免超過LLM的令牌限制。這個過程可能會增加計算複雜度，但可以最佳化AI模型的效能和準確度。

句子偵測使用SpaCy

句子偵測，也稱為句子邊界消歧，是NLP中的一個過程，涉及識別給定文字中的句子起始和結束位置。這對於需要保留原始內容上下文和結構的任務尤其有用。透過使用SpaCy等函式庫，LLM可以更好地理解和處理資訊，以實作摘要、翻譯和情感分析等任務。

安裝SpaCy和下載模型

要使用SpaCy進行句子偵測，需要先安裝SpaCy函式庫，可以透過pip安裝：pip install spacy。然後，下載英語模型（en_core_web_sm）使用命令：python -m spacy download en_core_web_sm。

句子偵測程式碼示例

以下是使用SpaCy函式庫進行句子偵測的Python程式碼示例：

import spacy

nlp = spacy.load("en_core_web_sm")

text = "This is a sentence. This is another sentence."

doc = nlp(text)
for sent in doc.sents:
    print(sent.text)

輸出結果：

This is a sentence.
This is another sentence.

這段程式碼首先匯入SpaCy函式庫，然後載入英語模型。定義了一段包含兩個句子的文字，然後使用nlp物件處理這段文字，建立了一個doc物件。最後，程式碼迭代遍歷偵測到的句子，並列印每個句子。

建立簡單的文字分塊演算法

除了探索多種分塊策略外，還需要透過實踐來建立自己的直覺。以下是根據字元長度的簡單文字分塊演算法示例，來自部落格文章“Hubspot - 什麼是數字行銷？”。

with open("hubspot_blog_post.txt", "r") as f:
    text = f.read()
    chunks = [text[i : i + 200] for i in range(0, len(text), 200)]
    for chunk in chunks:
        print("-" * 20)
        print(chunk)

這段程式碼讀取了一個名為hubspot_blog_post.txt的檔案，然後根據字元長度將文字分割成塊，並列印每個塊。

圖表翻譯：

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title LLM效能提升之文字分段策略探討

package "機器學習流程" {
    package "資料處理" {
        component [資料收集] as collect
        component [資料清洗] as clean
        component [特徵工程] as feature
    }

    package "模型訓練" {
        component [模型選擇] as select
        component [超參數調優] as tune
        component [交叉驗證] as cv
    }

    package "評估部署" {
        component [模型評估] as eval
        component [模型部署] as deploy
        component [監控維護] as monitor
    }
}

collect --> clean : 原始資料
clean --> feature : 乾淨資料
feature --> select : 特徵向量
select --> tune : 基礎模型
tune --> cv : 最佳參數
cv --> eval : 訓練模型
eval --> deploy : 驗證模型
deploy --> monitor : 生產模型

note right of feature
  特徵工程包含：
  - 特徵選擇
  - 特徵轉換
  - 降維處理
end note

note right of eval
  評估指標：
  - 準確率/召回率
  - F1 Score
  - AUC-ROC
end note

@enduml

這個流程圖展示了從文字預處理到簡單分塊演算法的過程，包括使用分詞器、句子偵測、SpaCy函式庫的安裝和模型下載、程式碼實作以及最終的輸出結果。

最佳化搜尋引擎結果的關鍵：Google My Business 組態

對於許多本地企業而言，最佳化 Google My Business 組態是出現在本地搜尋結果中的關鍵一步。當人們在網上搜尋與企業提供的產品或服務相關的內容時，最佳化的組態可以幫助企業出現在搜尋結果中。例如，For Keeps Bookstore 這家位於亞特蘭大、喬治亞州的本地書店，已經最佳化了其 Google My Business 組態，以便在人們搜尋「亞特蘭大書店」時出現在搜尋結果中。

從商業價值的角度來看，良好的文字分段對於提升LLM在自然語言處理任務中的效能至關重要。上文探討了糟糕的文字分段如何導致上下文丟失、增加處理負擔，並最終影響模型理解和輸出品質。相較之下，以句子、段落或主題為單位的合理分段，配合BPE等分詞器技術，能有效提升模型對文字的理解和處理效率，進而最佳化摘要生成、翻譯、情感分析等任務的準確性。

技術架構層面，SpaCy等NLP函式庫的應用，簡化了句子偵測等預處理步驟，為模型提供了更結構化的輸入，從而提升了模型的效能。雖然自定義分塊演算法（例如根據字元長度的分塊）提供了一定的靈活性，但需謹慎評估其對上下文完整性和模型理解的影響。過於細碎的分割可能反而損害模型效能。

展望未來，隨著LLM技術的持續發展，更精細、更智慧的文字分段策略將扮演 increasingly important 的角色。預期未來會有更多根據語義理解和上下文感知的分段技術出現，進而提升LLM在更複雜NLP任務中的表現。對於企業而言，掌握並應用這些技術將成為提升商業價值、最佳化搜尋引擎結果（例如Google My Business組態）等方面不可或缺的核心競爭力。玄貓認為，深入理解並有效運用文字分段策略，將是未來充分釋放LLM潛力的關鍵所在。