2025年02月13日玄貓（BlackCat）

日誌檔案搜尋與報告產生技術

本文探討如何使用 Python 處理大量的應用程式日誌檔案，包含日誌檔案結構解析、多檔案處理策略、命令列選項解析、遞迴目錄檢索、Bzip2 解壓縮、生成器應用以及例外堆積疊追蹤的偵測與分析等技術。文章提供程式碼範例和詳細的內容解密，並使用 Plantuml 圖表展示搜尋日誌檔案的流程，最後介紹如何使用 MD5

軟體開發系統管理

日誌分析 Python 正規表示式生成器 Bzip2 MD5

在現代軟體開發和系統管理中，有效地處理和分析日誌檔案至關重要。本文將探討如何使用 Python 處理大量的應用程式日誌檔案，特別是針對 Java 應用程式產生的日誌。首先，我們會解析日誌檔案的結構，包括時間戳記、執行緒資訊和異常堆積疊追蹤。接著，我們將介紹如何處理多個日誌檔案，包含支援多種檔案格式（例如純文字和 bzip2 壓縮）、根據檔名模式篩選檔案、合併處理結果以及遞迴處理子目錄。為了提高工具的靈活性，我們將使用 argparse 模組解析命令列選項，例如指設定檔名模式和處理目錄。在處理大量日誌檔案時，我們將運用 os.walk 函式遞迴檢索目錄清單，並使用生成器（Generators）避免將整個檔案載入到記憶體，從而提高效率。此外，我們將示範如何使用內建的 Bzip2 函式庫解壓縮日誌檔案，並使用正規表示式匹配時間戳記模式來偵測潛在的例外狀況。最後，我們將介紹如何使用 MD5 雜湊值比較例外堆積疊追蹤，以便有效地分組和分析相似的例外。

處理複雜搜尋與應用程式日誌檔案報告

瞭解日誌檔案結構

在處理應用程式日誌檔案時，首先需要了解日誌檔案的基本結構。以Java應用程式為例，日誌檔案通常包含時間戳記、執行緒資訊和異常堆積疊追蹤等內容。異常堆積疊追蹤是日誌檔案中的重要組成部分，它提供了錯誤發生的詳細資訊。

異常堆積疊追蹤的結構可以分為三個部分：

第一部分：包含時間戳記和基本的日誌資訊。
第二部分：提供錯誤的簡要描述，例如 org.xml.sax.SAXParseException。
第三部分：異常堆積疊追蹤的“主體”，包括所有相關的堆積疊幀，通常最後一行是Java執行緒的 run 方法。

內容解密：

異常堆積疊追蹤的識別可以根據以下特徵：

異常類別名稱，例如 org.xml.sax.SAXParseException 或 java.io.FileNotFoundException。
包含Java原生函式庫的方法呼叫。

處理多個檔案

在進行日誌解析之前，需要從檔案中讀取資料。為了提高效率，可以採用以下策略：

支援多種檔案格式：日誌檔案可以是純文字或使用bzip2壓縮。
根據檔名模式篩選檔案：例如，只處理檔名包含“web server”的檔案。
合併多個檔案的處理結果：將所有處理結果合併成一份報告。
遞迴處理子目錄：工具應該能夠處理指定目錄及其所有子目錄中的日誌檔案。

程式碼範例：

import os
import glob

LOG_PATTERN = ".log"
BZLOG_PATTERN = ".log.bz2"

def get_log_files(directory, file_pattern):
    log_files = []
    for root, dirs, files in os.walk(directory):
        for file in files:
            if file.endswith(LOG_PATTERN) or file.endswith(BZLOG_PATTERN):
                if file_pattern in file:
                    log_files.append(os.path.join(root, file))
    return log_files

內容解密：

此程式碼段的作用是：

使用 os.walk() 遞迴遍歷指定目錄及其子目錄。
篩選出符合特定模式的日誌檔案（.log 或 .log.bz2）。
根據 file_pattern 進一步篩選檔案。
傳回符合條件的日誌檔案列表。

命令列選項解析

為了使工具更加靈活，可以使用命令列選項來控制其行為，例如指設定檔名模式、處理目錄等。

程式碼範例：

import argparse

def parse_options():
    parser = argparse.ArgumentParser(description='Log File Parser')
    parser.add_argument('-p', '--pattern', help='Filename pattern to match', default='')
    parser.add_argument('directories', nargs='+', help='Directories to process')
    return parser.parse_args()

OPTIONS = parse_options()
ARGS = OPTIONS.directories

內容解密：

此程式碼段的作用是：

定義命令列選項解析器，支援 -p 或 --pattern 選項來指設定檔名模式。
支援多個目錄作為命令列引數。
解析命令列選項並儲存到 OPTIONS 和 ARGS 變數中。

執行複雜搜尋與報告應用程式日誌檔案

使用 os.walk 遞迴檢索目錄清單

在 Python 中，我們可以使用 os.walk() 函式來遞迴地檢索目錄清單。以下是一個範例：

import os

for d in os.walk('.'):
    print(d)

輸出結果將是一個三元組，包含：

內容解密：

os.walk() 傳回一個生成器物件，可以像迭代 Python 清單或元組一樣迭代它。
預設情況下，os.walk() 不會跟隨指向目錄的符號連結。若要跟隨符號連結，可以將 followlinks 引數設為 True。

建構遞迴目錄清單

若要建構遞迴目錄清單，可以使用以下程式碼：

DIRS = []
for dir in ARGS:
    for root, dirs, files in os.walk(dir):
        DIRS.append(root)

內容解密：

DIRS 清單將包含所有需要搜尋的日誌檔案的目錄。
使用 os.walk() 函式遞迴地檢索目錄清單，並將結果儲存在 DIRS 清單中。

搜尋日誌檔案

在取得目錄清單後，需要搜尋符合特定模式的日誌檔案。以下是一個範例：

for DIR in DIRS:
    for file in (DIR + "/" + f for f in os.listdir(DIR) if
                 f.find(LOG_PATTERN) != -1 and f.find(OPTIONS.file_pattern) != -1):
        if file.find(BZLOG_PATTERN) != -1:
            fd = bz2.BZ2File(file, 'r')
        else:
            fd = open(file, 'r')

內容解密：

使用清單推導式（list comprehension）來產生符合搜尋模式的檔案清單。
清單推導式的基本結構為：[<operand> /operation/ for <operand> in <list> /if <check condition>/]。
在此範例中，清單推導式用於產生符合 LOG_PATTERN 和 OPTIONS.file_pattern 的檔案清單。

使用內建的 Bzip2 函式庫

對於壓縮的日誌檔案，可以使用 bz2 函式庫來讀取。以下是一個範例：

fd = bz2.BZ2File(file, 'r')

內容解密：

使用 bz2.BZ2File() 函式來讀取壓縮的日誌檔案。
對於未壓縮的日誌檔案，可以使用 open() 函式來讀取。

搜尋日誌檔案流程

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title 日誌檔案搜尋與報告產生技術

package "資料視覺化流程" {
    package "資料準備" {
        component [資料載入] as load
        component [資料清洗] as clean
        component [資料轉換] as transform
    }

    package "圖表類型" {
        component [折線圖 Line] as line
        component [長條圖 Bar] as bar
        component [散佈圖 Scatter] as scatter
        component [熱力圖 Heatmap] as heatmap
    }

    package "美化輸出" {
        component [樣式設定] as style
        component [標籤註解] as label
        component [匯出儲存] as export
    }
}

load --> clean --> transform
transform --> line
transform --> bar
transform --> scatter
transform --> heatmap
line --> style --> export
bar --> label --> export

note right of scatter
  探索變數關係
  發現異常值
end note

@enduml

此圖示展示了搜尋日誌檔案的流程，包括取得目錄清單、搜尋日誌檔案、檢查檔案是否壓縮以及讀取檔案等步驟。

處理複雜搜尋與應用程式日誌檔案報告

在處理大型資料檔案時，簡單地將所有資料載入記憶體並進行處理的方法並不可行，尤其是當面對大量的日誌資料時。忙碌的系統可能會在短時間內產生數GB的日誌資料，顯然無法將所有資料一次性載入記憶體。

使用生成器（Generators）處理大型資料檔案

生成器函式允許在不載入整個檔案到記憶體的情況下產生輸出（讀取檔案中的行）。如果只需要逐行讀取檔案，可以簡單地寫成：

f = open('file.txt', 'r')
for line in f:
    print(line)

然而，如果需要對檔案資料進行操作並使用結果，編寫自己的生成器函式可能是個好主意。生成器函式可以執行必要的計算並產生結果。

什麼是生成器，以及如何使用它們？

簡而言之，Python 生成器是一種可以傳回多個值並在傳回之間保持自身狀態的函式。這意味著可以多次呼叫該函式，每次都會傳回一個新的結果。每次後續呼叫它時，它都知道其最後的位置，並將從該點繼續。

以下範例函式生成斐波那契數列：

def f():
    x, y = 0, 1
    while True:
        yield y
        x, y = y, x + y

當首次呼叫此函式時，它將初始化 x 和 y 並進入無限迴圈。迴圈中的第一條陳述式是傳回 y 的值（注意在生成器中，必須使用 yield 陳述式）。下次呼叫此函式時，它將從停止執行並傳回值的點（yield 陳述式）開始。

使用生成器遍歷檔案

可以使用生成器遍歷檔案中的所有行。這將有效地在每次呼叫 next() 函式時傳回下一行，而無需實際將整個檔案載入記憶體。

g = (line for line in fd)

然後，使用此生成器在函式中檢索行：

def get_suspect(g):
    line = g.next()
    next_line = g.next()
    while True:
        # 對 line 和 next_line 進行操作
        yield result
        try:
            line, next_line = next_line, g.next()
        except:
            raise StopIteration

檢測例外情況

大多數日誌條目只包含一行。因此，檢測例外日誌條目的方法是：

忽略所有單行條目。這些很可能是來自應用程式的，並且不會有堆積疊追蹤，因為無法將完整的堆積疊追蹤放入一行中。
所有具有多行的日誌條目都被視為包含例外堆積疊追蹤。
例外堆積疊追蹤日誌條目必須在其日誌文字主體中包含 java 和 exception 兩個詞。

程式碼範例與解析

def detect_exceptions(log_lines):
    for line in log_lines:
        if 'java' in line and 'exception' in line:
            yield line

# 使用範例
log_file = open('log.txt', 'r')
log_lines = (line for line in log_file)
exceptions = detect_exceptions(log_lines)

for exception in exceptions:
    print(exception)

內容解密：

detect_exceptions 函式：此函式接受一個日誌行生成器作為輸入，並檢查每行是否包含 'java' 和 'exception'。如果是，則產生該行。
日誌檔案處理：開啟日誌檔案並建立一個生成器 log_lines 以逐行讀取檔案。
例外檢測：呼叫 detect_exceptions 函式並傳入 log_lines 生成器，以檢測包含 'java' 和 'exception' 的行。
結果輸出：遍歷 exceptions 生成器並列印檢測到的例外行。

此方法有效地處理了大型日誌檔案，並且能夠根據特定的條件篩選出感興趣的日誌條目。

執行複雜搜尋與應用程式日誌檔案報告

偵測潛在的例外狀況

偵測日誌檔案中的例外狀況是一個兩階段的過程。首先，進行一個簡單的檢查以過濾掉大多數不符合條件的日誌條目。這種簡單檢查的例子包括判斷日誌條目是否包含多於一行的內容。由於這種檢查非常快速，因此可以有效地減少需要進一步處理的日誌條目數量。

偵測潛在候選專案

抽象地來說，這個功能的演算法可以描述如下：

從檔案中讀取兩行內容。
如果第二行不符合時間戳記模式，則將其新增到結果字串中。
繼續讀取並追加行，直到遇到符合時間戳記模式的行。
傳回結果。
重複此過程，直到檔案中沒有更多資料。

如列表 7-6 所示，使用生成器函式是顯而易見的選擇，因為需要在函式傳回包含潛在例外堆積疊追蹤的結果字串後保留內部函式狀態。該函式本身接受另一個生成器函式，用於檢索文字行。使用這種方法，可以用任何其他能夠生成日誌行的生成器替換檔案讀取生成器，例如資料函式庫讀取函式或甚至是監聽並接受 syslog 服務訊息的函式。

列表 7-6：用於偵測潛在例外的生成器函式

def get_suspect(g):
    line = g.next()
    next_line = g.next()
    while 1:
        if not (TS_RE_1.search(next_line) or TS_RE_2.search(next_line)):
            suspect_body = line
            while not (TS_RE_1.search(next_line) or TS_RE_2.search(next_line)):
                suspect_body += next_line
                next_line = g.next()
            yield suspect_body
        else:
            try:
                line, next_line = next_line, g.next()
            except:
                raise StopIteration

內容解密：

get_suspect(g) 函式使用一個生成器 g 來讀取日誌檔案中的行。
它檢查每行是否符合預定義的時間戳記模式（TS_RE_1 和 TS_RE_2）。
如果一行不符合時間戳記模式，則將其視為潛在的例外堆積疊追蹤的一部分，並繼續讀取直到遇到符合時間戳記模式的行。
使用 yield 將每個完整的例外堆積疊追蹤傳回給呼叫者。

篩選合法的例外追蹤

到目前為止，所有程式碼都位於標準函式中。這主要是因為程式碼處理的是選取檔案和進行一些初始驗證。這些任務都不涉及實際的例外處理程式碼。

驗證例外

def is_exception(self, strace):
    if strace.lower().find('exception') != -1 and \
       strace.lower().find('java') != -1:
        return True
    else:
        return False

內容解密：

is_exception 方法檢查給定的堆積疊追蹤 strace 是否包含 “exception” 和 “java” 兩個詞（不區分大小寫）。
如果兩個條件都滿足，則傳回 True，表示該堆積疊追蹤被視為一個例外。
否則，傳回 False。

例外容器類別的基本結構

列表 7-8 顯示了這個偵測機制如何與類別的其他部分結合在一起。

class ExceptionContainer:
    def __init__(self):
        # 初始化物件
        pass

    def insert(self, suspect_body, f_name=""):
        lines = suspect_body.strip().split("\n", 1)
        log_l = lines[0]
        if self.is_exception(lines[1]):
            # 更新例外統計和計數器
            pass

內容解密：

ExceptionContainer 類別用於管理和分析例外堆積疊追蹤。
insert 方法將偵測到的可疑日誌行插入到容器中，並呼叫 is_exception 方法驗證是否為真正的例外。
如果驗證成功，則更新例外的統計和計數器。

將資料儲存在資料結構中

應用程式的主要目標是收集有關日誌檔案中發生的例外的統計資訊。因此，需要考慮如何以及在哪裡儲存這些資料。有兩個選擇：在記憶體中儲存資料或將其轉儲到資料函式庫中。選擇時需要考慮是否需要在程式終止後以相同的結構維護這些資料，或者是否需要長時間儲存大量記錄並從其他工具存取它們。

執行複雜搜尋與應用程式日誌檔案報告

在處理應用程式日誌檔案時，我們經常需要執行複雜的搜尋並產生報告。這些日誌檔案包含了大量的資訊，包括例外（exceptions）的堆積疊追蹤（stack trace）。本章節將探討如何設計一個系統來有效地處理這些日誌檔案，並產生有用的報告。

資料儲存結構的選擇

在開始設計系統之前，我們需要決定如何儲存資料。由於預期日誌檔案中的例外型別不會太多，因此決定使用 Python 的 list 資料結構來儲存資料。這樣的好處是實作簡單，且能夠滿足目前的需求。

例外堆積疊追蹤資料的結構

每一個例外堆積疊追蹤可以被分解為以下幾個部分：

日誌行（logline）：包含時間戳的行。
例外頭部（exception headline）：例外堆積疊追蹤的第一行。
例外主體（exception body）：堆積疊追蹤的內容。

除了這些資訊之外，我們還需要儲存以下內容：

一個計數器，用於計算每個特定型別的例外的出現次數。
一個描述，用於快速參考。
一個群組，用於組織不同型別的例外。
一個檔名，用於標示例外出現的檔案。

因此，每當我們插入一個新的例外時，將會把以下字典追加到 list 中：

{
    'count': # 計數器
    'log_line': # 日誌行
    'header': # 例外頭部
    'body': # 例外主體
    'f_name': # 檔名
    'desc': # 描述
    'group': # 群組
}

為未知例外產生指紋

當我們沒有提供任何分類別規則時，應用程式需要能夠識別相似的例外並將它們分組。一個有效的方法是產生一個唯一的屬性（例如 MD5 雜湊值）來代表每個例外的堆積疊追蹤，然後比較這些屬性。

import hashlib

def generate_md5_hash(exception_body):
    md5_hash = hashlib.md5()
    md5_hash.update(exception_body.encode('utf-8'))
    return md5_hash.hexdigest()

# 使用範例
exception_body = "example exception body"
md5_hash = generate_md5_hash(exception_body)
print(md5_hash)

內容解密：

import hashlib：匯入 Python 的 hashlib 函式庫，用於產生 MD5 雜湊值。
generate_md5_hash 函式：接受一個字串 exception_body，並使用 MD5 演算法產生其雜湊值。
md5_hash.update(exception_body.encode('utf-8'))：將輸入字串編碼為 UTF-8 格式，並更新 MD5 雜湊物件。
return md5_hash.hexdigest()：傳回產生的 MD5 雜湊值的十六進位表示。

比較例外堆積疊追蹤

我們可以使用產生的 MD5 雜湊值來比較不同的例外堆積疊追蹤。如果兩個例外的 MD5 雜湊值相同，那麼它們很可能是相同的例外。

def compare_exceptions(exception1, exception2):
    md5_hash1 = generate_md5_hash(exception1['body'])
    md5_hash2 = generate_md5_hash(exception2['body'])
    return md5_hash1 == md5_hash2

# 使用範例
exception1 = {'body': "example exception body 1"}
exception2 = {'body': "example exception body 2"}
is_same_exception = compare_exceptions(exception1, exception2)
print(is_same_exception)

內容解密：

compare_exceptions 函式：接受兩個例外字典，產生它們的 MD5 雜湊值，並比較是否相同。
generate_md5_hash(exception['body'])：呼叫前述函式產生例外主體的 MD5 雜湊值。
return md5_hash1 == md5_hash2：傳回比較結果，若相同則傳回 True，否則傳回 False。