2024年04月15日玄貓（BlackCat）

加拿大省份語言變體與 SQL 資料庫進階應用：從地理資訊到查詢最佳化的完整實務指南

深入探討加拿大各省語言多樣性與 SQL 進階查詢技術的實務應用，包含公用表示式 CTE、遞迴查詢、衍生表與子查詢的完整實作範例，展示如何有效分析與管理複雜的地理旅遊資訊系統

資料庫管理後端開發 SQL程式設計

SQL CTE Common Table Expression 遞迴查詢 Recursive Query 衍生表 Derived Table 子查詢 Subquery 資料庫設計 Database Design 地理資訊系統 GIS 查詢最佳化 Query Optimization 關聯式資料庫 RDBMS

加拿大作為北美洲面積第二大的國家,其語言多樣性反映了深厚的殖民歷史與移民文化融合。英語與法語作為官方語言,在十個省份與三個地區中呈現出獨特的分布格局。這種語言文化的複雜性不僅影響當地的社會結構與商業運作,更對資訊系統的設計提出了多語言支援與地理資料管理的雙重挑戰。當我們需要建構一個完整的旅遊資訊平台時,必須同時處理省份階層、城市分布、景點歸屬等多層次的地理關聯,以及英語、法語等不同語言版本的內容呈現。

在資料庫技術的應用層面,傳統的簡單查詢已無法滿足現代地理資訊系統的需求。公用表示式（Common Table Expression，CTE）提供了將複雜查詢邏輯分解為可讀性更高的具名結果集的能力,遞迴查詢（Recursive Query）則能夠處理階層式資料結構,衍生表（Derived Table）與子查詢（Subquery）更提供了靈活的資料存取方式。這些進階技術的組合運用,讓開發者能夠建構出功能強大且維護性良好的查詢系統,有效處理地理資訊、統計分析與報表產生等複雜需求。

本文將透過實際的加拿大旅遊資訊系統案例,深入探討 SQL 進階查詢技術的應用。從資料庫架構的設計開始,逐步展示公用表示式的基礎應用、多重 CTE 的組合技巧、遞迴查詢的階層處理能力,以及衍生表與子查詢的多種使用場景。每個範例都包含詳細的程式碼註解與效能考量,讓讀者不僅能理解技術原理,更能將這些知識直接應用於實務專案中。無論您是正在規劃地理資訊系統的架構師,還是希望提升 SQL 技能的後端開發者,本文都將提供有價值的參考與指引。

加拿大語言變體的地理分布與文化特色

加拿大的語言分布呈現出明顯的地理區隔特徵,這種分布模式深深根植於該國的殖民歷史與移民脈絡之中。魁北克省作為加拿大唯一以法語為官方語言的省份,其使用的魁北克法語（Québécois）是北美洲最重要的法語變體。這種語言變體保留了大量十七世紀法國殖民者帶來的古法語特徵,包括特殊的發音模式、詞彙選擇與文法結構。與歐洲法語相比,魁北克法語在語音上更接近諾曼第方言,並且融入了大量英語借詞以及原住民語言的影響。這種獨特的語言特色不僅是魁北克文化認同的核心要素,也對該省的政治、經濟與社會發展產生深遠影響。

新不倫瑞克省則是加拿大唯一的官方雙語省份,英語與法語享有平等地位。該省的法語使用者主要集中在北部與東部地區,其使用的阿卡迪亞法語（Acadian French）又與魁北克法語有所區別。阿卡迪亞法語保留了更多古法語的特徵,並且受到英語與原住民語言的影響較小。這種雙語環境為該省創造了獨特的文化氛圍,也對公共服務、教育體系與商業運作提出了雙語支援的需求。

大西洋沿岸的新斯科舍省、愛德華王子島省與紐芬蘭與拉布拉多省則呈現出濃厚的英語傳統。新斯科舍省的英語受到蘇格蘭與愛爾蘭移民的深刻影響,保留了許多凱爾特語系的語音特徵與海洋相關詞彙。當地居民的口音帶有明顯的蘇格蘭高地腔調,並且在日常對話中經常使用與漁業、航海相關的專業術語。這種語言特色反映了該省作為重要漁港的歷史地位,也形塑了當地獨特的文化認同。

愛德華王子島省雖然是加拿大面積最小的省份,卻保留了豐富的蘇格蘭蓋爾語（Scottish Gaelic）影響。該島的早期移民主要來自蘇格蘭高地,因此當地英語中仍可聽到許多蓋爾語詞彙與語音特徵。島上的地名、傳統音樂與民間故事都反映出這種凱爾特文化的傳承。這種語言文化的保存使得愛德華王子島成為研究語言演變與文化傳承的重要案例。

中部省份安大略省與魁北克省形成了加拿大人口最密集的都會帶。安大略省使用的加拿大標準英語（Canadian Standard English）被視為全國英語的標準參考。這種英語變體融合了英式英語與美式英語的特徵,在發音、拼寫與詞彙上都呈現出獨特的加拿大特色。作為加拿大經濟與政治中心,安大略省的語言標準對全國的教育體系、媒體傳播與商業溝通都有重要影響。

西部大草原三省份曼尼托巴省、薩斯喀徹溫省與亞伯達省則展現出多元文化融合的語言景觀。這些省份在十九世紀末至二十世紀初經歷了大規模的移民潮,來自烏克蘭、德國、斯堪地那維亞與東歐的移民為當地帶來了豐富的語言多樣性。薩斯喀徹溫省的英語中可以聽到明顯的烏克蘭語與德語影響,許多地名與文化習俗都保留了移民原鄉的特色。這種多元文化的語言環境創造了獨特的社區氛圍,也對當地的教育、宗教與社會結構產生深遠影響。

太平洋沿岸的卑詩省則是加拿大語言多樣性最高的省份之一。除了英語作為主要通用語言外,該省還有大量的華語、粵語、旁遮普語與其他亞洲語言使用者。溫哥華作為加拿大最多元文化的城市,其語言景觀反映了全球化時代的移民模式。這種語言多樣性不僅豐富了當地的文化生活,也對公共服務、商業運作與教育體系提出了多語言支援的需求。

理解這種複雜的語言地理分布對於設計資訊系統至關重要。一個完整的旅遊資訊平台必須能夠支援多種語言版本,並且根據使用者的地理位置與語言偏好提供客製化的內容。這需要在資料庫設計階段就考慮多語言欄位的儲存、語言代碼的標準化,以及內容翻譯的管理機制。透過適當的資料庫架構設計,我們可以有效組織這些複雜的語言文化資訊,為使用者提供準確且貼近在地需求的服務。

資料庫架構設計與關聯模型建立

在建構旅遊資訊系統時,資料庫架構的設計必須能夠有效組織省份、城市與旅遊景點之間的階層關聯。一個良好的架構設計不僅要滿足當前的功能需求,更要具備足夠的彈性以因應未來的擴充需求。我們採用關聯式資料庫模型,透過主鍵（Primary Key）與外鍵（Foreign Key）建立表格間的關聯,確保資料完整性與參照完整性。

資料庫的核心由三個主要表格組成:省份表格（province）儲存加拿大各省份的基本資訊,包括省份名稱、官方語言、人口統計與面積資料。每個省份都有唯一的識別碼作為主鍵,並且使用標準的二字母省份代碼以便於資料交換與整合。官方語言欄位可以儲存單一語言或雙語資訊,反映加拿大的語言政策現實。人口與面積資料則提供了重要的統計基礎,讓我們能夠計算人均旅遊資源、遊客密度等衍生指標。

城市表格（capital_city）記錄各省份的首府城市資訊,透過外鍵關聯到省份表格。雖然表格名稱為 capital_city,但實際應用中可以擴充為包含所有主要城市的資料。每個城市記錄包含城市名稱、所屬省份、人口數與建城年份等資訊。建城年份欄位提供了歷史脈絡,讓我們能夠分析城市發展與旅遊資源之間的關聯。透過適當的索引設計,我們可以快速查詢特定省份的所有城市,或是找出符合特定條件的城市群組。

旅遊景點表格（tourist_attraction）儲存各個景點的詳細資訊,透過外鍵關聯到城市表格。每個景點記錄包含景點名稱、所屬城市、景點類別、開放狀態與年度遊客數等欄位。景點類別可以區分自然景觀、歷史遺跡、文化場館、娛樂設施等不同類型,讓使用者能夠根據興趣篩選景點。開放狀態欄位使用布林值記錄景點目前是否對外開放,這對於提供即時的旅遊資訊非常重要。年度遊客數則提供了景點熱門程度的量化指標,可用於推薦系統或統計分析。

以下是完整的實體關聯圖,展示這三個表格之間的關聯結構:

@startuml
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 14
skinparam minClassWidth 100

entity "省份 (province)" as Province {
  * province_id : INT <<PK>>
  --
  province_name : VARCHAR(100)
  province_code : VARCHAR(2) <<UK>>
  official_language : VARCHAR(50)
  population : INT
  area_km2 : DECIMAL(10,2)
}

entity "城市 (capital_city)" as City {
  * city_id : INT <<PK>>
  --
  city_name : VARCHAR(100)
  * province_id : INT <<FK>>
  population : INT
  founded_year : INT
}

entity "旅遊景點 (tourist_attraction)" as Attraction {
  * attraction_id : INT <<PK>>
  --
  attraction_name : VARCHAR(200)
  * attraction_city_id : INT <<FK>>
  category : VARCHAR(50)
  open_flag : BOOLEAN
  annual_visitors : INT
}

Province ||--o{ City : "擁有"
City ||--o{ Attraction : "包含"

note right of Province
  province_code 使用唯一約束
  確保省份代碼不重複
  official_language 支援
  單語或雙語資訊
end note

note right of City
  province_id 參照
  province 表格
  建立省份與城市的
  一對多關聯
end note

note right of Attraction
  attraction_city_id 參照
  capital_city 表格
  open_flag 記錄即時狀態
  annual_visitors 用於
  統計與排名分析
end note

}
}
@enduml

建立這些表格的 SQL 語法必須仔細考慮資料型態的選擇、約束條件的設定,以及索引的建立。資料型態的選擇影響儲存空間與查詢效能,例如使用 VARCHAR 而非 TEXT 可以提供更好的索引效能。約束條件則確保資料的完整性,包括非空值約束（NOT NULL）、唯一約束（UNIQUE）與外鍵約束（FOREIGN KEY）。索引的建立則是查詢效能最佳化的關鍵,我們需要為常用的查詢條件與聯結欄位建立適當的索引。

-- ============================================================
-- 省份表格建立
-- ============================================================
-- 此表格儲存加拿大各省份的基本資訊
-- 包含官方語言、人口統計與地理資料
-- province_code 使用唯一約束確保不會有重複的省份代碼

CREATE TABLE province (
    -- 主鍵:省份唯一識別碼,使用自動遞增
    province_id INT PRIMARY KEY AUTO_INCREMENT,
    
    -- 省份完整名稱,例如 "Ontario" 或 "Quebec"
    -- 設定為非空值以確保每個省份都有名稱
    province_name VARCHAR(100) NOT NULL,
    
    -- 省份標準代碼,例如 "ON"、"QC"、"BC"
    -- 使用二字母代碼符合加拿大郵政標準
    -- 設定為非空值且唯一,確保代碼的一致性
    province_code VARCHAR(2) NOT NULL,
    
    -- 官方語言資訊
    -- 可能的值包括 "English"、"French"、"English/French"
    -- 新不倫瑞克省是唯一的雙語省份
    official_language VARCHAR(50) NOT NULL,
    
    -- 省份人口數,用於計算人均統計指標
    -- 允許 NULL 以因應資料可能暫時缺失的情況
    population INT,
    
    -- 省份面積,單位為平方公里
    -- 使用 DECIMAL 確保精確度,特別是對於小數點後的數值
    area_km2 DECIMAL(10, 2),
    
    -- 唯一約束確保省份代碼不會重複
    -- 這對於使用省份代碼進行資料整合非常重要
    UNIQUE (province_code)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci COMMENT='加拿大省份基本資訊表';

-- ============================================================
-- 城市表格建立
-- ============================================================
-- 此表格儲存各省份的首府城市資訊
-- 透過外鍵關聯到省份表格建立階層關係

CREATE TABLE capital_city (
    -- 主鍵:城市唯一識別碼,使用自動遞增
    city_id INT PRIMARY KEY AUTO_INCREMENT,
    
    -- 城市名稱,例如 "Toronto"、"Montreal"、"Vancouver"
    -- 設定為非空值確保每個城市都有名稱
    city_name VARCHAR(100) NOT NULL,
    
    -- 外鍵:關聯到省份表格
    -- 表示此城市屬於哪個省份
    -- 設定為非空值因為每個城市都必須屬於某個省份
    province_id INT NOT NULL,
    
    -- 城市人口數,用於計算城市規模與遊客密度
    population INT,
    
    -- 城市建立年份,提供歷史脈絡
    -- 可用於分析城市發展歷史與旅遊資源的關聯
    founded_year INT,
    
    -- 外鍵約束定義
    -- 參照到 province 表格的 province_id
    -- ON DELETE RESTRICT 防止刪除仍有城市的省份
    -- ON UPDATE CASCADE 當省份 ID 更新時自動更新關聯的城市記錄
    FOREIGN KEY (province_id) REFERENCES province(province_id)
        ON DELETE RESTRICT
        ON UPDATE CASCADE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci COMMENT='加拿大城市資訊表';

-- ============================================================
-- 旅遊景點表格建立
-- ============================================================
-- 此表格儲存各城市的旅遊景點詳細資訊
-- 透過外鍵關聯到城市表格

CREATE TABLE tourist_attraction (
    -- 主鍵:景點唯一識別碼,使用自動遞增
    attraction_id INT PRIMARY KEY AUTO_INCREMENT,
    
    -- 景點名稱,例如 "CN Tower"、"Niagara Falls"
    -- 設定為非空值確保每個景點都有名稱
    attraction_name VARCHAR(200) NOT NULL,
    
    -- 外鍵:關聯到城市表格
    -- 表示此景點位於哪個城市
    attraction_city_id INT NOT NULL,
    
    -- 景點類別,例如 "自然景觀"、"歷史遺跡"、"文化場館"
    -- 用於分類檢索與推薦系統
    category VARCHAR(50),
    
    -- 開放狀態旗標
    -- TRUE 表示目前開放參觀,FALSE 表示暫時關閉
    -- 預設值設定為 TRUE,假設新增的景點通常是開放的
    open_flag BOOLEAN DEFAULT TRUE,
    
    -- 年度遊客數,用於計算景點熱門程度
    -- 可作為推薦系統的重要指標
    annual_visitors INT,
    
    -- 外鍵約束定義
    -- 參照到 capital_city 表格的 city_id
    -- ON DELETE RESTRICT 防止刪除仍有景點的城市
    -- ON UPDATE CASCADE 當城市 ID 更新時自動更新關聯的景點記錄
    FOREIGN KEY (attraction_city_id) REFERENCES capital_city(city_id)
        ON DELETE RESTRICT
        ON UPDATE CASCADE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci COMMENT='旅遊景點資訊表';

-- ============================================================
-- 索引建立
-- ============================================================
-- 為常用的查詢條件與聯結欄位建立索引以提升查詢效能

-- 為省份的官方語言欄位建立索引
-- 常用於篩選特定語言區域的查詢,例如查詢所有法語區省份
CREATE INDEX idx_province_language 
ON province(official_language);

-- 為城市的省份外鍵建立索引
-- 常用於查詢特定省份的所有城市
-- 雖然外鍵會自動建立索引,但明確建立可確保最佳化
CREATE INDEX idx_city_province 
ON capital_city(province_id);

-- 為景點的城市外鍵建立索引
-- 常用於查詢特定城市的所有景點
CREATE INDEX idx_attraction_city 
ON tourist_attraction(attraction_city_id);

-- 為景點的開放狀態建立索引
-- 常用於篩選目前開放的景點
CREATE INDEX idx_attraction_open 
ON tourist_attraction(open_flag);

-- 建立複合索引用於同時查詢城市與開放狀態
-- 這對於常見的查詢模式 "某城市的所有開放景點" 特別有效
CREATE INDEX idx_attraction_city_open 
ON tourist_attraction(attraction_city_id, open_flag);

-- 建立複合索引用於排序查詢
-- 當需要依照遊客數排序時可以大幅提升效能
CREATE INDEX idx_attraction_visitors 
ON tourist_attraction(attraction_city_id, annual_visitors DESC);

在實際應用中,我們還需要考慮資料的初始化與範例資料的插入。以下是一些範例資料的插入語句,展示如何填充這個資料庫架構:

-- ============================================================
-- 範例資料插入
-- ============================================================

-- 插入省份資料
-- 包含加拿大主要省份的基本資訊
INSERT INTO province (province_name, province_code, official_language, population, area_km2) VALUES
('Ontario', 'ON', 'English', 14826276, 1076395.00),
('Quebec', 'QC', 'French', 8604495, 1542056.00),
('British Columbia', 'BC', 'English', 5214805, 944735.00),
('Alberta', 'AB', 'English', 4442879, 661848.00),
('Manitoba', 'MB', 'English', 1383765, 647797.00),
('Saskatchewan', 'SK', 'English', 1179844, 651036.00),
('Nova Scotia', 'NS', 'English', 992055, 55284.00),
('New Brunswick', 'NB', 'English/French', 789225, 72908.00),
('Prince Edward Island', 'PE', 'English', 164318, 5660.00),
('Newfoundland and Labrador', 'NL', 'English', 510550, 405212.00);

-- 插入城市資料
-- 包含各省份的首府城市
INSERT INTO capital_city (city_name, province_id, population, founded_year) VALUES
('Toronto', 1, 2930000, 1793),
('Montreal', 2, 1762949, 1642),
('Quebec City', 2, 542298, 1608),
('Vancouver', 3, 662248, 1886),
('Victoria', 3, 91867, 1862),
('Calgary', 4, 1306784, 1875),
('Edmonton', 4, 981280, 1795),
('Winnipeg', 5, 749534, 1873),
('Regina', 6, 226404, 1882),
('Halifax', 7, 439819, 1749),
('Fredericton', 8, 58220, 1785),
('Charlottetown', 9, 38809, 1764),
('St. Johns', 10, 108860, 1583);

-- 插入旅遊景點資料
-- 包含各城市的主要旅遊景點
INSERT INTO tourist_attraction (attraction_name, attraction_city_id, category, open_flag, annual_visitors) VALUES
('CN Tower', 1, '地標建築', TRUE, 2000000),
('Royal Ontario Museum', 1, '博物館', TRUE, 1300000),
('Notre-Dame Basilica', 2, '宗教建築', TRUE, 1000000),
('Old Montreal', 2, '歷史街區', TRUE, 5000000),
('Citadelle of Quebec', 3, '歷史遺跡', TRUE, 200000),
('Stanley Park', 4, '自然公園', TRUE, 8000000),
('Capilano Suspension Bridge', 4, '觀光景點', TRUE, 1200000),
('Butchart Gardens', 5, '花園', TRUE, 1000000),
('Calgary Tower', 6, '地標建築', TRUE, 500000),
('Calgary Stampede', 6, '文化活動', TRUE, 1200000),
('West Edmonton Mall', 7, '購物中心', TRUE, 32000000),
('The Forks', 8, '歷史遺跡', TRUE, 4000000),
('RCMP Heritage Centre', 9, '博物館', TRUE, 60000),
('Halifax Citadel', 10, '歷史遺跡', TRUE, 250000),
('Peggy Cove', 10, '自然景觀', TRUE, 700000);

這個資料庫架構提供了穩固的基礎,讓我們能夠執行各種複雜的查詢操作。透過適當的正規化設計,我們避免了資料重複並確保了資料一致性。外鍵約束保證了參照完整性,防止出現孤兒記錄。索引的建立則確保了查詢效能,特別是在處理大量資料時。在接下來的章節中,我們將深入探討如何運用 SQL 進階技術來查詢與分析這些資料。

公用表示式的基礎概念與實務應用

公用表示式（Common Table Expression，CTE）是現代 SQL 中最重要的進階功能之一,它提供了一種將複雜查詢分解為更易理解與維護的具名結果集的方法。相較於傳統的子查詢或衍生表,公用表示式具有更清晰的語法結構,並且允許在同一個查詢中多次引用相同的結果集,這對於提升程式碼的可讀性與減少重複邏輯特別有幫助。

公用表示式的基本語法使用 WITH 關鍵字開頭,後面跟著一個或多個具名的查詢定義。每個公用表示式都像是一個臨時的視圖（View）,只在該次查詢執行期間存在。這種設計讓開發者能夠將複雜的資料處理邏輯分解為多個步驟,每個步驟都有清楚的語意與目的。當我們需要處理多層次的資料轉換或聚合計算時,公用表示式能夠顯著提升程式碼的可維護性。

在實務應用中,公用表示式特別適合用於需要多次引用相同子查詢結果的場景。傳統的做法可能需要將相同的子查詢邏輯重複寫多次,不僅增加了程式碼的複雜度,也可能導致資料庫需要多次執行相同的計算。使用公用表示式可以避免這個問題,讓資料庫引擎能夠更有效率地執行查詢計畫。

以下範例展示如何使用公用表示式查詢法語區省份中目前開放的旅遊景點。這個查詢將複雜的多表聯結與條件篩選分解為三個清楚的步驟:首先篩選法語區省份,接著篩選開放的景點,最後建立城市與省份的對應關係。透過這種結構化的方式,即使是不熟悉資料庫架構的人也能快速理解查詢的邏輯:

-- ============================================================
-- 使用公用表示式查詢法語區開放的旅遊景點
-- ============================================================
-- 此查詢展示如何使用多個 CTE 將複雜查詢分解為易讀的結構
-- 每個 CTE 都有明確的目的,讓整體邏輯更容易理解與維護

-- 第一個 CTE:篩選法語為官方語言的省份
-- 這個步驟獨立出來可以讓主查詢的聯結邏輯更清晰
WITH french_provinces AS (
    SELECT
        province_id,           -- 省份唯一識別碼,用於後續聯結
        province_name,         -- 省份完整名稱
        province_code,         -- 省份標準代碼
        official_language      -- 保留語言資訊以便在最終結果中顯示
    FROM
        province
    WHERE
        -- 篩選條件:官方語言包含法語
        -- 魁北克省使用 'French',新不倫瑞克省使用 'English/French'
        -- 使用 LIKE 運算子可以同時匹配兩種情況
        official_language LIKE '%French%'
),

-- 第二個 CTE:篩選目前開放參觀的旅遊景點
-- 將開放狀態的檢查獨立出來,讓邏輯更模組化
-- 如果未來需要加入其他篩選條件,可以直接在這裡修改
open_attractions AS (
    SELECT
        attraction_id,         -- 景點唯一識別碼
        attraction_name,       -- 景點名稱
        attraction_city_id,    -- 所屬城市,用於後續聯結
        category,              -- 景點類別,用於分類顯示
        annual_visitors        -- 年度遊客數,可用於排序
    FROM
        tourist_attraction
    WHERE
        -- 只選擇目前開放參觀的景點
        -- 使用 TRUE 而非 1 讓意圖更明確
        open_flag = TRUE
        -- 排除遊客數資料缺失的景點
        -- 這確保後續的排序與統計計算不會受到 NULL 值影響
        AND annual_visitors IS NOT NULL
),

-- 第三個 CTE:建立城市與省份的對應關係
-- 這個中間步驟簡化了最終查詢的聯結邏輯
-- 預先聯結城市與省份表格,讓主查詢更簡潔
city_province_mapping AS (
    SELECT
        cc.city_id,            -- 城市唯一識別碼
        cc.city_name,          -- 城市名稱
        cc.province_id,        -- 所屬省份 ID
        cc.population AS city_population,  -- 城市人口數
        fp.province_name,      -- 省份名稱
        fp.province_code,      -- 省份代碼
        fp.official_language   -- 官方語言
    FROM
        capital_city cc
        -- 內部聯結確保只包含法語區省份的城市
        INNER JOIN french_provinces fp
            ON cc.province_id = fp.province_id
)

-- 主查詢:聯結所有 CTE 產生最終結果
-- 注意這裡的查詢邏輯非常簡潔,因為複雜的處理都在 CTE 中完成
SELECT
    oa.attraction_name AS 景點名稱,
    oa.category AS 景點類別,
    cpm.city_name AS 所在城市,
    cpm.city_population AS 城市人口,
    cpm.province_name AS 所屬省份,
    cpm.province_code AS 省份代碼,
    cpm.official_language AS 官方語言,
    -- 格式化遊客數,增加千分位符號提升可讀性
    FORMAT(oa.annual_visitors, 0) AS 年度遊客數
FROM
    open_attractions oa
    -- 聯結城市省份對應表
    -- 使用內部聯結確保只包含有對應城市資訊的景點
    INNER JOIN city_province_mapping cpm
        ON oa.attraction_city_id = cpm.city_id
-- 排序結果:先依省份,再依城市,最後依遊客數降序
-- 這樣的排序讓結果更容易閱讀與分析
ORDER BY
    cpm.province_name,
    cpm.city_name,
    oa.annual_visitors DESC;

這個查詢範例充分展示了公用表示式的優勢。如果不使用 CTE 而是直接寫成巢狀子查詢,程式碼的可讀性會大幅降低,維護也會變得困難。透過將邏輯分解為三個獨立的 CTE,我們不僅讓每個步驟的目的更清楚,也讓未來的修改與擴充變得更容易。例如,如果需要加入額外的篩選條件或計算欄位,只需要修改對應的 CTE 即可,不會影響其他部分的邏輯。

公用表示式還有一個重要的優點是可以提升查詢的除錯效率。當查詢結果不符合預期時,我們可以單獨執行每個 CTE 來檢查中間結果是否正確。這種除錯方式比處理複雜的巢狀子查詢要直觀得多。在實務專案中,這種可除錯性對於開發效率的提升不容忽視。

多重公用表示式的組合與統計分析

當需要執行更複雜的資料分析時,我們可以定義多個公用表示式並組合使用,每個 CTE 負責特定的計算或轉換任務。這種方式特別適合用於需要多層次聚合計算的統計報表,讓複雜的數學運算與邏輯判斷能夠清楚地組織在不同的處理階段中。

以下範例展示如何使用多個 CTE 來計算各省份的旅遊景點完整統計資訊。這個查詢涉及了從景點層級到城市層級,再到省份層級的多層次聚合,最後還需要與全國總計進行比較。透過將這些計算分散到不同的 CTE 中,我們可以讓每個計算步驟都保持簡潔且易於理解:

-- ============================================================
-- 使用多重 CTE 計算各省份的旅遊景點統計報表
-- ============================================================
-- 此查詢展示如何將複雜的多層次聚合計算組織成清晰的結構
-- 包含城市層級、省份層級與全國層級的統計分析

-- 第一個 CTE:計算每個城市的景點統計資料
-- 這是最基礎的聚合層級,後續的計算都基於這個結果
WITH city_attraction_stats AS (
    SELECT
        attraction_city_id,    -- 城市 ID,用於後續聯結
        -- 計算該城市的總景點數
        -- COUNT(*) 會計算所有記錄,包含 open_flag 為 FALSE 的景點
        COUNT(*) AS total_attractions,
        
        -- 計算目前開放的景點數
        -- 使用 CASE 表達式配合 SUM 來計數符合條件的記錄
        -- 這比使用子查詢更有效率
        SUM(CASE WHEN open_flag = TRUE THEN 1 ELSE 0 END) AS open_attractions,
        
        -- 計算該城市所有景點的總遊客數
        -- 使用 COALESCE 確保結果不會是 NULL
        COALESCE(SUM(annual_visitors), 0) AS total_visitors,
        
        -- 計算平均遊客數並四捨五入到整數
        -- ROUND 函數的第二個參數 0 表示不保留小數位
        ROUND(AVG(annual_visitors), 0) AS avg_visitors,
        
        -- 找出該城市最熱門的景點遊客數
        -- 可用於後續分析景點的相對受歡迎程度
        MAX(annual_visitors) AS max_visitors,
        
        -- 找出該城市最冷門的景點遊客數
        MIN(annual_visitors) AS min_visitors
    FROM
        tourist_attraction
    -- 依城市分組進行聚合計算
    GROUP BY
        attraction_city_id
),

-- 第二個 CTE:將城市層級的統計彙總到省份層級
-- 這個步驟展示如何將詳細資料向上聚合
province_attraction_stats AS (
    SELECT
        cc.province_id,        -- 省份 ID,用於最終聯結
        
        -- 計算該省份包含的城市數
        -- 使用 COUNT(DISTINCT) 確保不會重複計算
        COUNT(DISTINCT cc.city_id) AS city_count,
        
        -- 加總該省份所有城市的景點統計
        -- 這裡是將城市層級的統計向上聚合到省份層級
        SUM(cas.total_attractions) AS province_total_attractions,
        SUM(cas.open_attractions) AS province_open_attractions,
        SUM(cas.total_visitors) AS province_total_visitors,
        
        -- 計算省份層級的平均值
        -- 注意這是城市平均值的平均,不是景點的直接平均
        ROUND(AVG(cas.avg_visitors), 0) AS province_avg_visitors,
        
        -- 找出該省份中遊客數最多的城市的遊客總數
        MAX(cas.total_visitors) AS max_city_visitors
    FROM
        capital_city cc
        -- 內部聯結確保只包含有景點的城市
        INNER JOIN city_attraction_stats cas
            ON cc.city_id = cas.attraction_city_id
    -- 依省份分組進行聚合
    GROUP BY
        cc.province_id
),

-- 第三個 CTE:計算全國層級的統計數據
-- 這個結果將作為計算各省份佔比的基準
national_stats AS (
    SELECT
        -- 全國景點總數
        SUM(province_total_attractions) AS national_total_attractions,
        
        -- 全國遊客總數
        SUM(province_total_visitors) AS national_total_visitors,
        
        -- 全國平均遊客數
        -- 這是各省份平均值的平均
        ROUND(AVG(province_avg_visitors), 0) AS national_avg_visitors
    FROM
        province_attraction_stats
)

-- 主查詢:產生各省份的完整統計報表
-- 結合省份基本資訊、統計數據與全國比較
SELECT
    p.province_name AS 省份名稱,
    p.province_code AS 省份代碼,
    p.official_language AS 官方語言,
    -- 格式化人口數增加可讀性
    FORMAT(p.population, 0) AS 省份人口,
    
    -- 從省份統計 CTE 取得的數據
    pas.city_count AS 城市數量,
    pas.province_total_attractions AS 景點總數,
    pas.province_open_attractions AS 開放景點數,
    
    -- 計算景點開放率百分比
    -- 使用 NULLIF 避免除以零的錯誤
    -- CASE 表達式提供更友善的顯示格式
    CASE
        WHEN pas.province_total_attractions > 0
        THEN CONCAT(
            ROUND(pas.province_open_attractions * 100.0 / 
                  pas.province_total_attractions, 1), 
            '%'
        )
        ELSE 'N/A'
    END AS 開放率,
    
    -- 格式化遊客數
    FORMAT(pas.province_total_visitors, 0) AS 年度遊客總數,
    
    -- 計算該省份景點數佔全國的比例
    CONCAT(
        ROUND(pas.province_total_attractions * 100.0 / 
              ns.national_total_attractions, 2), 
        '%'
    ) AS 景點佔全國比例,
    
    -- 計算該省份遊客數佔全國的比例
    CONCAT(
        ROUND(pas.province_total_visitors * 100.0 / 
              NULLIF(ns.national_total_visitors, 0), 2), 
        '%'
    ) AS 遊客佔全國比例,
    
    -- 計算人均遊客數
    -- 這個指標可以反映旅遊資源相對於人口的豐富程度
    CASE
        WHEN p.population > 0
        THEN ROUND(pas.province_total_visitors * 1.0 / p.population, 2)
        ELSE 0
    END AS 人均遊客數,
    
    -- 計算每個景點的平均遊客數
    CASE
        WHEN pas.province_total_attractions > 0
        THEN FORMAT(
            ROUND(pas.province_total_visitors / pas.province_total_attractions, 0),
            0
        )
        ELSE 'N/A'
    END AS 每景點平均遊客數
FROM
    province p
    -- 內部聯結確保只包含有景點統計的省份
    INNER JOIN province_attraction_stats pas
        ON p.province_id = pas.province_id
    -- CROSS JOIN 讓每一列都能取得全國統計數據
    -- 這是計算佔比所必需的
    CROSS JOIN national_stats ns
-- 依遊客總數降序排序,最熱門的省份排在前面
ORDER BY
    pas.province_total_visitors DESC;

這個查詢範例展示了多重 CTE 在處理複雜統計分析時的強大能力。透過將計算分解為城市層級、省份層級與全國層級三個階段,我們不僅讓邏輯更清晰,也讓除錯與修改變得更容易。如果需要加入新的統計指標,只需要在對應的 CTE 中加入計算邏輯即可,不會影響其他部分的程式碼。

這種層次化的資料聚合方式在實務專案中非常常見,特別是在需要產生管理報表或儀表板的場景中。透過適當的 CTE 設計,我們可以將複雜的業務邏輯轉換為清晰的資料處理流程,讓程式碼的可維護性大幅提升。

遞迴查詢與階層資料的處理技術

遞迴公用表示式（Recursive CTE）是 SQL 中用於處理階層式資料結構的專門技術。它能夠自我參照以遍歷樹狀結構或圖形結構的資料,這種能力在處理組織架構圖、產品類別階層、地理區域包含關係等場景中特別有用。遞迴查詢的核心概念是透過錨點成員（Anchor Member）定義起始條件,然後透過遞迴成員（Recursive Member）不斷參照前一次的結果,直到滿足終止條件為止。

遞迴查詢的執行流程可以視為一個迭代過程:首先執行錨點成員取得初始結果集,接著執行遞迴成員並將前一次的結果作為輸入,產生新的結果集。這個過程會持續進行,直到遞迴成員不再產生新的資料列。最後,所有迭代過程產生的結果會透過 UNION ALL 合併成最終的結果集。理解這個執行流程對於正確設計遞迴查詢的終止條件非常重要,否則可能導致無窮迴圈或效能問題。

@startuml
!define DISABLE_LINK
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 14
skinparam minClassWidth 100

start

:執行錨點成員\n(Anchor Member);

note right
  定義遞迴的起始條件
  通常是選擇根節點
  或最上層的資料
end note

:產生初始結果集\n(R0);

repeat

  :執行遞迴成員\n(Recursive Member);
  
  note right
    參照前一次迭代的結果
    產生下一層級的資料
    透過 JOIN 建立階層關聯
  end note
  
  :產生新的結果集\n(Rn);
  
  if (達到最大遞迴深度?) then (是)
    :強制終止遞迴;
    note right
      MySQL 預設最大
      遞迴深度為 1000
      可透過參數調整
    end note
    break
  endif
  
  :將新結果加入\n累積結果集;

repeat while (新結果集不為空?) is (是) not (否)

:合併所有迭代結果\n(使用 UNION ALL);
:回傳最終結果集;

stop

@enduml

遞迴查詢在實務上有許多應用場景。以下範例展示如何使用遞迴 CTE 產生連續的日期序列,這在產生日曆表或時間序列報表時非常有用:

-- ============================================================
-- 使用遞迴 CTE 產生日期序列
-- ============================================================
-- 此查詢展示遞迴查詢的基本結構與應用
-- 產生從指定日期開始的連續日期序列

WITH RECURSIVE date_sequence AS (
    -- ============================================================
    -- 錨點成員:定義遞迴的起始條件
    -- ============================================================
    -- 這是遞迴的第一次迭代,產生起始日期
    SELECT
        DATE('2024-01-01') AS report_date,     -- 起始日期
        1 AS day_number,                        -- 日期序號,從 1 開始
        DAYNAME(DATE('2024-01-01')) AS day_name,      -- 星期名稱
        MONTHNAME(DATE('2024-01-01')) AS month_name,  -- 月份名稱
        QUARTER(DATE('2024-01-01')) AS quarter,       -- 季度
        WEEK(DATE('2024-01-01')) AS week_number       -- 週數

    UNION ALL

    -- ============================================================
    -- 遞迴成員:定義如何產生下一層級的資料
    -- ============================================================
    -- 每次迭代都會參照前一次的結果,產生下一個日期
    SELECT
        -- 將前一個日期加一天
        DATE_ADD(report_date, INTERVAL 1 DAY),
        
        -- 日期序號遞增
        day_number + 1,
        
        -- 取得新日期的星期名稱
        DAYNAME(DATE_ADD(report_date, INTERVAL 1 DAY)),
        
        -- 取得新日期的月份名稱
        MONTHNAME(DATE_ADD(report_date, INTERVAL 1 DAY)),
        
        -- 取得新日期的季度
        QUARTER(DATE_ADD(report_date, INTERVAL 1 DAY)),
        
        -- 取得新日期的週數
        WEEK(DATE_ADD(report_date, INTERVAL 1 DAY))
    FROM
        date_sequence
    WHERE
        -- ============================================================
        -- 終止條件:確保遞迴不會無限進行
        -- ============================================================
        -- 當日期達到 2024-12-31 時停止遞迴
        -- 這會產生整年 366 天的日期序列(2024 是閏年)
        report_date < DATE('2024-12-31')
)

-- 從遞迴 CTE 選擇結果並產生最終報表
SELECT
    report_date AS 日期,
    day_number AS 天數,
    day_name AS 星期,
    month_name AS 月份,
    quarter AS 季度,
    week_number AS 週數,
    -- 加入額外的計算欄位
    CASE 
        WHEN day_name IN ('Saturday', 'Sunday') 
        THEN '週末' 
        ELSE '平日' 
    END AS 日期類型,
    -- 判斷是否為月初
    CASE 
        WHEN DAY(report_date) = 1 
        THEN '是' 
        ELSE '否' 
    END AS 是否月初,
    -- 判斷是否為月底
    CASE 
        WHEN DAY(report_date) = DAY(LAST_DAY(report_date)) 
        THEN '是' 
        ELSE '否' 
    END AS 是否月底
FROM
    date_sequence
-- 只顯示前 90 天作為範例
-- 在實際應用中可以移除這個限制以取得完整結果
LIMIT 90;

另一個常見的應用是產生數值序列,例如費波那契數列。這個範例展示了遞迴查詢如何處理需要參照前兩次結果的複雜計算:

-- ============================================================
-- 使用遞迴 CTE 產生費波那契數列
-- ============================================================
-- 此查詢展示遞迴查詢處理數學計算的能力
-- 費波那契數列的特點是每個數字等於前兩個數字的和

WITH RECURSIVE fibonacci AS (
    -- ============================================================
    -- 錨點成員:定義數列的前兩個數字
    -- ============================================================
    -- 費波那契數列從 0 和 1 開始
    SELECT
        1 AS position,         -- 位置序號
        0 AS fib_number,       -- 當前的費波那契數
        1 AS next_number       -- 下一個費波那契數

    UNION ALL

    -- ============================================================
    -- 遞迴成員:計算下一個費波那契數
    -- ============================================================
    SELECT
        position + 1,          -- 位置序號遞增
        next_number,           -- 前一個的 next_number 變成當前的 fib_number
        fib_number + next_number  -- 計算新的 next_number
    FROM
        fibonacci
    WHERE
        -- 終止條件:產生前 30 個費波那契數
        -- 可以根據需求調整這個數字
        position < 30
)

SELECT
    position AS 位置,
    fib_number AS 費波那契數,
    -- 加入額外的分析欄位
    -- 計算與前一個數的比率(黃金比例約為 1.618)
    CASE 
        WHEN position > 1 
        THEN ROUND(
            next_number * 1.0 / NULLIF(fib_number, 0), 
            6
        )
        ELSE NULL 
    END AS 與前數比率,
    -- 判斷是否為偶數
    CASE 
        WHEN fib_number % 2 = 0 
        THEN '偶數' 
        ELSE '奇數' 
    END AS 奇偶性
FROM
    fibonacci
ORDER BY
    position;

遞迴查詢在處理實際的階層資料時更能發揮其價值。假設我們需要擴充旅遊資料庫以支援景點的子景點結構（例如一個大型主題樂園包含多個區域,每個區域又包含多個遊樂設施）,遞迴查詢可以輕鬆處理這種任意深度的階層關係:

-- ============================================================
-- 處理階層式景點資料的遞迴查詢範例
-- ============================================================
-- 假設 tourist_attraction 表格增加了 parent_attraction_id 欄位
-- 這個查詢展示如何遍歷整個景點階層結構

-- 首先我們需要修改表格結構(這只是示意,實際執行需要謹慎)
-- ALTER TABLE tourist_attraction 
-- ADD COLUMN parent_attraction_id INT NULL,
-- ADD FOREIGN KEY (parent_attraction_id) 
--     REFERENCES tourist_attraction(attraction_id);

WITH RECURSIVE attraction_hierarchy AS (
    -- ============================================================
    -- 錨點成員:選擇頂層景點(沒有父景點的景點)
    -- ============================================================
    SELECT
        attraction_id,
        attraction_name,
        parent_attraction_id,
        attraction_city_id,
        1 AS level,                    -- 階層深度,頂層為 1
        CAST(attraction_name AS CHAR(500)) AS path,  -- 完整路徑
        attraction_id AS root_attraction_id          -- 根景點 ID
    FROM
        tourist_attraction
    WHERE
        -- 頂層景點的特徵是 parent_attraction_id 為 NULL
        parent_attraction_id IS NULL

    UNION ALL

    -- ============================================================
    -- 遞迴成員:找出每個景點的子景點
    -- ============================================================
    SELECT
        ta.attraction_id,
        ta.attraction_name,
        ta.parent_attraction_id,
        ta.attraction_city_id,
        ah.level + 1,                  -- 階層深度遞增
        -- 建立完整路徑,使用 -> 分隔
        CONCAT(ah.path, ' -> ', ta.attraction_name),
        ah.root_attraction_id          -- 保留根景點 ID
    FROM
        tourist_attraction ta
        -- 聯結遞迴 CTE 本身,找出子景點
        INNER JOIN attraction_hierarchy ah
            ON ta.parent_attraction_id = ah.attraction_id
    WHERE
        -- 防止無窮遞迴的安全措施
        -- 限制最大階層深度為 10
        ah.level < 10
)

SELECT
    attraction_id AS 景點ID,
    attraction_name AS 景點名稱,
    level AS 階層深度,
    path AS 完整路徑,
    root_attraction_id AS 根景點ID,
    -- 使用空格縮排視覺化階層結構
    CONCAT(
        REPEAT('  ', level - 1),
        attraction_name
    ) AS 階層顯示
FROM
    attraction_hierarchy
ORDER BY
    root_attraction_id,
    path;

遞迴查詢是處理階層資料的標準方法,但在使用時需要特別注意效能與安全性。首先,必須確保遞迴有明確的終止條件,避免無窮迴圈。其次,對於深度很大的階層結構,遞迴查詢可能會消耗大量的系統資源。在這種情況下,可以考慮使用物化路徑（Materialized Path）或巢狀集合（Nested Set）等替代方案。最後,大部分資料庫系統都有遞迴深度的限制,在 MySQL 中預設的最大遞迴深度是 1000,可以透過設定 cte_max_recursion_depth 系統變數來調整。

衍生表的應用場景與最佳實踐

衍生表（Derived Table）是在 FROM 子句中定義的臨時結果集,它將子查詢的結果視為一個虛擬表格使用。與公用表示式相比,衍生表的語法更接近傳統的子查詢,但它提供了一種將複雜計算封裝在獨立單元中的方式。衍生表特別適合用於需要在查詢中臨時建立聚合統計或資料轉換的場景,讓主查詢能夠直接引用這些計算結果而不需要重複相同的邏輯。

衍生表與公用表示式在功能上有許多重疊之處,但它們各有適用的場景。衍生表的優勢在於它更接近 SQL 的傳統寫法,對於熟悉子查詢的開發者來說學習曲線較低。此外,衍生表可以直接嵌入在 FROM 子句中,不需要在查詢開頭定義,這在某些情況下能讓程式碼更緊湊。然而,當需要多次引用相同的結果集時,公用表示式通常是更好的選擇,因為它避免了重複定義相同的子查詢。

以下範例展示如何使用衍生表查詢各城市的景點統計資訊。這個查詢在 FROM 子句中定義了一個衍生表來計算景點的聚合統計,然後在主查詢中將這些統計資料與城市和省份資訊聯結:

-- ============================================================
-- 使用衍生表查詢各城市的景點統計資訊
-- ============================================================
-- 此查詢展示衍生表如何將聚合計算封裝在獨立的子查詢中
-- 讓主查詢的邏輯更清晰且易於理解

SELECT
    cc.city_name AS 城市名稱,
    p.province_name AS 省份名稱,
    p.province_code AS 省份代碼,
    p.official_language AS 官方語言,
    FORMAT(cc.population, 0) AS 城市人口,
    
    -- 從衍生表取得的統計資料
    -- 這些欄位都是在衍生表中計算完成的
    attraction_stats.total_count AS 景點總數,
    attraction_stats.open_count AS 開放景點數,
    attraction_stats.closed_count AS 關閉景點數,
    
    -- 計算開放率並格式化為百分比
    -- 使用 NULLIF 避免除以零的錯誤
    CASE
        WHEN attraction_stats.total_count > 0
        THEN CONCAT(
            ROUND(attraction_stats.open_count * 100.0 / 
                  attraction_stats.total_count, 1), 
            '%'
        )
        ELSE 'N/A'
    END AS 開放率,
    
    -- 格式化遊客統計資料
    FORMAT(attraction_stats.total_visitors, 0) AS 年度遊客總數,
    FORMAT(attraction_stats.avg_visitors, 0) AS 平均每景點遊客數,
    FORMAT(attraction_stats.max_visitors, 0) AS 最熱門景點遊客數,
    
    -- 計算景點密度(每十萬人口的景點數)
    -- 這個指標可以反映旅遊資源的豐富程度
    CASE
        WHEN cc.population > 0
        THEN ROUND(
            attraction_stats.total_count * 100000.0 / cc.population, 
            2
        )
        ELSE 0
    END AS 每十萬人景點數,
    
    -- 計算人均遊客數
    CASE
        WHEN cc.population > 0
        THEN ROUND(
            attraction_stats.total_visitors * 1.0 / cc.population, 
            2
        )
        ELSE 0
    END AS 人均遊客數
FROM
    capital_city cc
    -- 聯結省份表格取得語言與地理資訊
    INNER JOIN province p
        ON cc.province_id = p.province_id
    -- ============================================================
    -- 這裡是衍生表的定義
    -- ============================================================
    -- 衍生表必須有別名,這裡使用 attraction_stats
    -- 衍生表中的計算結果可以在主查詢中直接引用
    LEFT JOIN (
        -- 衍生表內部:計算各城市的景點統計
        SELECT
            attraction_city_id,
            
            -- 計算總景點數
            COUNT(*) AS total_count,
            
            -- 分別計算開放與關閉的景點數
            SUM(CASE WHEN open_flag = TRUE THEN 1 ELSE 0 END) AS open_count,
            SUM(CASE WHEN open_flag = FALSE THEN 1 ELSE 0 END) AS closed_count,
            
            -- 計算遊客統計
            COALESCE(SUM(annual_visitors), 0) AS total_visitors,
            ROUND(AVG(annual_visitors), 0) AS avg_visitors,
            MAX(annual_visitors) AS max_visitors,
            MIN(annual_visitors) AS min_visitors,
            
            -- 計算景點類別的多樣性
            -- 使用 COUNT(DISTINCT) 取得不同類別的數量
            COUNT(DISTINCT category) AS category_diversity
        FROM
            tourist_attraction
        GROUP BY
            attraction_city_id
    ) AS attraction_stats
        -- 聯結條件:將衍生表的統計資料與對應的城市關聯
        ON cc.city_id = attraction_stats.attraction_city_id
-- 只顯示有景點的城市
-- 這個條件過濾掉沒有任何景點的城市
WHERE
    attraction_stats.total_count IS NOT NULL
-- 排序結果:依遊客總數降序排列
-- 最受歡迎的城市會顯示在最前面
ORDER BY
    attraction_stats.total_visitors DESC;

衍生表的另一個常見應用是執行多層次的資料轉換。以下範例展示如何使用巢狀衍生表來計算更複雜的統計指標:

-- ============================================================
-- 使用巢狀衍生表進行複雜統計分析
-- ============================================================
-- 此查詢展示如何組合多個衍生表來完成複雜的資料處理

SELECT
    province_name AS 省份,
    total_cities AS 城市數,
    total_attractions AS 景點總數,
    FORMAT(total_visitors, 0) AS 遊客總數,
    CONCAT(ROUND(avg_open_rate, 1), '%') AS 平均開放率,
    visitor_rank AS 遊客排名,
    attraction_rank AS 景點排名,
    -- 計算相對受歡迎程度
    -- 這個指標綜合考慮景點數與遊客數
    CASE
        WHEN total_attractions > 0
        THEN ROUND(
            (total_visitors / total_attractions) / 
            (SELECT AVG(total_visitors / total_attractions) 
             FROM (
                 -- 這裡又是一個衍生表
                 -- 用於計算全國平均值
                 SELECT 
                     SUM(ta.annual_visitors) AS total_visitors,
                     COUNT(*) AS total_attractions
                 FROM tourist_attraction ta
             ) AS national_avg
             WHERE total_attractions > 0
            ),
            2
        )
        ELSE 0
    END AS 相對受歡迎指數
FROM (
    -- 第一層衍生表:彙總各省份的基本統計
    SELECT
        p.province_id,
        p.province_name,
        COUNT(DISTINCT cc.city_id) AS total_cities,
        COUNT(ta.attraction_id) AS total_attractions,
        SUM(ta.annual_visitors) AS total_visitors,
        AVG(
            CASE 
                WHEN ta.attraction_city_id IS NOT NULL 
                THEN (CASE WHEN ta.open_flag = TRUE THEN 100.0 ELSE 0 END)
                ELSE NULL 
            END
        ) AS avg_open_rate,
        -- 使用視窗函數計算排名
        RANK() OVER (
            ORDER BY SUM(ta.annual_visitors) DESC
        ) AS visitor_rank,
        RANK() OVER (
            ORDER BY COUNT(ta.attraction_id) DESC
        ) AS attraction_rank
    FROM
        province p
        LEFT JOIN capital_city cc 
            ON p.province_id = cc.province_id
        LEFT JOIN tourist_attraction ta 
            ON cc.city_id = ta.attraction_city_id
    GROUP BY
        p.province_id, p.province_name
) AS province_summary
WHERE
    total_attractions > 0
ORDER BY
    visitor_rank;

在實務應用中,衍生表與公用表示式往往可以互相替換。選擇使用哪種技術主要取決於個人偏好與特定的查詢需求。一般來說,當查詢邏輯相對簡單且只需要一個臨時結果集時,衍生表是很好的選擇。但當需要多個臨時結果集或需要遞迴查詢時,公用表示式通常更適合。無論選擇哪種技術,重要的是確保查詢邏輯清晰且易於維護。

子查詢的多種應用模式與效能考量

子查詢（Subquery）是 SQL 中最靈活的功能之一,它可以出現在 SELECT、FROM、WHERE 和 HAVING 子句中,提供多樣化的資料存取方式。子查詢根據回傳結果的類型可以分為純量子查詢（回傳單一值）、列子查詢（回傳單一欄位的多個值）與表格子查詢（回傳完整的結果集）。理解這些不同類型的子查詢及其適用場景,對於撰寫高效且易讀的 SQL 查詢非常重要。

在 WHERE 子句中使用的純量子查詢是最常見的應用模式之一。這種子查詢回傳單一值,通常用於與其他欄位進行比較。以下範例展示如何使用純量子查詢來查詢遊客數高於平均值的景點:

-- ============================================================
-- 在 WHERE 子句中使用純量子查詢
-- ============================================================
-- 此查詢找出年度遊客數高於全國平均值的旅遊景點
-- 展示如何使用子查詢進行動態比較

SELECT
    ta.attraction_name AS 景點名稱,
    ta.category AS 景點類別,
    cc.city_name AS 所在城市,
    p.province_name AS 所屬省份,
    FORMAT(ta.annual_visitors, 0) AS 年度遊客數,
    -- 計算該景點遊客數與平均值的比率
    -- 這讓我們知道這個景點有多受歡迎
    CONCAT(
        ROUND(
            ta.annual_visitors * 100.0 / 
            (SELECT AVG(annual_visitors) 
             FROM tourist_attraction 
             WHERE annual_visitors IS NOT NULL),
            1
        ),
        '%'
    ) AS 相對平均值比率
FROM
    tourist_attraction ta
    -- 聯結城市表格取得地理資訊
    INNER JOIN capital_city cc
        ON ta.attraction_city_id = cc.city_id
    -- 聯結省份表格取得更完整的地理資訊
    INNER JOIN province p
        ON cc.province_id = p.province_id
WHERE
    -- ============================================================
    -- 這裡是純量子查詢的應用
    -- ============================================================
    -- 子查詢計算所有景點的平均遊客數
    -- 主查詢只選擇高於這個平均值的景點
    ta.annual_visitors > (
        SELECT AVG(annual_visitors)
        FROM tourist_attraction
        WHERE annual_visitors IS NOT NULL
    )
    -- 確保遊客數資料存在
    AND ta.annual_visitors IS NOT NULL
-- 依遊客數降序排列
ORDER BY
    ta.annual_visitors DESC;

在 SELECT 子句中使用相關子查詢（Correlated Subquery）可以為每一筆記錄計算動態值。相關子查詢的特點是它會參照外部查詢的欄位,因此對於外部查詢的每一列都會執行一次。以下範例展示如何使用相關子查詢計算每個景點在其城市中的排名:

-- ============================================================
-- 在 SELECT 子句中使用相關子查詢
-- ============================================================
-- 此查詢為每個景點計算它在所屬城市中的遊客數排名
-- 展示相關子查詢如何參照外部查詢的欄位

SELECT
    ta.attraction_name AS 景點名稱,
    ta.category AS 景點類別,
    cc.city_name AS 所在城市,
    FORMAT(ta.annual_visitors, 0) AS 年度遊客數,
    -- ============================================================
    -- 這裡是相關子查詢的應用
    -- ============================================================
    -- 子查詢計算在同一城市中有多少景點的遊客數比當前景點多
    -- 加 1 就是當前景點的排名
    (
        SELECT COUNT(*) + 1
        FROM tourist_attraction ta2
        WHERE 
            -- 限制在同一城市
            ta2.attraction_city_id = ta.attraction_city_id
            -- 只計算遊客數更多的景點
            AND ta2.annual_visitors > ta.annual_visitors
            -- 確保資料完整性
            AND ta2.annual_visitors IS NOT NULL
    ) AS 城市內排名,
    -- 計算該景點佔該城市總遊客數的比例
    CONCAT(
        ROUND(
            ta.annual_visitors * 100.0 / 
            (
                SELECT SUM(annual_visitors)
                FROM tourist_attraction ta3
                WHERE ta3.attraction_city_id = ta.attraction_city_id
                  AND ta3.annual_visitors IS NOT NULL
            ),
            2
        ),
        '%'
    ) AS 佔城市遊客比例,
    -- 計算與城市平均值的差距
    FORMAT(
        ta.annual_visitors - 
        (
            SELECT AVG(annual_visitors)
            FROM tourist_attraction ta4
            WHERE ta4.attraction_city_id = ta.attraction_city_id
              AND ta4.annual_visitors IS NOT NULL
        ),
        0
    ) AS 與城市平均差距
FROM
    tourist_attraction ta
    INNER JOIN capital_city cc
        ON ta.attraction_city_id = cc.city_id
WHERE
    ta.annual_visitors IS NOT NULL
-- 先依城市分組,再依遊客數排序
ORDER BY
    cc.city_name,
    ta.annual_visitors DESC;

EXISTS 運算子配合子查詢是另一個強大的組合,特別適合用於檢查是否存在符合特定條件的記錄。EXISTS 的優勢在於它只需要確認是否存在匹配的記錄,而不需要回傳實際的資料,因此在某些情況下效能會比 IN 運算子更好:

-- ============================================================
-- 使用 EXISTS 子查詢進行存在性檢查
-- ============================================================
-- 此查詢找出擁有高人氣景點的省份
-- 展示 EXISTS 如何有效率地檢查關聯資料的存在

SELECT
    p.province_name AS 省份名稱,
    p.province_code AS 省份代碼,
    p.official_language AS 官方語言,
    FORMAT(p.population, 0) AS 省份人口,
    -- 計算該省份符合條件的景點數
    (
        SELECT COUNT(*)
        FROM capital_city cc2
        INNER JOIN tourist_attraction ta2
            ON cc2.city_id = ta2.attraction_city_id
        WHERE cc2.province_id = p.province_id
          AND ta2.annual_visitors > 1000000
    ) AS 百萬級景點數,
    -- 計算這些高人氣景點的總遊客數
    FORMAT(
        (
            SELECT SUM(ta3.annual_visitors)
            FROM capital_city cc3
            INNER JOIN tourist_attraction ta3
                ON cc3.city_id = ta3.attraction_city_id
            WHERE cc3.province_id = p.province_id
              AND ta3.annual_visitors > 1000000
        ),
        0
    ) AS 百萬級景點總遊客數
FROM
    province p
WHERE
    -- ============================================================
    -- 這裡是 EXISTS 子查詢的應用
    -- ============================================================
    -- EXISTS 只檢查是否存在符合條件的記錄
    -- 不需要回傳實際的資料,因此效能較好
    EXISTS (
        SELECT 1
        FROM capital_city cc
        INNER JOIN tourist_attraction ta
            ON cc.city_id = ta.attraction_city_id
        WHERE 
            -- 關聯到外部查詢的省份
            cc.province_id = p.province_id
            -- 條件:年遊客數超過一百萬
            AND ta.annual_visitors > 1000000
    )
ORDER BY
    p.province_name;

IN 運算子配合子查詢則適合用於根據一組值來篩選記錄。以下範例展示如何使用 IN 子查詢來查詢法語區所有城市的景點:

-- ============================================================
-- 使用 IN 子查詢進行集合匹配
-- ============================================================
-- 此查詢找出所有位於法語區省份的旅遊景點
-- 展示 IN 運算子如何與子查詢配合使用

SELECT
    ta.attraction_name AS 景點名稱,
    ta.category AS 景點類別,
    cc.city_name AS 所在城市,
    FORMAT(ta.annual_visitors, 0) AS 年度遊客數,
    ta.open_flag AS 是否開放,
    -- 加入景點描述性資訊
    CASE
        WHEN ta.annual_visitors > 2000000 
        THEN '超熱門'
        WHEN ta.annual_visitors > 1000000 
        THEN '熱門'
        WHEN ta.annual_visitors > 500000 
        THEN '受歡迎'
        ELSE '一般'
    END AS 熱門程度
FROM
    tourist_attraction ta
    INNER JOIN capital_city cc
        ON ta.attraction_city_id = cc.city_id
WHERE
    -- ============================================================
    -- 這裡是 IN 子查詢的應用
    -- ============================================================
    -- 子查詢回傳所有法語區省份的 ID 列表
    -- 主查詢只選擇城市位於這些省份的景點
    cc.province_id IN (
        SELECT province_id
        FROM province
        WHERE official_language LIKE '%French%'
    )
    -- 確保遊客數資料存在
    AND ta.annual_visitors IS NOT NULL
ORDER BY
    cc.city_name,
    ta.annual_visitors DESC;

NOT EXISTS 和 NOT IN 則可以用於尋找不符合特定條件的記錄。以下範例展示如何找出沒有任何景點的城市:

-- ============================================================
-- 使用 NOT EXISTS 查詢缺失關聯的記錄
-- ============================================================
-- 此查詢找出沒有任何旅遊景點的城市
-- 這種資訊對於旅遊資源規劃很有價值

SELECT
    cc.city_name AS 城市名稱,
    p.province_name AS 所屬省份,
    p.official_language AS 官方語言,
    FORMAT(cc.population, 0) AS 城市人口,
    cc.founded_year AS 建城年份,
    -- 計算城市年齡
    YEAR(CURRENT_DATE) - cc.founded_year AS 城市年齡
FROM
    capital_city cc
    INNER JOIN province p
        ON cc.province_id = p.province_id
WHERE
    -- ============================================================
    -- 使用 NOT EXISTS 找出沒有景點的城市
    -- ============================================================
    -- 這種查詢對於識別需要發展旅遊資源的地區很有幫助
    NOT EXISTS (
        SELECT 1
        FROM tourist_attraction ta
        WHERE ta.attraction_city_id = cc.city_id
    )
ORDER BY
    p.province_name,
    cc.city_name;

在使用子查詢時需要特別注意效能考量。相關子查詢會對外部查詢的每一列都執行一次,當資料量很大時可能導致效能問題。在這種情況下,考慮將相關子查詢改寫為 JOIN 或使用公用表示式可能會有更好的效能。此外,確保子查詢中使用的欄位都有適當的索引,這對於提升查詢效能非常重要。

綜合應用案例:建構完整的旅遊資訊分析報表

在實務專案中,我們經常需要結合多種 SQL 進階技術來建構功能完整的分析報表。以下是一個綜合性的案例,展示如何組合公用表示式、衍生表、子查詢與視窗函數來產生加拿大旅遊資訊的完整分析報表。這個報表涵蓋了省份層級、城市層級與景點層級的多維度分析,並包含排名、比例計算與趨勢分析等進階功能:

-- ============================================================
-- 加拿大旅遊資訊完整分析報表
-- ============================================================
-- 此查詢結合多種 SQL 進階技術產生綜合性的分析報表
-- 包含多層次的資料聚合、視窗函數與複雜的計算邏輯

-- 定義用於計算的多個 CTE
-- 每個 CTE 負責特定的資料處理或計算任務
WITH province_summary AS (
    -- ============================================================
    -- 第一個 CTE:計算各省份的整體統計資料
    -- ============================================================
    -- 這個 CTE 是整個報表的基礎,提供省份層級的聚合資料
    SELECT
        p.province_id,
        p.province_name,
        p.province_code,
        p.official_language,
        p.population AS province_population,
        p.area_km2 AS province_area,
        
        -- 計算該省份包含的城市數
        COUNT(DISTINCT cc.city_id) AS city_count,
        
        -- 計算景點相關統計
        COUNT(ta.attraction_id) AS attraction_count,
        SUM(CASE WHEN ta.open_flag = TRUE THEN 1 ELSE 0 END) AS open_attraction_count,
        SUM(CASE WHEN ta.open_flag = FALSE THEN 1 ELSE 0 END) AS closed_attraction_count,
        
        -- 計算遊客統計
        COALESCE(SUM(ta.annual_visitors), 0) AS total_visitors,
        COALESCE(AVG(ta.annual_visitors), 0) AS avg_visitors_per_attraction,
        COALESCE(MAX(ta.annual_visitors), 0) AS max_attraction_visitors,
        
        -- 計算景點類別多樣性
        COUNT(DISTINCT ta.category) AS category_diversity
    FROM
        province p
        LEFT JOIN capital_city cc 
            ON p.province_id = cc.province_id
        LEFT JOIN tourist_attraction ta 
            ON cc.city_id = ta.attraction_city_id
    GROUP BY
        p.province_id, p.province_name, p.province_code, 
        p.official_language, p.population, p.area_km2
),

visitor_rankings AS (
    -- ============================================================
    -- 第二個 CTE:使用視窗函數計算各種排名
    -- ============================================================
    -- 這個 CTE 展示視窗函數在排名分析中的應用
    SELECT
        province_id,
        total_visitors,
        attraction_count,
        
        -- 計算遊客數排名
        -- RANK() 會在數值相同時給予相同排名,並跳過下一個排名
        RANK() OVER (
            ORDER BY total_visitors DESC
        ) AS visitor_rank,
        
        -- 計算景點數排名
        DENSE_RANK() OVER (
            ORDER BY attraction_count DESC
        ) AS attraction_rank,
        
        -- 計算人均遊客數排名
        -- 需要處理可能的除以零情況
        RANK() OVER (
            ORDER BY 
                CASE 
                    WHEN province_population > 0 
                    THEN total_visitors * 1.0 / province_population 
                    ELSE 0 
                END DESC
        ) AS per_capita_rank,
        
        -- 計算景點密度排名(每平方公里的景點數)
        RANK() OVER (
            ORDER BY 
                CASE 
                    WHEN province_area > 0 
                    THEN attraction_count * 1.0 / province_area 
                    ELSE 0 
                END DESC
        ) AS density_rank
    FROM
        province_summary
),

national_totals AS (
    -- ============================================================
    -- 第三個 CTE:計算全國層級的統計數據
    -- ============================================================
    -- 這些數據將用於計算各省份的佔比
    SELECT
        SUM(attraction_count) AS national_total_attractions,
        SUM(total_visitors) AS national_total_visitors,
        SUM(province_population) AS national_total_population,
        SUM(province_area) AS national_total_area,
        
        -- 計算全國平均值
        AVG(avg_visitors_per_attraction) AS national_avg_visitors,
        
        -- 計算全國景點類別總數
        SUM(category_diversity) AS total_categories
    FROM
        province_summary
),

top_attractions AS (
    -- ============================================================
    -- 第四個 CTE:找出各省份最熱門的景點
    -- ============================================================
    -- 使用視窗函數為每個省份的景點排名
    SELECT
        cc.province_id,
        ta.attraction_name,
        ta.category,
        ta.annual_visitors,
        -- 使用 ROW_NUMBER 為每個省份的景點編號
        -- 只保留每個省份遊客數最多的景點
        ROW_NUMBER() OVER (
            PARTITION BY cc.province_id 
            ORDER BY ta.annual_visitors DESC
        ) AS attraction_rank_in_province
    FROM
        tourist_attraction ta
        INNER JOIN capital_city cc 
            ON ta.attraction_city_id = cc.city_id
    WHERE
        ta.annual_visitors IS NOT NULL
)

-- ============================================================
-- 主查詢:組合所有 CTE 產生最終報表
-- ============================================================
SELECT
    -- 基本資訊欄位
    ps.province_name AS 省份名稱,
    ps.province_code AS 省份代碼,
    ps.official_language AS 官方語言,
    FORMAT(ps.province_population, 0) AS 省份人口,
    FORMAT(ps.province_area, 0) AS 省份面積_平方公里,
    
    -- 數量統計欄位
    ps.city_count AS 城市數量,
    ps.attraction_count AS 景點總數,
    ps.open_attraction_count AS 開放景點數,
    ps.closed_attraction_count AS 關閉景點數,
    
    -- 開放率計算
    CASE
        WHEN ps.attraction_count > 0
        THEN CONCAT(
            ROUND(ps.open_attraction_count * 100.0 / ps.attraction_count, 1), 
            '%'
        )
        ELSE 'N/A'
    END AS 景點開放率,
    
    -- 遊客統計欄位
    FORMAT(ps.total_visitors, 0) AS 年度遊客總數,
    FORMAT(ps.avg_visitors_per_attraction, 0) AS 每景點平均遊客數,
    
    -- 全國佔比計算
    CONCAT(
        ROUND(ps.attraction_count * 100.0 / nt.national_total_attractions, 2), 
        '%'
    ) AS 景點佔全國比例,
    CONCAT(
        ROUND(ps.total_visitors * 100.0 / NULLIF(nt.national_total_visitors, 0), 2), 
        '%'
    ) AS 遊客佔全國比例,
    
    -- 排名資訊
    vr.visitor_rank AS 遊客數排名,
    vr.attraction_rank AS 景點數排名,
    vr.per_capita_rank AS 人均遊客排名,
    vr.density_rank AS 景點密度排名,
    
    -- 計算各種密度與比率指標
    CASE
        WHEN ps.province_population > 0
        THEN ROUND(ps.total_visitors * 1.0 / ps.province_population, 2)
        ELSE 0
    END AS 人均遊客數,
    
    CASE
        WHEN ps.province_area > 0
        THEN ROUND(ps.attraction_count * 1000.0 / ps.province_area, 2)
        ELSE 0
    END AS 每千平方公里景點數,
    
    CASE
        WHEN ps.province_population > 0
        THEN ROUND(ps.attraction_count * 100000.0 / ps.province_population, 2)
        ELSE 0
    END AS 每十萬人景點數,
    
    -- 景點多樣性指標
    ps.category_diversity AS 景點類別數,
    
    -- 最熱門景點資訊
    -- 使用子查詢從 top_attractions CTE 中取得資料
    (
        SELECT attraction_name 
        FROM top_attractions 
        WHERE province_id = ps.province_id 
          AND attraction_rank_in_province = 1
    ) AS 最熱門景點名稱,
    
    FORMAT(ps.max_attraction_visitors, 0) AS 最熱門景點遊客數,
    
    -- 與全國平均的比較
    CASE
        WHEN nt.national_avg_visitors > 0
        THEN CONCAT(
            ROUND(
                (ps.avg_visitors_per_attraction - nt.national_avg_visitors) * 100.0 / 
                nt.national_avg_visitors, 
                1
            ),
            '%'
        )
        ELSE 'N/A'
    END AS 與全國平均差異
FROM
    province_summary ps
    INNER JOIN visitor_rankings vr 
        ON ps.province_id = vr.province_id
    CROSS JOIN national_totals nt
-- 只顯示有景點的省份
WHERE
    ps.attraction_count > 0
-- 依遊客數排名排序,最熱門的省份在最前面
ORDER BY
    vr.visitor_rank,
    ps.province_name;

這個綜合案例展示了如何將本文介紹的各種 SQL 進階技術整合在一起。透過公用表示式的模組化設計,我們將複雜的計算邏輯分解為多個清楚的步驟。視窗函數的應用讓我們能夠計算各種排名而不需要複雜的自我聯結。子查詢則用於取得特定的額外資訊。這種結構化的查詢設計不僅提升了程式碼的可讀性,也讓未來的維護與擴充變得更容易。

查詢效能最佳化的實務策略

在實務專案中,查詢效能是決定系統可用性的關鍵因素之一。即使查詢邏輯正確且結果準確,如果執行時間過長,系統仍然無法滿足使用者的需求。查詢效能最佳化涉及多個層面,包括索引設計、查詢重寫、資料庫配置調整等。以下是一些在使用公用表示式、衍生表與子查詢時需要注意的效能最佳化建議。

索引是提升查詢效能最重要的工具之一。適當的索引設計可以將查詢時間從數秒降低到毫秒級別。在我們的旅遊資訊系統中,以下是一些關鍵的索引建立建議:

-- ============================================================
-- 效能最佳化:索引設計建議
-- ============================================================
-- 這些索引能夠顯著提升常見查詢的執行效能

-- 為景點的城市與開放狀態建立複合索引
-- 這對於查詢 "某城市的所有開放景點" 特別有效
CREATE INDEX idx_attraction_city_open_visitors 
ON tourist_attraction(attraction_city_id, open_flag, annual_visitors DESC);

-- 為省份的官方語言建立索引
-- 用於快速篩選特定語言區域的省份
CREATE INDEX idx_province_language 
ON province(official_language);

-- 為城市的省份外鍵建立索引
-- 雖然外鍵通常會自動建立索引,但明確建立確保最佳化
CREATE INDEX idx_city_province_population 
ON capital_city(province_id, population DESC);

-- 為景點類別建立索引
-- 用於依類別篩選景點
CREATE INDEX idx_attraction_category 
ON tourist_attraction(category, annual_visitors DESC);

-- 建立覆蓋索引用於常見的統計查詢
-- 覆蓋索引包含查詢所需的所有欄位,避免回表查詢
CREATE INDEX idx_attraction_stats_covering 
ON tourist_attraction(
    attraction_city_id, 
    open_flag, 
    annual_visitors, 
    category
);

避免在 WHERE 子句中對索引欄位使用函式或運算是另一個重要的最佳化原則。當我們對欄位使用函式時,資料庫無法使用該欄位的索引,必須進行全表掃描。以下是一些常見的錯誤做法與正確的替代方案:

-- ============================================================
-- 效能最佳化:避免在 WHERE 子句中使用函式
-- ============================================================

-- 不良實踐:對日期欄位使用 YEAR 函式
-- 這會導致無法使用索引,需要全表掃描
SELECT *
FROM tourist_attraction
WHERE YEAR(created_date) = 2024;

-- 良好實踐:使用日期範圍比較
-- 這樣可以正常使用 created_date 欄位的索引
SELECT *
FROM tourist_attraction
WHERE created_date >= '2024-01-01'
  AND created_date < '2025-01-01';

-- 不良實踐:對字串欄位使用函式
-- 這會導致無法使用索引
SELECT *
FROM province
WHERE UPPER(province_name) = 'ONTARIO';

-- 良好實踐:確保資料庫使用不區分大小寫的比對
-- 或是在應用層面處理大小寫轉換
SELECT *
FROM province
WHERE province_name = 'Ontario'
   OR province_name = 'ONTARIO'
   OR province_name = 'ontario';

-- 更好的做法:在資料庫層級設定適當的 COLLATION
-- 讓比對自動忽略大小寫

在使用 EXISTS 與 IN 運算子時,需要根據具體情況選擇適當的方式。一般來說,當子查詢結果集很大時,EXISTS 通常比 IN 更有效率,因為 EXISTS 只需要確認是否存在匹配的記錄,而不需要回傳所有的值:

-- ============================================================
-- 效能最佳化:EXISTS vs IN 的選擇
-- ============================================================

-- 當子查詢結果集很大時,使用 EXISTS 更有效率
-- EXISTS 在找到第一個匹配記錄後就停止搜尋
SELECT *
FROM capital_city cc
WHERE EXISTS (
    SELECT 1
    FROM tourist_attraction ta
    WHERE ta.attraction_city_id = cc.city_id
      AND ta.open_flag = TRUE
      AND ta.annual_visitors > 500000
);

-- 當子查詢結果集很小且確定時,IN 可能更簡潔
-- 例如已知的省份代碼列表
SELECT *
FROM capital_city
WHERE province_id IN (
    SELECT province_id 
    FROM province 
    WHERE province_code IN ('ON', 'QC', 'BC')
);

-- 避免在 IN 子句中使用回傳大量結果的子查詢
-- 這種情況應該改用 EXISTS 或 JOIN
-- 不良實踐:
SELECT *
FROM tourist_attraction
WHERE attraction_city_id IN (
    SELECT city_id 
    FROM capital_city 
    WHERE population > 100000  -- 可能回傳很多結果
);

-- 良好實踐:使用 EXISTS
SELECT *
FROM tourist_attraction ta
WHERE EXISTS (
    SELECT 1
    FROM capital_city cc
    WHERE cc.city_id = ta.attraction_city_id
      AND cc.population > 100000
);

限制 CTE 的結果集大小也是重要的最佳化策略。在 CTE 中加入適當的篩選條件與 LIMIT 子句,可以減少後續處理的資料量:

-- ============================================================
-- 效能最佳化:限制 CTE 的結果集大小
-- ============================================================

-- 在 CTE 中加入適當的篩選條件
-- 避免處理不必要的資料
WITH recent_popular_attractions AS (
    SELECT *
    FROM tourist_attraction
    WHERE 
        -- 只處理最近一年的資料
        created_date >= DATE_SUB(CURRENT_DATE, INTERVAL 1 YEAR)
        -- 只處理目前開放的景點
        AND open_flag = TRUE
        -- 只處理有遊客數資料的景點
        AND annual_visitors IS NOT NULL
    -- 限制結果集大小,避免處理過多資料
    ORDER BY annual_visitors DESC
    LIMIT 100
)
SELECT *
FROM recent_popular_attractions
ORDER BY annual_visitors DESC;

-- 使用多個 CTE 逐步縮小資料範圍
-- 每個步驟都過濾掉不需要的資料
WITH french_provinces AS (
    -- 第一步:篩選法語區省份
    SELECT province_id, province_name
    FROM province
    WHERE official_language LIKE '%French%'
),
french_cities AS (
    -- 第二步:只保留法語區的城市
    SELECT cc.*
    FROM capital_city cc
    INNER JOIN french_provinces fp 
        ON cc.province_id = fp.province_id
    WHERE cc.population > 50000  -- 進一步過濾
),
popular_attractions AS (
    -- 第三步:只選擇熱門景點
    SELECT ta.*
    FROM tourist_attraction ta
    INNER JOIN french_cities fc 
        ON ta.attraction_city_id = fc.city_id
    WHERE ta.annual_visitors > 100000
      AND ta.open_flag = TRUE
)
-- 最終查詢只處理經過多層篩選的小量資料
SELECT *
FROM popular_attractions
ORDER BY annual_visitors DESC;

定期分析與更新統計資訊也是維持查詢效能的重要工作。資料庫的查詢最佳化器依賴統計資訊來選擇最佳的執行計畫,如果統計資訊過時,可能導致執行計畫不理想:

-- ============================================================
-- 效能最佳化:維護統計資訊
-- ============================================================

-- 定期更新表格的統計資訊
-- 這讓查詢最佳化器能夠做出更好的決策
ANALYZE TABLE province;
ANALYZE TABLE capital_city;
ANALYZE TABLE tourist_attraction;

-- 檢查表格的索引使用情況
-- 識別未使用的索引以便移除
SHOW INDEX FROM tourist_attraction;

-- 使用 EXPLAIN 分析查詢執行計畫
-- 這可以幫助識別效能瓶頸
EXPLAIN SELECT
    ta.attraction_name,
    cc.city_name,
    p.province_name
FROM
    tourist_attraction ta
    INNER JOIN capital_city cc ON ta.attraction_city_id = cc.city_id
    INNER JOIN province p ON cc.province_id = p.province_id
WHERE
    ta.annual_visitors > 500000
ORDER BY
    ta.annual_visitors DESC
LIMIT 10;

這些最佳化策略在實務專案中都非常重要。透過適當的索引設計、避免常見的效能陷阱,以及定期維護資料庫統計資訊,我們可以確保即使在資料量增長的情況下,系統仍能維持良好的效能表現。

總結與最佳實踐建議

透過本文的深入探討,我們全面了解了加拿大各省份的語言文化特色,以及如何運用 SQL 進階技術來建構與管理地理旅遊資訊系統。從資料庫架構的設計開始,我們學習了如何建立適當的表格結構與關聯,以有效組織省份、城市與景點之間的階層關係。公用表示式的應用讓我們能夠將複雜的查詢邏輯分解為清晰的步驟,大幅提升了程式碼的可讀性與維護性。

遞迴查詢為處理階層式資料提供了強大的能力,無論是產生日期序列、計算數值序列,還是遍歷組織架構,都能輕鬆應對。衍生表與子查詢則提供了靈活的資料存取方式,讓我們能夠根據具體需求選擇最適合的技術。透過組合這些進階技術,我們可以建構出功能完整且效能優良的資料分析系統。

在實務應用中,掌握這些 SQL 進階技術只是第一步,更重要的是理解何時使用哪種技術,以及如何組合這些技術來解決實際問題。公用表示式適合需要多次引用相同結果集的場景,遞迴查詢是處理階層資料的標準方法,衍生表提供了快速的臨時結果集封裝,而子查詢則在各種情境中都有其用武之地。選擇適當的技術組合不僅能提升開發效率,也能確保系統的長期可維護性。

效能最佳化是不可忽視的重要課題。適當的索引設計、避免在 WHERE 子句中使用函式、選擇正確的 EXISTS 或 IN 運算子、限制 CTE 的結果集大小,這些看似細微的差異,在處理大量資料時會對效能產生顯著影響。建議開發者在撰寫查詢時,就將效能考量納入設計思維中,而不是等到系統上線後才來處理效能問題。

對於希望進一步提升 SQL 技能的開發者,建議多加練習本文介紹的各種技術,並嘗試將它們應用到實際專案中。從簡單的單一 CTE 查詢開始,逐步挑戰更複雜的多重 CTE 組合與遞迴查詢。在練習過程中,使用 EXPLAIN 分析查詢執行計畫,理解資料庫如何執行您的查詢,這對於培養效能最佳化的直覺非常有幫助。

台灣的開發者在建構地理資訊系統或多語言平台時,可以參考本文介紹的架構設計方法。雖然本文以加拿大為例,但這些技術與方法同樣適用於台灣的各種應用場景,例如建構涵蓋各縣市的旅遊資訊平台、多語言支援的電子商務系統,或是需要處理組織階層的人力資源管理系統。關鍵在於理解資料的本質與關聯,然後選擇適當的技術來組織與查詢這些資料。

最後,建議開發者建立良好的文件化習慣。在撰寫複雜的 SQL 查詢時,加入清楚的註解說明每個步驟的目的與邏輯。這不僅幫助其他開發者理解您的程式碼,也讓您自己在數個月後回頭檢視時能夠快速理解當初的設計思維。良好的文件化是專業開發者的重要特質,也是確保專案長期成功的關鍵因素之一。