2025年05月14日玄貓（BlackCat）

SQL連續值範圍與序列生成技術

本文探討如何使用 SQL 查詢處理連續值範圍和生成連續數值序列，涵蓋使用視窗函式 LAG OVER 識別連續範圍，以及在不同資料函式庫系統（如 DB2、SQL Server、Oracle 和 PostgreSQL）中生成連續數值序列的技術，並提供程式碼範例和圖表說明。

資料函式庫 SQL

SQL查詢連續數值視窗函式遞迴CTE MODEL子句 GENERATE_SERIES

在資料函式庫應用中，經常需要處理連續值範圍和生成數值序列。本文將介紹如何使用 SQL 查詢來解決這兩類別問題，並針對不同資料函式庫系統提供最佳實踐。首先，我們將探討如何使用視窗函式 LAG OVER 來識別連續日期範圍，並提取每個範圍的起點和終點。接著，我們將深入研究如何在各種資料函式庫系統中，包括 DB2、SQL Server、Oracle 和 PostgreSQL，有效地生成連續數值序列，例如從 1 到 10 的數字序列，或根據特定條件生成的序列。最後，我們將探討如何應用這些技術到實際場景，例如生成日期序列或輔助字串解析。

尋找連續值範圍的起點和終點

在處理資料時，經常需要識別一組連續值的起始和結束點。本文將探討如何使用SQL查詢來解決這個問題。

問題描述

假設有一個檢視V，其中包含專案的起始和結束日期。要求找出這些專案日期的連續範圍，並傳回每個範圍的起始和結束日期。

解決方案

首先，使用LAG OVER視窗函式來比較每一行的前一行PROJ_END值與當前行的PROJ_START值，以確定是否屬於同一組連續值。如果前一行的PROJ_END等於當前行的PROJ_START，則傳回0，否則傳回1。然後，對這些0和1進行累計總和，以將每一行分組。

SQL查詢

SELECT proj_grp, MIN(proj_start), MAX(proj_end)
FROM (
  SELECT proj_id, proj_start, proj_end,
         SUM(flag) OVER (ORDER BY proj_id) proj_grp
  FROM (
    SELECT proj_id, proj_start, proj_end,
           CASE WHEN LAG(proj_end) OVER (ORDER BY proj_id) = proj_start
                THEN 0 ELSE 1
           END flag
    FROM V
  ) alias1
) alias2
GROUP BY proj_grp;

程式碼解密：

內層查詢：使用LAG OVER視窗函式來比較每一行的前一行PROJ_END值與當前行的PROJ_START值，並使用CASE表示式來標記是否屬於同一組連續值。
中層查詢：對內層查詢的結果進行累計總和，以將每一行分組。
外層查詢：對分組後的結果使用聚合函式MIN和MAX來找出每個範圍的起始和結束日期。

圖表示例

以下是一個簡單的Plantuml圖表，用於展示上述查詢的邏輯流程：

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title SQL連續值範圍與序列生成技術

package "資料庫架構" {
    package "應用層" {
        component [連線池] as pool
        component [ORM 框架] as orm
    }

    package "資料庫引擎" {
        component [查詢解析器] as parser
        component [優化器] as optimizer
        component [執行引擎] as executor
    }

    package "儲存層" {
        database [主資料庫] as master
        database [讀取副本] as replica
        database [快取層] as cache
    }
}

pool --> orm : 管理連線
orm --> parser : SQL 查詢
parser --> optimizer : 解析樹
optimizer --> executor : 執行計畫
executor --> master : 寫入操作
executor --> replica : 讀取操作
cache --> executor : 快取命中

master --> replica : 資料同步

note right of cache
  Redis/Memcached
  減少資料庫負載
end note

@enduml

圖表翻譯： 此圖表示展示瞭如何透過SQL查詢來找出連續值範圍的起點和終點。首先，從原始資料開始，使用LAG OVER函式進行比較，然後透過CASE表示式進行標記，接著對標記結果進行累計總和以分組，最後使用聚合函式得出最終結果。

連續數值生成技術探討

在資料函式庫查詢中，生成連續數值是一項常見需求，尤其是在需要進行資料透視或序列生成時。本文將探討不同資料函式倉管理系統（RDBMS）中生成連續數值的技術。

問題描述

假設需要生成一個包含連續數字的結果集，例如從1到10的數字序列：

解決方案

DB2與SQL Server

使用遞迴公用表表達式（CTE）來生成連續數值：

WITH x (id) AS (
  SELECT 1
  UNION ALL
  SELECT id + 1
  FROM x
  WHERE id + 1 <= 10
)
SELECT * FROM x;

Oracle

利用MODEL子句生成連續數值：

SELECT array id
FROM dual
MODEL
  DIMENSION BY (0 idx)
  MEASURES (1 array)
  RULES ITERATE (10) (
    array[iteration_number] = iteration_number + 1
  );

PostgreSQL

使用內建函式GENERATE_SERIES生成連續數值：

SELECT id
FROM generate_series(1, 10) x(id);

討論

DB2與SQL Server

遞迴CTE透過遞迴地增加ID的值，直到達到指定的上限（本例中為10）。初始值1可以透過從單行表中選擇或使用VALUES子句來生成。

Oracle

MODEL子句中的ITERATE命令允許生成多行資料。如果沒有ITERATE子句，由於DUAL表只有一行，因此只會傳回一行資料。

PostgreSQL

GENERATE_SERIES函式是專門為生成序列資料而設計的，使得生成連續數值變得非常簡單。

範例應用

這些技術不僅可以用於生成簡單的數字序列，還可以用於更複雜的場景，例如：

生成日期序列：可以將生成的數字加到日期上，產生一系列日期。
字串解析：可以使用生成的數字來遍歷字串中的字元。

範例程式碼詳解

DB2與SQL Server遞迴CTE詳解

WITH x (id) AS (
  SELECT 1  -- 初始化ID為1
  UNION ALL
  SELECT id + 1  -- 遞迴增加ID
  FROM x
  WHERE id + 1 <= 10  -- 設定遞迴終止條件
)
SELECT * FROM x;  -- 輸出最終結果

內容解密：

使用遞迴CTE定義一個臨時結果集x，包含一個欄位id。
第一部分SELECT 1初始化id為1。
第二部分SELECT id + 1 FROM x WHERE id + 1 <= 10遞迴地增加id直到超過10。
最終查詢輸出生成的連續數值。

Oracle MODEL子句詳解

SELECT array id
FROM dual
MODEL
  DIMENSION BY (0 idx)  -- 定義維度
  MEASURES (1 array)  -- 定義測量值
  RULES ITERATE (10) (  -- 設定迭代次數
    array[iteration_number] = iteration_number + 1  -- 生成連續數值
  );

內容解密：

使用MODEL子句對DUAL表進行操作。
DIMENSION BY (0 idx)定義了一個維度，但實際上並未使用。
MEASURES (1 array)定義了一個測量值陣列。
RULES ITERATE (10)設定迭代10次。
在每次迭代中，將當前迭代次數加1指定給陣列對應的元素。

PostgreSQL GENERATE_SERIES詳解

SELECT id
FROM generate_series(1, 10) x(id);  -- 生成從1到10的序列

內容解密：

使用內建函式GENERATE_SERIES生成一個從1到10的整數序列。
將生成的序列命名為x(id)，並選擇id欄位輸出。

資料分頁與搜尋技術

在處理大量資料時，如何有效地分頁顯示結果以及進行搜尋是一個常見的挑戰。本章節將討論如何使用 SQL 技術來實作資料的分頁顯示和進階搜尋功能。

使用 MODEL 敘述產生連續數值（Oracle）

Oracle 的 MODEL 敘述提供了一種靈活的方式來處理陣列資料，並能夠產生不存在於原始表格中的資料列。透過使用 ITERATION_NUMBER 函式，可以追蹤迭代的次數，從而產生連續的數值。

SELECT 'array[' || idx || '] = ' || array AS output
FROM dual
MODEL
DIMENSION BY (0 idx)
MEASURES (1 array)
RULES ITERATE (10) (
    array[iteration_number] = iteration_number + 1
)

內容解密：

MODEL 敘述用於定義一個多維陣列，並對其進行操作。
DIMENSION BY 指定了陣列的索引。
MEASURES 定義了陣列中的元素。
RULES ITERATE (10) 表示迭代 10 次，產生 10 個連續數值。
array[iteration_number] = iteration_number + 1 將每個迭代次數加一後指定給對應的陣列元素。

使用 GENERATE_SERIES 函式產生連續數值（PostgreSQL）

PostgreSQL 提供了 GENERATE_SERIES 函式，可以用來產生一個數值序列。該函式接受三個引數：起始值、結束值和可選的步進值。

SELECT id
FROM generate_series(
    (SELECT min(deptno) FROM emp),
    (SELECT max(deptno) FROM emp),
    5
) x(id)

內容解密：

GENERATE_SERIES 函式根據給定的引數產生一個數值序列。
起始值和結束值由子查詢動態取得，分別是 emp 表格中 deptno 的最小值和最大值。
步進值設為 5，表示每次遞增 5。

分頁顯示結果集

分頁顯示結果集需要對資料進行排序，並使用視窗函式來標記每一行的序號。然後，根據序號來篩選出特定範圍內的資料。

使用 ROW_NUMBER() OVER

SELECT sal
FROM (
    SELECT row_number() OVER (ORDER BY sal) AS rn,
           sal
    FROM emp
) x
WHERE rn BETWEEN 1 AND 5

內容解密：

ROW_NUMBER() OVER (ORDER BY sal) 為每一行根據 sal 的排序賦予一個唯一的序號。
外層查詢根據 rn 的範圍篩選出需要的資料。

Oracle 中的替代方案：使用 ROWNUM

SELECT sal
FROM (
    SELECT sal, rownum rn
    FROM (
        SELECT sal
        FROM emp
        ORDER BY sal
    )
)
WHERE rn BETWEEN 6 AND 10

內容解密：

最內層查詢對 sal 進行排序。
中間層查詢使用 ROWNUM 為排序後的結果賦予行號。
最外層查詢根據行號範圍篩選資料。

跳過特定行

要跳過特定的行，需要對結果集進行排序，並使用視窗函式為每一行賦予序號。然後，根據序號進行篩選。

SELECT ename
FROM (
    SELECT row_number() OVER (ORDER BY ename) rn,
           ename
    FROM emp
) x
WHERE MOD(rn, 2) = 1

內容解密：

ROW_NUMBER() OVER (ORDER BY ename) 為每一行根據 ename 的排序賦予一個唯一的序號。
使用 MOD 函式篩選出奇數行的資料。

本章節介紹瞭如何使用 SQL 中的不同技術來實作資料的分頁顯示和進階搜尋功能，包括 Oracle 的 MODEL 敘述、PostgreSQL 的 GENERATE_SERIES 函式，以及視窗函式的使用。這些技術可以幫助開發者更有效地處理和分析大量資料。

進階搜尋技術在資料函式庫查詢中的應用

在處理資料函式庫查詢時，經常需要使用一些進階的搜尋技術來滿足特定的需求。本章節將探討幾個常見的問題及其解決方案，包括如何略過特定列、如何在外連線中使用 OR 邏輯、如何找出互為相反的資料列，以及如何選取排名前 n 的記錄。

11.2 略過特定列

問題：在查詢結果中略過奇數或偶數列。

解決方案：使用視窗函式 ROW_NUMBER() 來為每一列分配一個序號，然後根據序號進行篩選。

select ename
from (
  select row_number() over (order by ename) rn, ename
  from emp
) x
where mod(rn, 2) = 1

內容解密：

ROW_NUMBER() OVER (ORDER BY ename)：為每一列分配一個唯一的序號，根據 ename 進行排序。
MOD(rn, 2) = 1：篩選出序號為奇數的列。

11.3 在外連線中使用 OR 邏輯

問題：查詢部門 10 和 20 的員薪水訊，以及部門 30 和 40 的部門資訊。

解決方案：將篩選條件放入連線條件中，或先在子查詢中篩選員薪水料，再進行外連線。

-- 方法一
select e.ename, d.deptno, d.dname, d.loc
from dept d left join emp e
on (d.deptno = e.deptno and (e.deptno = 10 or e.deptno = 20))
order by 2

-- 方法二
select e.ename, d.deptno, d.dname, d.loc
from dept d
left join (
  select ename, deptno
  from emp
  where deptno in (10, 20)
) e on (e.deptno = d.deptno)
order by 2

內容解密：

將篩選條件放入 ON 子句中，確保在連線時就進行篩選。
使用子查詢先篩選出需要的員薪水料，再進行外連線。

11.4 找出互為相反的資料列

問題：在測試結果表中找出互為相反的測試分數。

解決方案：使用自連線查詢，找出 TEST1 和 TEST2 值互為相反的列。

select distinct v1.*
from V v1, V v2
where v1.test1 = v2.test2
and v1.test2 = v2.test1
and v1.test1 <= v1.test2

內容解密：

自連線查詢允許比較同一張表中的不同列。
使用 DISTINCT 去除重複結果。
v1.test1 <= v1.test2 確保只傳回一組互為相反的值。

11.5 選取排名前 n 的記錄

問題：選取薪水排名前五名的員工。

解決方案：使用視窗函式 DENSE_RANK() 對薪水進行排名，然後選取前五名。

select ename, sal
from (
  select ename, sal,
         dense_rank() over (order by sal desc) dr
  from emp
) x
where dr <= 5

內容解密：

DENSE_RANK() OVER (ORDER BY sal DESC)：根據薪水降序排名。
dr <= 5：選取排名前五名的記錄。

進階查詢技術：尋找極端值與比較相鄰行

在資料函式庫查詢中，經常需要進行一些進階的資料檢索，例如尋找資料表中的極端值或比較相鄰行的資料。本文將介紹如何使用 SQL 中的視窗函式（Window Functions）來解決這些問題。

尋找最高和最低薪水

假設我們有一個名為 EMP 的資料表，包含員工的姓名（ENAME）、薪水（SAL）等資訊。我們想要找出薪水最高和最低的員工。

使用 MIN OVER 和 MAX OVER

對於支援視窗函式的資料函式庫系統，如 DB2、Oracle 和 SQL Server，我們可以使用 MIN OVER 和 MAX OVER 來找出最低和最高的薪水。

SELECT ename
FROM (
  SELECT ename, sal,
         MIN(sal) OVER () AS min_sal,
         MAX(sal) OVER () AS max_sal
  FROM emp
) x
WHERE sal IN (min_sal, max_sal);

內容解密：

內部查詢：首先，我們使用一個子查詢來選取 ENAME、SAL，並計算最低薪水 MIN_SAL 和最高薪水 MAX_SAL。
- MIN(sal) OVER () 和 MAX(sal) OVER () 分別用於計算整個結果集中的最低和最高薪水。
外部查詢：然後，在外部查詢中，我們篩選出薪水等於最低或最高薪水的員工。

比較相鄰行的薪水

假設我們想要找出那些薪水低於緊接著他們之後被僱傭的人的員工。

使用 LEAD OVER

我們可以使用 LEAD OVER 視窗函式來存取下一位被僱傭員工的薪水，並比較當前員工的薪水是否低於該值。

SELECT ename, sal, hiredate
FROM (
  SELECT ename, sal, hiredate,
         LEAD(sal) OVER (ORDER BY hiredate) AS next_sal
  FROM emp
) alias
WHERE sal < next_sal;

內容解密：

內部查詢：在子查詢中，我們使用 LEAD(sal) OVER (ORDER BY hiredate) 來取得按照僱傭日期排序的下一位員工的薪水。
- LEAD OVER 預設會檢視下一行，如果需要檢視更多行，可以傳遞一個引數。
外部查詢：然後，我們篩選出那些薪水低於下一位被僱傭員工薪水的記錄。

處理重複值

如果 HIREDATE 有重複值，我們可能需要調整查詢以正確比較薪水。

SELECT ename, sal, hiredate
FROM (
  SELECT ename, sal, hiredate,
         LEAD(sal, cnt-rn+1) OVER (ORDER BY hiredate) AS next_sal
  FROM (
    SELECT ename, sal, hiredate,
           COUNT(*) OVER (PARTITION BY hiredate) AS cnt,
           ROW_NUMBER() OVER (PARTITION BY hiredate ORDER BY empno) AS rn
    FROM emp
  )
)
WHERE sal < next_sal;

內容解密：

內部查詢：首先，我們計算每個 HIREDATE 的重複次數 CNT 和每個重複組內的行號 RN。
中間查詢：然後，使用 LEAD(sal, cnt-rn+1) OVER (ORDER BY hiredate) 來正確地跳過重複的行並取得下一個不同的 HIREDATE 對應的薪水。
外部查詢：最後，篩選出那些薪水低於正確的下一位被僱傭員工薪水的記錄。