2024年09月13日玄貓（BlackCat）

程式語言核心：純量資料型別深度解析

本文深入探討靜態型別程式語言的基礎核心：資料型別。文章首先將資料型別劃分為純量與複合兩大類，並聚焦於純量型別的細節。內容詳述整數型別，包含有符號與無符號整數的差異、不同位元長度的選擇，以及多種數字文字表示法。此外，文章也解析了浮點數型別（f32 與 f64），強調其遵循的 IEEE-754 標準以及在運算中可能產生的捨入誤差。此為理解記憶體管理與精確運算的關鍵基礎。

軟體開發電腦科學

資料型別靜態型別純量型別整數浮點數程式語言

在系統程式設計領域，對記憶體佈局與運算效能的精準掌握是區分專業與業餘的關鍵。本文深入剖析靜態型別語言的基石——資料型別，特別是純量型別的內部機制。透過解析整數在不同位元長度、有號與無號之間的選擇，以及浮點數遵循的 IEEE-754 標準，我們將揭示程式碼如何直接對應到底層硬體的運作模式。理解這些基本概念不僅是撰寫高效能程式的先決條件，更是掌握語言記憶體安全保證、避免未定義行為的起點。這趟從抽象型別到具體記憶體表示的旅程，將為開發者建立穩固的理論基礎，以應對更複雜的系統級挑戰。

軟體工程師的進階修煉：從抽象化到實戰應用的全面提升

第二章：基本概念

資料型別

程式語言是一種靜態型別語言，這意味著每個變數的型別必須在編譯時期已知。理解資料型別至關重要，因為它們決定了你可以對變數執行的操作以及它將佔用多少記憶體。

程式語言提供了廣泛的資料型別，分為兩個主要類別：純量型別 (scalar types) 和複合型別 (compound types)。

純量型別

純量型別代表單個值。程式語言有四種主要的純量型別：整數、浮點數、布林值和字元。

整數型別

在程式語言中，整數是沒有小數部分的數字。你使用整數來表示沒有分數的數字，例如計數或索引。程式語言支援有符號和無符號整數，以及各種大小，讓你能夠控制整數將佔用多少記憶體以及它是否可以是負數。

有符號整數（例如 i32）可以儲存正數和負數。
無符號整數（例如 u32）只能儲存非負數，這使得它們擁有更大的正值範圍，因為它們不需要為負數保留空間。

以下是整數型別及其範圍的細分：

長度	有符號型別	無符號型別
8 位元	`i8`	`u8`
16 位元	`i16`	`u16`
32 位元	`i32`	`u32`
64 位元	`i64`	`u64`
128 位元	`i128`	`u128`
系統架構	`isize`	`usize`

有符號型別使用二補數表示法，可以儲存正值和負值。無符號型別僅儲存正值。

例如，i8 型別是一個 8 位元有符號整數，因此它可以儲存從 -128 到 127 的值。u8 型別是一個 8 位元無符號整數，可以儲存從 0 到 255 的值。

整數文字 (Integer Literals)

在程式語言中，整數文字可以用不同的格式書寫，以提高可讀性或滿足特定需求。以下是你可以表示整數文字的方式：

十進位：標準的十進位數字（例如，98_222）。
十六進位：十六進位數字，以 0x 開頭（例如，0xff）。
八進位：八進位數字，以 0o 開頭（例如，0o77）。
二進位：二進位數字，以 0b 開頭（例如，0b1111_0000）。

你還可以使用底線 _ 作為視覺分隔符號，使大數字更容易閱讀，例如 1_000_000，它表示一百萬。

範例：

fn main() {
let decimal = 98_222;
let hex = 0xff;
let octal = 0o77;
let binary = 0b1111_0000;
println!("十進位: {}", decimal);
println!("十六進位: {}", hex);
println!("八進位: {}", octal);
println!("二進位: {}", binary);
}

浮點數 (Floating-Point Numbers)

浮點數是具有小數部分的數字，這使得它們對於表示測量值或帶有小數點的值（例如 3.14 或 -42.5）非常有用。程式語言支援兩種型別的浮點數：

f32：一個 32 位元浮點數（單精度）。
f64：一個 64 位元浮點數（雙精度）。

預設情況下，程式語言使用 f64，因為它在現代硬體上提供了更好的精度，且效能損失很小。然而，如果記憶體效率比精度更重要，你可以選擇 f32。

以下是宣告和使用浮點數的範例：

fn main() {
let x = 2.0; // f64 (預設型別)
let y: f32 = 3.14; // 明確指定為 f32
println!("x 的值是: {}", x);
println!("y 的值是: {}", y);
}

x 是一個 f64 型別的浮點數（預設）。
y 被明確宣告為 f32。

程式語言中的浮點數遵循 IEEE-754 標準，該標準廣泛用於浮點數運算。這個標準定義了浮點數如何儲存和操作，從而確保了不同平台之間的一致性。

然而，由於浮點數儲存在有限的空間中（32 或 64 位元），它們只能近似大多數實數。這意味著它們容易產生捨入誤差，這在所有使用浮點數運算的程式語言中都很常見。例如，由於數字在記憶體中的儲存方式，加減浮點數的結果可能與你預期的不完全相同。

例如，當你對浮點數執行算術運算時：

fn main() {
let sum = 1.0 + 2.0;
let difference = 95.5 - 4.3;
let product = 4.0 * 30.0;
let quotient = 56.7 / 32.2;
println!("和: {}", sum);
println!("差: {}", difference);
println!("積: {}", product);
println!("商: {}", quotient);
}

在這段程式碼中，對浮點數執行了基本的算術運算。儘管這個範例看起來很簡單，但重要的是要記住，浮點數運算可能會引入微小的誤差，尤其是在需要高精度的科學或金融應用中。玄貓強調，理解這些潛在的誤差對於編寫可靠的程式碼至關重要。

@startuml
!define DISABLE_LINK
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 16
skinparam minClassWidth 100

package "程式語言資料型別概覽" {
node "資料型別" as DataTypes {
component "靜態型別語言特性" as StaticTypedLang
component "純量型別 (Scalar Types)" as ScalarTypes
component "複合型別 (Compound Types)" as CompoundTypes
}

node "純量型別細分" as ScalarSubtypes {
component "整數型別 (Integers)" as Integers
component "浮點數型別 (Floating-Points)" as Floats
component "布林型別 (Booleans)" as Booleans
component "字元型別 (Characters)" as Chars
}

node "整數型別特性" as IntegerProps {
component "有符號 (i8, i16, i32, i64, i128, isize)" as SignedInts
component "無符號 (u8, u16, u32, u64, u128, usize)" as UnsignedInts
component "不同位元長度" as BitLengths
component "整數文字格式 (十進位, 十六進位, 八進位, 二進位)" as IntegerLiterals
}

node "浮點數型別特性" as FloatProps {
component "f32 (單精度)" as F32
component "f64 (雙精度, 預設)" as F64
component "遵循 IEEE-754 標準" as IEEE754
component "潛在捨入誤差" as RoundingErrors
}

DataTypes --> StaticTypedLang
DataTypes --> ScalarTypes
DataTypes --> CompoundTypes

ScalarTypes --> ScalarSubtypes

Integers --> IntegerProps
Floats --> FloatProps

IntegerProps --> SignedInts
IntegerProps --> UnsignedInts
IntegerProps --> BitLengths
IntegerProps --> IntegerLiterals

FloatProps --> F32
FloatProps --> F64
FloatProps --> IEEE754
FloatProps --> RoundingErrors

ScalarSubtypes -[hidden]-> Integers
ScalarSubtypes -[hidden]-> Floats
ScalarSubtypes -[hidden]-> Booleans
ScalarSubtypes -[hidden]-> Chars
}

@enduml

看圖說話：

此圖示全面展示了程式語言的資料型別概覽。首先，它強調了程式語言作為一種靜態型別語言的特性，並將資料型別分為純量型別和複合型別。純量型別進一步細分為整數型別、浮點數型別、布林型別和字元型別。針對整數型別，圖示詳細列出了有符號和無符號的各種位元長度整數，並說明了多種整數文字格式。對於浮點數型別，則介紹了 f32 (單精度) 和 f64 (雙精度，預設)，並指出它們遵循 IEEE-754 標準，但需注意潛在的捨入誤差。這個架構圖清晰地勾勒出程式語言在資料表示上的精確性和靈活性，為開發者提供了堅實的基礎。

結論

深入剖析軟體工程師進階修煉的基礎後，我們發現對資料型別的掌握，遠不止於語法層面的記憶。它實質上是對資源、精度與效能三者進行權衡的微觀決策藝術，是專業成熟度的核心體現。

傳統開發者僅視 i32 與 u64 為不同範圍的數字容器，但高階工程師能從中洞見記憶體佈局、CPU 架構效率與業務邊界條件的隱性關聯。選擇 f32 而非預設的 f64，不再是隨意之舉，而是基於對應用場景下精度需求與效能開銷的精準判斷。尤其關鍵的是，正視浮點數的潛在捨入誤差。初階者或將其視為麻煩而迴避，資深者卻能將其視為風險管理的必要一環，在金融、科學計算等領域建立穩固的防禦性程式設計思維，這正是從「能用」到「可靠」的質變瓶頸。

隨著物聯網、邊緣運算與大規模分散式系統的興起，這種在位元層級的資源敏感度將愈發重要。未來3-5年，能否在資源受限或效能極致的場景下做出最佳資料決策，將成為衡量頂尖工程師價值的關鍵指標。

玄貓認為，將資料型別的選擇從一項「語法規則」提升為一種「設計哲學」，是每位軟體工程師從匠人邁向大師的必經之路。這種在最基礎層面展現的嚴謹與洞察，最終將決定其構建的系統所能達到的高度。