2024年02月17日玄貓（BlackCat）

Aerospike 資料模型與組態最佳實務

本文探討 Aerospike 資料模型的設計與管理，包含主鍵儲存策略、外部ID解析方案、小型物件儲存最佳化、過期資料處理以及組態檔案解析。文章提供實務程式碼範例與圖表說明，引導讀者有效運用 Aerospike，解決實際應用中的資料儲存挑戰，並提升系統效能。

資料庫系統設計

Aerospike 資料模型效能調校組態管理 NoSQL

在高效能的 NoSQL 資料庫 Aerospike 中，精巧的資料模型設計與合理的組態是發揮其極致效能的關鍵。本文將深入探討開發者在實踐中常遇到的幾個核心挑戰，並提供相應的最佳實踐與解決方案，涵蓋外部 ID 解析、大量小型物件儲存、時效性資料管理，最後解析核心的組態檔，幫助您全面掌握 Aerospike 的應用之道。

一、核心資料建模挑戰與解決方案

挑戰一：如何高效解析外部 ID？

在許多業務場景中，我們需要根據合作夥伴提供的外部 ID (External ID) 來查詢我們系統內部的資料。

錯誤示範: 使用次級索引 (Secondary Index) 來索引外部 ID。這種方法會觸發「分散-收集」(scatter-gather) 查詢，向叢集中所有節點廣播請求，當叢集規模擴大時效能會急遽下降。
最佳實踐: 使用獨立的對映 Set。建立一個專門的 Set (例如 extId_map)，其主鍵 (PK) 就是外部 ID，並在其中一個 Bin 中儲存對應的內部 ID。

圖表解說：外部 ID 解析流程

此活動圖展示了使用獨立 Set 進行外部 ID 解析的高效兩步查詢流程。

@startuml
!theme _none_
skinparam dpi auto
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam minClassWidth 100
skinparam defaultFontSize 16
title 外部 ID 解析活動圖

start
:接收到外部 ID;
:<b>第一次查詢 (主鍵讀取)</b>\n在 `extId_map` Set 中\n以「外部 ID」為主鍵查詢;
if (找到對應記錄?) then (yes)
  :從記錄中取得「內部 ID」;
  :<b>第二次查詢 (主鍵讀取)</b>\n在 `data` Set 中\n以「內部 ID」為主鍵查詢;
  :取得最終資料;
else (no)
  :找不到資料;
endif
stop
@enduml

這種方法將一次低效的索引查詢，轉換為兩次極高效能的主鍵讀取操作。

挑戰二：如何高效儲存大量小型物件？

當需要儲存數十億級別的小型對映關係（如 外部 ID -> 內部 ID）時，若為每個對映都建立一筆記錄，將會消耗大量的記憶體（每個記錄的主索引需要 64 位元組）。

最佳實踐: 聚合到 Map CDT 中。將成千上萬個小型對映關係，根據某種分桶 (bucketing) 策略，聚合到一個較大的記錄中的 Map 型別 Bin 裡。
- 分桶策略: 設計一個函式，將外部 ID 轉換為一個「桶」的主鍵。例如，對於隨機分佈的數字 ID，可以直接 PK = externalId / 1000。對於非數字或分佈不均的 ID，可以使用 RIPEMD160 等雜湊演算法。
- 儲存: 在這個「桶」記錄中，將 externalId % 1000 作為 Map 的 key，internalId 作為 Map 的 value。

圖表解說：小型物件聚合模型

此類別圖展示了將多個 ID 對映聚合到單一記錄的 Map Bin 中的資料結構。

@startuml
!theme _none_
skinparam dpi auto
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam minClassWidth 100
skinparam defaultFontSize 16
title ID 對映聚合模型

class "Mapping Record (PK: externalId / 1000)" as Record {
  + id_map: Map<Integer, Long>
}
note right of Record::id_map
  Key: externalId % 1000
  Value: internalId
end note
@enduml

挑戰三：如何管理有時效性的資料？

Aerospike 的 TTL (存活時間) 是作用於整筆記錄的，但有時我們需要對一個集合中的部分元素進行過期管理（例如，一個使用者最近瀏覽的商品列表）。

最佳實踐: 在 CDT 中自行管理時間戳。將過期時間戳與資料一同儲存。
- 資料結構: 在 Map 中，value 可以是一個包含 [過期時間戳, 資料本身] 的 List。
- 清理邏輯: 在寫入新資料時，使用 operate() 命令原子性地執行兩個操作：1. 使用 MapOperation.removeByValueRange 移除所有時間戳小於當前時間的元素。 2. 使用 MapOperation.put 寫入新元素。

Java 範例：原子性地新增資料並清理過期項

long now = new Date().getTime();
long expiryMs = now + 30 * 86400 * 1000; // 30 天後過期
List<Object> data = Arrays.asList(expiryMs, "some-data");

client.operate(null, key,
    // 1. 移除所有 value[0] (時間戳) 小於 now 的元素
    MapOperation.removeByValueRange("segments",
        Value.get(Arrays.asList(0L)), // 起始時間
        Value.get(Arrays.asList(now)), // 結束時間
        MapReturnType.NONE),
    // 2. 寫入新元素
    MapOperation.put(MapPolicy.Default, "segments",
        Value.get("NEW_ITEM"), Value.get(data))
);

第二部分：核心組態解析 (`aerospike.conf`)

理解核心組態是將建模實踐與底層支援聯繫起來的關鍵。

network: 定義節點間如何通訊。在雲端環境中，heartbeat 區塊必須使用 mode mesh，並明確列出種子節點。
namespace: 定義資料儲存策略。
- replication-factor: 副本數，決定了資料的可用性。
- memory-size: 分配給此 namespace 的記憶體大小。
- storage-engine: 儲存引擎，memory 提供極致效能，device (混合模式) 則平衡了成本與效能。

透過上述針對性的資料建模技巧與合理的組態，開發者可以充分發揮 Aerospike 在各種複雜場景下的高效能與高擴展性優勢。