2025年10月07日玄貓（BlackCat）

Kubernetes叢集管理與安全強化實踐

本文探討 Kubernetes 叢集的管理、升級、安全強化和故障排除。涵蓋 etcd 備份還原、IaC 和 CaC 的應用、升級流程與最佳實踐、多叢集管理策略、API 存取控制、網路安全、日誌管理以及除錯技巧，提供全面的 Kubernetes 叢集管理。

容器技術 DevOps

Kubernetes 叢集管理安全強化 etcd IaC CaC

etcd 作為 Kubernetes 的核心資料儲存函式庫，其備份和還原對於叢集的穩定性至關重要。在還原過程中，API 伺服器的重新組態是確保叢集正常運作的關鍵步驟。此外，採用 IaC 和 CaC 最佳實踐，並結合四眼原則進行版本控制和自動化佈署，能有效提升叢集管理效率。Kubernetes 叢集的升級需要謹慎規劃和執行，驗證相容性、備份 etcd 和停用交換空間是升級前的必要步驟。滾動升級策略能最大限度地減少停機時間，確保服務的連續性。多叢集管理方案提供了統一的控制平面，簡化了跨多個叢集的佈署、監控和升級。升級 CNI 外掛程式、驗證叢集狀態和監控 etcd 是升級過程中的重要環節。制定回復計畫對於應對升級過程中可能出現的意外錯誤至關重要。自動化工具如 Ansible 和 Terraform 能有效提升升級效率，而多叢集管理工具如 Rancher 和 Lens 則提供了更便捷的管理方式。Kubernetes 叢集的安全強化對於防止未經授權的存取和資料洩露至關重要。控制對 Kubernetes API 和 Kubelet 的存取、限制網路存取以及保護叢集元件是安全強化的核心。同時，日誌記錄和監控也是安全稽核和故障排除的重要手段。kubectl 命令列工具提供了豐富的資源操作和除錯功能，kubectl logs、kubectl exec 和 kubectl debug 等指令能有效協助開發者進行故障排除和應用程式除錯。

Kubernetes 進階操作：流量管理、多叢集策略等

重新組態 Kubernetes API 伺服器

在還原 etcd 叢集後，如果存取 URL 發生變化，需要使用更新後的 etcd 伺服器 URL 重新組態並重啟 Kubernetes API 伺服器（將 $NEW_ETCD_CLUSTER 替換為實際的 IP 位址）：

--etcd-servers=$NEW_ETCD_CLUSTER

如果在 etcd 叢集前使用了負載平衡器，請相應地更新其組態。

內容解密：

此步驟確保 Kubernetes API 伺服器能夠正確連線到新的 etcd 叢集。更新 --etcd-servers 引數是關鍵，因為 etcd 是 Kubernetes 的資料儲存中心。正確組態此引數對於叢集的穩定運作至關重要。

採用基礎設施即程式碼（IaC）和組態即程式碼（CaC）進行彈性叢集管理

備份和還原 etcd 可能相當複雜，因為需要考慮多種方式來維護資料一致性和系統穩定性。實施 IaC 和 CaC 最佳實踐對於 Kubernetes 叢集和應用程式的管理至關重要，這樣可以輕鬆地從頭開始重建所有內容，並確保版本控制、重複性和一致性。

在採用 IaC 和 CaC 時，團隊內部應實施「四眼原則」（four-eyes principle），即所有變更在合併前至少需要兩名團隊成員的審查。這種做法可以提高程式碼品質、確保合規性，並減少備份和還原過程中的錯誤。

內容解密：

將叢集視為無狀態和不可變的，對於所有組態（如名稱空間、運算子、根據角色的存取控制（RBAC）設定、網路策略等）保留 YAML 檔案，並將其版本化、提交到儲存函式庫，然後自動應用到新的叢集。這樣可以確保新叢集與舊叢集一致，從而減少停機時間並限制人為錯誤。

Kubernetes 叢集升級

升級 Kubernetes 叢集是保持環境安全、穩定和與新功能保持同步的重要任務。大多數託管的 Kubernetes 發行版在根據雲的叢集中升級非常容易，因為底層複雜性由託管服務處理。例如 Amazon EKS、GKE 和 Azure AKS 等都提供一鍵式升級，使升級到更新版本的 Kubernetes 變得容易，並且停機時間最短或沒有停機時間。

內容解密：

對於本地或自定義叢集（如 kubeadm 建立的叢集），Kubernetes 提供了檔案化的升級路徑，引導您完成升級控制平面和節點的步驟。無論是使用根據雲的叢集還是管理本地設定，遵循結構化的升級過程都是關鍵。

升級前檢查清單

在啟動升級之前，準備叢集至關重要。以下是一些關鍵步驟：

驗證相容性：確保新的 Kubernetes 版本與所有現有元件和附加元件相容。
備份 etcd：etcd 是 Kubernetes 叢集的核心。在升級前始終建立備份，以保護叢集組態。
停用交換空間：Kubernetes 要求所有節點停用交換空間。確保此設定正確組態，以防止潛在問題。

內容解密：

這些步驟確保叢集在升級過程中保持穩定和安全。驗證相容性可以防止升級後出現不相容問題，備份 etcd 可以在出現問題時還原叢集，而停用交換空間則是 Kubernetes 的基本要求。

升級流程

升級流程通常涉及多個步驟：

排空節點：使用 kubectl drain <node-to-drain> --ignore-daemonsets 安全地驅逐您計劃升級的節點上的所有 Pod。這確保在升級過程中不會將新的工作分配給該節點。

kubectl drain <node-to-drain> --ignore-daemonsets

升級控制平面：首先更新控制平面元件，如 API 伺服器、etcd 和控制器管理器。使用套件管理器的更新和升級命令安裝最新版本。
升級 kubeadm：將 kubeadm 更新到所需的版本，以確保與新的 Kubernetes 版本相容。
升級 kubelet 和 kubectl：更新控制平面後，在每個節點上升級 kubelet 和 kubectl。這些元件與控制平面互動並管理 Pod。
取消節點隔離：節點升級完成後，使用 kubectl uncordon <node-name> 重新啟用節點以排程 Pod。

kubectl uncordon <node-name>

升級計算節點：對工作節點執行滾動升級，步驟與控制平面相同。

內容解密：

滾動升級是一種逐步替換叢集元件的方法，可以最小化停機時間並保持叢集的可用性。每個步驟都需要謹慎執行，以確保升級過程順利進行。

Kubernetes 多叢集管理與進階流量管理策略

在現代企業環境中，隨著組織規模的擴大，管理多個 Kubernetes 叢集的複雜度也隨之增加。多叢集管理方案提供了一個統一的控制點，用於佈署、監控和升級叢集。這些方案通常具備自動化叢集組態和滾動更新等功能，確保所有受管理的叢集保持一致性和安全性。

升級 Kubernetes 叢集的最佳實踐

在進行 Kubernetes 叢集升級之前，必須確保所有元件與新版本相容。以下是升級過程中的關鍵步驟：

升級 CNI 外掛程式：確認 Container Network Interface (CNI) 外掛程式與新版本的 Kubernetes 相容，必要時進行更新。
驗證叢集狀態：使用 kubectl get nodes 命令確認所有節點均處於 Ready 狀態。
監控 etcd：在升級過程中及之後密切監控 etcd 的健康狀態和效能。
切換套件儲存函式庫：更新套件儲存函式庫以指向新 Kubernetes 版本的來源。

升級後的任務

驗證叢集狀態：再次確認所有節點的狀態。
監控 etcd 健康狀態：持續監控 etcd 的效能和健康狀態。
更新套件儲存函式庫：確保套件儲存函式庫已更新至新版本。

回復計畫的重要性

在升級過程中，意外錯誤可能發生，因此制定回復計畫至關重要。該計畫應包括還原到先前組態和備份還原的步驟。儘管 etcd 的內部變更使得回復變得困難，但做好準備可以減少時間和營運中斷。

額外建議

在測試環境中測試升級：在生產叢集升級之前，先在測試或開發環境中進行升級測試。
使用叢集升級工具：利用自動化工具簡化升級過程，減少手動操作和錯誤。
監控問題：在升級過程中及之後監控叢集是否有異常跡象。

使用自動化工具提升效率

可以使用 Ansible、Terraform、AWS CloudFormation 和 ARM 範本等工具自動化升級過程，實作節點組態、套件佈署和滾動更新的自動化。在多雲環境中，可以使用 ArgoCD 或 Fleet 等工具管理多叢集佈署，確保所有叢集的一致性。

多叢集管理工具介紹

以下是一些知名的 Kubernetes 多叢集管理工具：

Rancher：一個開源平台，簡化 Kubernetes 管理，提供多叢集應用佈署、整合監控和 RBAC 等功能。
Lens：一個 Kubernetes 整合開發環境（IDE），從單一介面管理多個叢集，提供即時洞察、內建終端和資源管理檢視。
Kops：專為管理 Kubernetes 叢集生命週期而設計的工具，特別是在 AWS 上自動化建立、升級和刪除叢集。
Red Hat Advanced Cluster Management for Kubernetes：提供跨混合和多雲環境的 Kubernetes 叢集管理解決方案，包括政策驅動的治理、應用生命週期管理和叢集可觀察性。
Anthos (Google Cloud)：Google Cloud 的多雲和混合雲管理平台，支援跨不同環境的 Kubernetes 叢集管理，提供集中治理、安全性和一致的應用佈署。
Azure Arc：將 Azure 的管理和治理能力擴充套件到任何地方執行的 Kubernetes 叢集，透過單一介面實作一致的政策執行、安全管理和監控。

這些工具對於管理多個 Kubernetes 叢集的組織來說非常有用，能夠減少手動操作並保持環境的一致性。

Kubernetes 叢集強化最佳實踐

強化 Kubernetes 叢集的安全性對於防止未經授權的存取、資料洩漏和中斷至關重要。透過實施健全的安全措施，您可以保護敏感資料並確保叢集的平穩運作。本文概述了幫助您保護叢集免受意外和惡意威脅的和最佳實踐。

控制對 Kubernetes API 的存取

由於 Kubernetes 嚴重依賴其 API，因此控制和限制對 API 的存取是保護叢集的第一步：

使用 TLS 進行 API 流量加密：Kubernetes 預設使用 TLS 加密 API 通訊。大多數安裝方法會自動處理必要的憑證。然而，管理員應該注意任何未加密的本地埠並相應地進行安全設定。
API 身份驗證：選擇適合您需求的身份驗證方法。對於較小、單一使用者的叢集，簡單的憑證或靜態 Bearer 令牌可能就足夠了。較大的叢集可能需要與現有的身份驗證系統（如 OIDC 或 LDAP）整合。
API 授權：在身份驗證之後，每個 API 請求都必須透過授權檢查。Kubernetes 使用 RBAC 將使用者或群組與角色中定義的一組許可權相匹配。這些許可權與特定資源上的操作相關聯，可以限定在名稱空間或整個叢集範圍內。為了提高安全性，請同時使用 Node 和 RBAC 授權器。

控制對 Kubelet 的存取

Kubelet 管理節點和容器，它們暴露了可以授予對節點的重要控制權的 HTTPS 端點。在生產環境中，請確保啟用 Kubelet 身份驗證和授權。

要控制對 Kubelet 的存取，請允許 Kubelet API 的身份驗證和授權有效運作，以限制和分配許可權。預設情況下，只有透過 Kubernetes API 伺服器執行的請求才被允許；這阻止了對 Kubelet 的未經授權的直接存取。您可以透過為使用者和服務實施 RBAC 策略設定來進一步增強安全性，這些設定定義了具有 Kubelet 的 RBAC 許可權，以及透過使用網路策略或防火牆規則來限制 Kubelet 端點的網路暴露。

在執行時控制工作負載或使用者能力

Kubernetes 中的授權是高層次的，但您可以應用更細粒度的策略來限制資源使用和控制容器特權：

限制資源使用：使用資源配額和限制範圍來控制名稱空間可以使用的資源（如 CPU、記憶體或磁碟空間）的數量。這可以防止使用者請求不合理的高或低資源值。
控制容器特權：Pod 可以請求以特定使用者身份執行或具有特定特權。大多數應用程式不需要 root 存取權，因此建議將容器組態為以非 root 使用者身份執行。
防止不需要的 Kernel 模組：為了防止攻擊者利用漏洞，請阻止或解除安裝節點上不必要的 Kernel 模組。您也可以使用 Linux 安全模組（如 SELinux）來防止為容器載入模組。

限制網路存取

Kubernetes 允許您在多個層級控制網路存取：

網路策略：使用網路策略來限制其他名稱空間中的 Pod 對您名稱空間中資源的存取。您也可以使用配額和限制範圍來控制節點埠請求或負載平衡服務。
限制雲端元資料 API 存取：雲端平台通常會暴露可能包含敏感資訊的元資料服務。使用網路策略來限制對這些 API 的存取，並避免使用雲端元資料作為秘密。

保護叢集元件

要保持叢集的安全性，保護 etcd 等關鍵元件並確保正確的存取控制非常重要：

限制對 etcd 的存取：獲得對 etcd 的存取權可能會導致對叢集的完全控制。使用強大的憑證，並考慮將 etcd 伺服器隔離在防火牆後面。例如，對於 AWS 中的 Kubernetes 叢集，請建立一個具有受限入站規則的安全群組，只允許 Kubernetes 控制平面 IP 在私有佈署中存取 etcd 的 2379 埠。您也可以使用 --client-cert-auth 和 --trusted-ca-file 標誌組態 etcd，以便只有控制平面可以透過安全連線進行連線。
啟用稽核日誌記錄：稽核日誌記錄會記錄 API 操作以供稍後分析。啟用和保護這些日誌有助於檢測和回應潛在的安全威脅。Kubernetes 叢集管理團隊需要為建立、刪除和更新事件定義自定義的稽核策略，並指示將日誌安全地儲存在像 Elasticsearch 這樣的安全日誌工具中。以下程式碼片段顯示了 kube-apiserver Pod 清單中日誌記錄組態的範例：
```
...
--audit-log-path=/var/log/audit.log
--audit-policy-file=/etc/kubernetes/audit-policy.yaml
...
```
內容解密：
- --audit-log-path=/var/log/audit.log 指定了稽核日誌的儲存路徑，這裡設定為 /var/log/audit.log。
- --audit-policy-file=/etc/kubernetes/audit-policy.yaml 指定了稽核策略檔案的路徑，該檔案定義了哪些事件需要被記錄到稽核日誌中。
- 這兩個引數共同作用，使得 Kubernetes API 伺服器能夠根據定義的策略記錄相關操作，從而增強叢集的安全性和可稽核性。

Kubernetes 安全加固與故障排除

加強 Kubernetes 安全的最佳實踐

為了確保 Kubernetes 叢集的安全，需要採取多項最佳實踐。以下是一些關鍵的安全措施：

安全叢集設定

啟用 RBAC 並使用專用的服務帳戶。
保持 Kubernetes 元件更新。
使用 TLS 安全存取 API 伺服器。

控制叢集存取

使用強大的身份驗證方法。
強制執行嚴格的存取控制和最小許可權原則。
定期審核和檢查存取許可權。

保護網路通訊

加密內部通訊。
實施網路分段。
使用安全的網路外掛程式並強制執行網路策略。

安全容器映像檔

使用可信的容器登入檔。
掃描映像檔中的漏洞。
強制執行 Pod 安全策略以限制容器許可權。

監控和記錄叢集活動

實施日誌記錄和監控解決方案。
啟用稽核功能。
定期檢查日誌中的可疑活動。

Kubernetes 故障排除

故障排除是維護 Kubernetes 叢集健康的重要技能。常見的問題包括 Pod 排程問題、容器當機、映像檔提取問題、網路問題或資源限制。識別和解決這些問題對於保持叢集穩定至關重要。

取得資源詳細資訊

kubectl get 和 kubectl describe 命令是診斷和了解叢集中資源狀態的必備工具。

kubectl get 提供叢集中各種資源的高階概覽，例如 Pod、服務、佈署和節點。
kubectl describe 提供特定資源的詳細描述，包括其組態、事件和最近的變更。

使用日誌和事件進行故障排除

Kubernetes 提供了強大的工具，如事件和稽核日誌，以有效監控和保護叢集。

事件提供了叢集中關鍵操作的即時概覽，例如 Pod 排程、容器重新啟動和錯誤。
稽核日誌捕捉對 Kubernetes API 伺服器發出的 API 請求的詳細記錄，包括使用者、執行的操作和結果。

kubectl 命令在故障排除中的應用

kubectl get events：輸出事件的時間線，幫助識別和排除問題。
kubectl logs todo-app：檢索 Pod 中的日誌，有助於診斷和排除問題。

Kubernetes 進階除錯技術與實踐

即時日誌串流與分析

在 Kubernetes 環境中，kubectl logs 指令是除錯應用程式的重要工具。為了實作類別似 Linux tail -f 的即時日誌串流功能，可以使用 -f 旗標：

$ kubectl logs -f todo-app

此指令對於監控即時處理程式非常有用。如果 Pod 曾經重新啟動，可以使用以下指令存取之前例項的日誌：

$ kubectl logs todo-app --previous

篩選日誌內容

結合 kubectl 與 jq 等工具，可以根據標籤篩選日誌：

$ kubectl get pods -l todo -o json | jq -r '.items[] | .metadata.name' | xargs -I {} kubectl logs {}

日誌管理最佳實踐

實施日誌輪替：防止過度使用磁碟空間，確保舊日誌被歸檔或刪除。
使用結構化日誌：如 JSON 格式，便於使用 jq 等工具進行解析和分析。
建立集中式日誌系統：如 Elasticsearch, Fluentd, Kibana (EFK) 堆積疊，提供跨叢集的日誌聚合和搜尋功能。

Kubernetes 事件與稽核日誌

Kubernetes 事件和稽核日誌提供了全面的監控和安全功能。事件提供了應用程式狀態和行為的洞察，而稽核日誌確保叢集中所有動作都被追蹤，幫助維護安全和合規的環境。

使用 `kubectl explain` 進行資源說明

kubectl explain 是一個強大的工具，用於瞭解 Kubernetes 資源的結構和欄位。它提供了特定資源型別的詳細資訊，允許直接從命令列探索 API 結構。

使用範例

$ kubectl explain pod
$ kubectl explain pod.spec

互動式除錯使用 `kubectl exec`

kubectl exec 允許直接在容器內執行命令，是除錯、檢查容器環境和進行快速修復的寶貴工具。

基本用法

$ kubectl exec blog-675df44d5-gkrt2 -- env
$ kubectl exec blog-675df44d5-gkrt2 -c blog -- env

互動式 Shell 會話

$ kubectl exec -it blog-675df44d5-gkrt2 -n trouble-ns -- /bin/bash
root@blog-675df44d5-gkrt2:/app# whoami; hostname; uptime

複製檔案到容器或從容器複製檔案

$ kubectl cp troubles/test.txt blog-675df44d5-gkrt2:/app/test.txt -n trouble-ns
$ kubectl cp blog-675df44d5-gkrt2:/app/app.py /tmp/app.py -n trouble-ns

Kubernetes 中的暫時容器

暫時容器是一種特殊的容器，用於臨時任務，如除錯。它們可以被新增到現有的 Pod 中，以幫助診斷問題。

使用暫時容器進行除錯

$ kubectl debug -it pod/video-7d945d8c9f-wkxc5 --image=quay.io/iamgini/k8sutils:debian12 -c k8sutils -n ingress-demo
root@video-7d945d8c9f-wkxc5:/# nslookup video-service
root@video-7d945d8c9f-wkxc5:/# curl http://video-service:8080

內容解密：

kubectl debug 指令：用於啟動暫時容器進行除錯。
--image 引數：指定用於除錯的容器映像。
-c 引數：指定容器名稱。
nslookup 和 curl 命令：用於測試服務和檢查網路連線。

這些技術和工具提供了對 Kubernetes 環境中應用程式的深入洞察和控制，對於有效除錯和維護至關重要。

Kubernetes 進階操作：流量管理、多叢集策略等

重新組態 Kubernetes API 伺服器

內容解密：

採用基礎設施即程式碼（IaC）和組態即程式碼（CaC）進行彈性叢集管理

內容解密：

Kubernetes 叢集升級

內容解密：

升級前檢查清單

內容解密：

升級流程

內容解密：

Kubernetes 多叢集管理與進階流量管理策略

升級 Kubernetes 叢集的最佳實踐

升級後的任務

回復計畫的重要性

額外建議

使用自動化工具提升效率

多叢集管理工具介紹

Kubernetes 叢集強化最佳實踐

控制對 Kubernetes API 的存取

控制對 Kubelet 的存取

在執行時控制工作負載或使用者能力

限制網路存取

保護叢集元件

內容解密：

Kubernetes 安全加固與故障排除

加強 Kubernetes 安全的最佳實踐

安全叢集設定

控制叢集存取

保護網路通訊

安全容器映像檔

監控和記錄叢集活動

Kubernetes 故障排除

取得資源詳細資訊

使用日誌和事件進行故障排除

kubectl 命令在故障排除中的應用

Kubernetes 進階除錯技術與實踐

即時日誌串流與分析

篩選日誌內容

日誌管理最佳實踐

Kubernetes 事件與稽核日誌

使用 kubectl explain 進行資源說明

使用範例

互動式除錯使用 kubectl exec

基本用法

互動式 Shell 會話

複製檔案到容器或從容器複製檔案

Kubernetes 中的暫時容器

使用暫時容器進行除錯

內容解密：

使用 `kubectl explain` 進行資源說明

互動式除錯使用 `kubectl exec`