返回文章列表

Databricks 雲端叢集與筆記本實戰設定指南

本文詳細闡述在 Databricks 平台上建構數據工程開發環境的完整流程。內容涵蓋從登入平台、設定計算叢集,到創建 Scala 筆記本的每一步驟。文章著重於叢集配置的關鍵參數,如運行時版本、節點類型與自動終止設定,並引導使用者完成筆記本的語言與叢集綁定。最終透過執行範例程式碼,驗證整體雲端環境的可用性,為後續的數據處理與分析任務奠定穩固基礎。

數據工程 雲端運算

在現代數據架構中,Databricks 作為一個整合分析平台,有效簡化了從數據提取到模型部署的複雜流程。其核心價值在於將強大的計算資源與互動式開發環境無縫結合。本文將聚焦於此平台的基礎建置。計算叢集是執行大規模數據處理任務的底層引擎,其配置直接影響效能與成本效益。而筆記本則提供了一個協作式的介面,讓數據工程師與分析師能以 Scala 等語言進行迭代式開發與探索。理解如何正確設定這兩大核心元件,是發揮 Databricks 完整潛力、實現高效數據工作流程的首要步驟,也是所有數據專業人員必須掌握的基礎技能。

數據工程高科技養成:從理論到實踐的玄貓指引

雲端環境建置:Databricks操作指南

成功登入後,讀者將看到Databricks的登陸頁面,如圖所示。

此圖示:Databricks登陸頁面概覽

@startuml
!define DISABLE_LINK
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 16
skinparam minClassWidth 100

rectangle "Databricks 登陸頁面" as LandingPage {
component "歡迎訊息" as WelcomeMsg
component "快速入門指南" as QuickStart
component "最近筆記本/儀表板" as RecentItems
component "主要功能區塊連結" as MainLinks {
rectangle "建立筆記本" as CreateNotebook
rectangle "匯入數據" as ImportData
rectangle "建立叢集" as CreateCluster
rectangle "學習資源" as LearningResources
}

WelcomeMsg -down-> QuickStart
QuickStart -down-> RecentItems
RecentItems -down-> MainLinks
}
@enduml

看圖說話:

此圖示呈現了Databricks平台的登陸頁面,這是使用者登入後首先看到的介面。頁面通常包含歡迎訊息,引導使用者快速熟悉平台。同時,會提供一系列快速入門指南,幫助新使用者迅速掌握基本操作。頁面中央通常會展示最近使用過的筆記本或儀表板,方便使用者快速回到之前的開發工作。此外,還有明確的主要功能區塊連結,例如「建立筆記本」、「匯入數據」、「建立叢集」和「學習資源」,這些連結旨在引導使用者開始進行數據工程任務。這個登陸頁面設計的目標是提供一個直觀且易於導航的起點,讓使用者能夠高效地開始在Databricks上進行數據處理和分析。

讓玄貓開始操作。

設定計算叢集

為了在Databricks上使用Scala,玄貓必須首先設定一個可以運行程式碼的叢集。以下是設定步驟:

  1. 在左側導航窗格中,當處於「數據科學與工程」視圖時,選擇「計算」,如以下截圖所示:

此圖示:建立叢集導航

@startuml
!define DISABLE_LINK
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 16
skinparam minClassWidth 100

rectangle "Databricks 工作區" as Workspace {
rectangle "左側導航窗格" as NavPane {
folder "首頁"
folder "工作區"
folder "數據"
folder "計算" as ComputeBtn
folder "工作"
folder "模型"
}
rectangle "主內容區" as MainContent {
component "計算叢集列表"
component "建立叢集按鈕"
}

NavPane -right-> MainContent
ComputeBtn --> MainContent : 點擊「計算」
}
@enduml

看圖說話:

此圖示描繪了在Databricks工作區中,使用者如何透過左側導航窗格進入計算叢集設定介面。左側的導航窗格列出了Databricks的各項功能模組,其中「計算」按鈕是管理和創建計算資源的入口。當使用者點擊「計算」後,主內容區將會展示當前已有的計算叢集列表,並提供創建新叢集的選項。這個步驟是使用Databricks進行數據處理的基礎,因為所有程式碼的執行都需要依賴於一個運行的計算叢集。

  1. 輸入自選的叢集名稱,然後選擇最新的長期支援 (LTS) Databricks運行時版本,如以下截圖所示:

此圖示:叢集配置介面

@startuml
!define DISABLE_LINK
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 16
skinparam minClassWidth 100

rectangle "建立叢集" as CreateClusterDialog {
note "配置叢集參數" as ConfigNote
component "叢集名稱" as ClusterNameInput
component "Databricks 運行時版本" as RuntimeVersionSelect
component "工作節點類型" as WorkerType
component "驅動節點類型" as DriverType
component "自動終止時間" as AutoTerminate
component "建立叢集按鈕" as CreateBtn

ConfigNote -down-> ClusterNameInput
ClusterNameInput -down-> RuntimeVersionSelect
RuntimeVersionSelect -down-> WorkerType
WorkerType -down-> DriverType
DriverType -down-> AutoTerminate
AutoTerminate -down-> CreateBtn
}
@enduml

看圖說話:

此圖示展示了Databricks建立叢集時的配置介面。在這個對話框中,使用者需要輸入叢集名稱以便識別,並選擇一個適合專案需求的Databricks運行時版本,通常建議選擇最新的長期支援(LTS)版本以獲得最佳穩定性和功能。此外,還需要配置工作節點類型驅動節點類型,這決定了叢集的計算能力和成本。自動終止時間設定則是用於在叢集閒置一段時間後自動關閉,以節省資源費用。最後,點擊「建立叢集」按鈕即可啟動叢集的創建過程。這些配置選項確保了叢集能夠根據具體任務的需求進行優化。

  1. 點擊「建立叢集」後,叢集應立即開始啟動過程。

叢集將在閒置2小時後自動終止。如果需要重新啟動叢集,可以在同一個頁面上操作。讀者也可以透過按鈕終止、複製或刪除叢集。

設定筆記本

現在玄貓的計算環境已設定完成,讓玄貓創建一個可以執行Scala程式碼的筆記本

  1. 在左側導航窗格中,點擊「工作區」,然後點擊「首頁」按鈕:

此圖示:導航至工作區首頁

@startuml
!define DISABLE_LINK
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 16
skinparam minClassWidth 100

rectangle "Databricks 工作區" as Workspace {
rectangle "左側導航窗格" as NavPane {
folder "首頁"
folder "工作區" as WorkspaceBtn
folder "數據"
folder "計算"
}
rectangle "主內容區" as MainContent {
component "工作區內容"
component "首頁按鈕" as HomeBtn
}

NavPane -right-> MainContent
WorkspaceBtn --> MainContent : 點擊「工作區」
HomeBtn --> MainContent : 點擊「首頁」
}
@enduml

看圖說話:

此圖示展示了在Databricks工作區中,使用者如何透過左側導航窗格中的「工作區」按鈕,進一步導航至「首頁」以管理和創建筆記本。點擊「工作區」後,主內容區會顯示工作區的結構,通常包含一個「首頁」按鈕或選項,點擊它將進入一個可以創建新筆記本或管理現有筆記本的介面。這個步驟是為了進入筆記本管理區域,為接下來的程式碼編寫和執行做準備。

  1. 接下來,右鍵點擊電子郵件下方的空白處,然後選擇「建立 | 筆記本」:

此圖示:建立筆記本選項

@startuml
!define DISABLE_LINK
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 16
skinparam minClassWidth 100

rectangle "Databricks 工作區" as Workspace {
rectangle "工作區內容區" as ContentArea {
component "文件列表"
component "空白區域" as WhiteSpace
}
rectangle "右鍵選單" as ContextMenu {
component "建立 (Create)" as CreateOption
component "筆記本 (Notebook)" as NotebookOption
component "資料夾 (Folder)"
component "函式庫 (Library)"
}

WhiteSpace -right-> ContextMenu : 右鍵點擊
CreateOption -down-> NotebookOption : 選擇「建立 | 筆記本」
}
@enduml

看圖說話:

此圖示展示了在Databricks工作區內容區中,使用者如何透過右鍵選單來創建一個新的筆記本。在工作區的空白區域點擊滑鼠右鍵,會彈出一個上下文選單。在這個選單中,使用者需要選擇「建立」(Create)選項,然後在子選單中選擇「筆記本」(Notebook)。這個操作將會彈出一個對話框,引導使用者配置新筆記本的名稱、語言和所連接的計算叢集,為後續的程式碼開發做好準備。

筆記本創建對話框將允許讀者創建筆記本,指定Scala作為語言,並選擇剛剛創建的叢集:

此圖示:創建筆記本對話框

@startuml
!define DISABLE_LINK
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 16
skinparam minClassWidth 100

rectangle "建立筆記本" as CreateNotebookDialog {
component "筆記本名稱" as NotebookNameInput
component "預設語言 (Default Language)" as LanguageSelect
component "叢集 (Cluster)" as ClusterSelect
component "建立按鈕" as CreateBtn

NotebookNameInput -down-> LanguageSelect
LanguageSelect -down-> ClusterSelect
ClusterSelect -down-> CreateBtn
}
@enduml

看圖說話:

此圖示展示了創建筆記本的對話框。在這個對話框中,使用者需要首先輸入筆記本的名稱,以便於識別和管理。接著,從預設語言下拉選單中選擇所需的編程語言,例如Scala。最後,從叢集下拉選單中選擇之前已經設定並啟動的計算叢集,這個叢集將負責執行筆記本中的程式碼。完成這些配置後,點擊「建立」按鈕即可創建一個新的、可執行Scala程式碼的筆記本,並將其連接到指定的計算資源。

  1. 至此,讀者應該擁有一個能夠運行Scala程式碼的筆記本。

為了驗證這一點,創建兩個命令單元,並輸入以下程式碼,然後選擇筆記本頂部的「全部運行」:

此圖示:執行筆記本中的Scala程式碼

@startuml
!define DISABLE_LINK
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 16
skinparam minClassWidth 100

rectangle "Databricks 筆記本" as Notebook {
component "命令單元 1" as Cell1 {
text "println(\"Hello, Databricks!\")"
}
component "命令單元 2" as Cell2 {
text "val x = 1 + 1\nprintln(s\"Result: $x\")"
}
component "運行全部按鈕" as RunAllBtn
component "輸出結果區" as OutputArea

Cell1 -down-> Cell2
RunAllBtn -right-> Cell1 : 點擊「運行全部」
Cell2 -down-> OutputArea : 顯示執行結果
}
@enduml

看圖說話:

此圖示展示了在Databricks筆記本中執行Scala程式碼的過程。筆記本由多個命令單元組成,每個單元可以包含一段程式碼。圖中顯示了兩個命令單元,分別包含簡單的println語句和變數計算。使用者可以透過點擊筆記本頂部的「運行全部」按鈕,一次性執行所有命令單元中的程式碼。程式碼執行後,其輸出結果將顯示在相應命令單元下方的輸出結果區。這個過程驗證了筆記本和所連接的計算叢集是否正常工作,確保使用者可以順利進行Scala數據工程開發。

現在玄貓已經了解了如何在雲端設定環境,接下來玄貓將轉向在本地設定環境。

從內在領導力與外顯表現的關聯來看,這套雲端環境的建置流程,不僅是技術操作的演練,更是數據工程師專業成熟度的體現。與傳統本地端開發的繁瑣配置相比,Databricks這類整合平台將基礎設施管理的複雜性高度抽象化,其核心價值在於將工程師的精力從「環境維護」的泥沼中解放,重新聚焦於「商業價值實現」的核心目標。此模式雖引入了雲端資源控管與成本優化的新挑戰,卻也提供了傳統方法難以企及的協作效率與計算彈性,從根本上重塑了數據專案的啟動與迭代週期。

掌握這類雲端平台的敏捷部署能力,已從過去的加分選項,演變為現代高階數據專業人士不可或缺的核心職能,它直接決定了個人與團隊應對複雜問題時的反應速度與架構視野。接下來的2-3年,隨著數據應用場景的持續深化,雲端原生開發將成為主流,能否高效駕馭此類環境,將是區分資深工程師與架構師的關鍵分水嶺。

綜合評估後,玄貓認為,對於追求高效能與規模化發展的數據團隊而言,將標準化雲端環境的熟練操作內化為團隊基礎素養,其長期投資回報將遠高於單點的演算法優化。