返回文章列表

Stable Diffusion XL 模型操作

本文介紹如何使用 AUTOMATIC1111 WebUI 執行 Stable Diffusion XL 1.0 模型,涵蓋安裝設定、模型下載、影像生成、引數調整、提示工程以及進階技巧如 Img2Img、影像上取樣和逆向工程 CLIP 嵌入等。

機器學習 Web 開發

Stable Diffusion XL 1.0 模型在 AI 繪圖領域備受關注,本文將引導讀者使用 AUTOMATIC1111 WebUI 介面操作 SDXL 模型,從基礎安裝到進階技巧,逐步講解如何生成高品質影像。文章涵蓋環境設定、模型下載與放置、WebUI 操作、引數調整、提示詞撰寫技巧,以及如何利用 Img2Img、影像上取樣和逆向工程 CLIP 嵌入等功能實作更精細的影像控制和生成。

相較於舊版 1.5 模型,SDXL 1.0 在影像生成品質和細節方面有所提升,但對硬體資源的需求也更高。安裝 AUTOMATIC1111 WebUI 需要先組態 Python 和 Git 環境,並下載 SDXL 1.0 的基礎模型和精煉模型(.safetensors 格式),放置於指定目錄後,即可啟動 WebUI 介面進行操作。影像生成過程涉及多個引數的調整,例如取樣方法、CFG Scale、影像尺寸、批次計數和批次大小等,不同的引陣列合會影響生成影像的風格和細節。

使用AUTOMATIC1111執行Stable Diffusion的技術

安裝與設定

要在本地執行Stable Diffusion,需要進行一些技術設定。建議查閱AUTOMATIC1111 Wiki上的最新,瞭解如何在不同硬體平臺(如NVIDIA、AMD和Apple Silicon)上安裝和執行Stable Diffusion。

安裝過程一般涉及確保Git和Python已安裝,然後下載Stable Diffusion和AUTOMATIC1111的程式碼到本地電腦。這篇文章使用Stable Diffusion的XL 1.0版本,雖然許多使用者仍使用舊版本1.5,因為它被認為更寬容,並有豐富的自定義社群訓練模型。

下載模型

可以從“Files and Versions”標籤下載SDXL v1.0的.safetensors檔案。這種格式比以前的.ckpt檔案格式更安全,因為它不會在執行時在電腦上執行程式碼。

  • 基礎模型:sd_xl_base_1.0.safetensors
  • 精煉模型:sd_xl_refiner_1.0.safetensors

這些模型需要時間來下載,因此建議立即開始下載。稍後,您需要將它們放在models/Stable-diffusion目錄中,當您安裝了AUTOMATIC1111介面後。

執行AUTOMATIC1111 Web介面

安裝完成後,透過網頁介面存取AUTOMATIC1111。例如,在Windows上,具有NVIDIA GPU的電腦可以按照以下步驟操作:

  1. 安裝Python 3.10.6(並選擇新增到PATH)和Git。
  2. 開啟命令提示符,輸入git clone https://...下載AUTOMATIC1111的程式碼。
  3. 將下載的模型移動到stable-diffusion-webui/models/Stable-diffusion目錄中。
  4. 雙擊webui-user.bat檔案,並存取介面顯示的網址。

生成影像

在網頁介面中,您可以輸入提示(在“txt2img”標籤下的頂部左側),然後單擊“Generate”按鈕來生成影像。如果您遇到錯誤或需要更新AUTOMATIC1111,請進入stable-diffusion-webui目錄並執行git pull

高階設定

  • 取樣方法:Euler、DDIM、DPM++ 2M Karras和UniPC等。每種方法都有其優缺點,需要根據具體需求選擇。
  • CFG Scale:控制模型對提示的遵循程度。常見值包括1(幾乎忽略提示)、3(允許創造力)、7(平衡)、15(嚴格遵循提示)和30(嚴格遵循)。
  • 影像大小:可透過Height和Width引數調整。
  • 批次計數:控制生成影像的數量。
  • 批次大小:控制每批次處理的影像數量,影響VRAM使用量。

提示權重

AUTOMATIC1111支援提示權重,即可對某些詞彙或短語賦予更高的重要性。使用括號()來增加權重,例如(pirate:1.5)表示對“pirate”這個詞彙增加50%的注意力。

影像後處理

  • Highres fix:使用上取樣器生成更高解析度的影像。
  • Restore faces:使用面部修復模型修復人臉缺陷。
  • Tiling:生成可平鋪的影像。

進階 Stable Diffusion 技術:高階影像生成

Stable Diffusion 是一種強大的影像生成模型,能夠根據輸入的文字提示生成高品質的影像。在這篇文章中,我們將探討一些進階的技術,包括提示編輯、Img2Img 和影像上取樣。

提示編輯

提示編輯是一種高階技術,涉及修改 diffusion 模型的層次以控制生成影像的風格和內容。透過在提示中新增特定的語法,可以實作多種創新的效果,例如在兩個概念之間切換或混合不同的風格。然而,這種技術需要大量的實驗和調整,因此被視為一種「黑暗藝術」。

Img2Img

Img2Img 是 AUTOMATIC1111 Web 使用者介面的功能之一,允許使用者提交一張影像作為輸入,並根據提示生成新的影像。這種功能可以更好地控制生成影像的風格和內容,尤其是在需要特定風格或構圖的情況下。要使用 Img2Img,需要選擇合適的引數,例如 Euler取樣、50 步取樣和較高的 CFG 縮放比例(20-30)。

影像上取樣

影像上取樣是將低解析度影像轉換為高解析度影像的過程。AUTOMATIC1111 的 Img2Img 功能支援影像上取樣,可以根據提示生成高解析度影像。要實作良好的上取樣效果,需要選擇合適的引數,例如高步數(150-200+)、適當的 CFG 縮放比例(8-15)和適當的去噪強度(0.1-0.2)。

影像評估

生成多個引陣列合或值的網格是執行 Stable Diffusion 的一個強大優勢。雖然這可能需要花費大量時間,但它是視覺化識別每個引數的作用和品質最佳點的最佳方法。AUTOMATIC1111 儲存每個生成影像的後設資料,因此可以輕鬆追蹤用於生成特定影像的設定和提示。

逆向工程CLIP嵌入模型

在Img2Img標籤中,CLIP嵌入模型(也被玄貓使用)實作了「逆向工程CLIP」按鈕(在某些版本中顯示為一個回形針),允許您從影像反向工程出提示,類別似於Midjourney的「描述」功能。當您點選按鈕並執行指令碼後,提示將出現在您的提示框中。

從使用者經驗的最佳化角度來看,AUTOMATIC1111 的 Stable Diffusion WebUI 顯著降低了使用 Stable Diffusion 的門檻,讓更多人能體驗 AI 繪圖的魅力。透過直觀的網頁介面,使用者可以輕鬆調整引數、輸入提示並生成影像,無需複雜的命令列操作。然而,進階功能如提示編輯、Img2Img 和影像上取樣等,仍需使用者投入時間和精力去實驗和理解,才能充分發揮其潛力。

深入剖析 Stable Diffusion 的技術核心,可以發現其效能高度依賴於硬體組態,特別是 GPU 的效能。雖然 SDXL 1.0 模型在影像品質上有所提升,但更高的運算需求也對硬體提出了更高的要求。此外,提示工程的技巧也至關重要,一個好的提示可以顯著提升生成影像的品質和符合度。對於初學者來說,學習如何有效地使用提示權重、語法和 CLIP 嵌入模型等進階技巧,將是提升創作效率的關鍵。

展望 Stable Diffusion 的未來發展,模型的輕量化和效能最佳化將是重要的發展方向,以降低硬體門檻並提升生成速度。同時,更為智慧的提示輔助工具和自動化引數調整功能,也有望進一步簡化創作流程,讓使用者更專注於創意發想。玄貓認為,隨著技術的持續演進和社群的蓬勃發展,Stable Diffusion 將在藝術創作、設計領域和更多應用場景中展現更大的潛力,並持續推動 AI 繪圖技術的普及化。對於想要深入探索 AI 繪圖的使用者,建議積極參與社群討論、學習進階技巧,並持續關注 Stable Diffusion 的最新發展動態。