【实战教程】Flux.1-dev 360° 全景驾驶舱：从零到一的“零坑”部署指南

本文给出在 24GB 显存单卡上部署 Flux.1-dev 并加载 360° 驾驶舱 LoRA 的完整流程：先安装 diffusers/transformers/peft 等依赖，完成 Hugging Face 授权与 CLI 登录，再用 ModelScope 国内镜像下载底模与 LoRA。推理脚本通过 enable_sequential_cpu_offload 与显存优化规避 OOM，并总结了常见报错与处理方式。

前言

Flux.1-dev 是目前开源界最强的文生图模型，但其高达 24GB+ 的参数量让 24G 显存（如 3090/4090）环境极易崩溃。本教程整理自真实踩坑记录，教你如何利用 ModelScope 极速下载、身份自动鉴权和显存顺序卸载技术，在单卡环境下完美复现。

1. 核心依赖搭建

为了规避后续出现的 sentencepiece 缺失、PEFT 后端未找到等报错，请务必先一次性执行以下安装：

# 1. 升级核心库
pip install --upgrade diffusers transformers accelerate 

# 2. 安装分词与 LoRA 后端（必须安装，否则模型加载会报错）
pip install sentencepiece protobuf peft

# 3. 安装下载加速工具
pip install modelscope huggingface_hub

2. 模型权限与身份登录 (必做)

Flux.1-dev 是受限模型，必须完成身份验证才能下载。

2.1 官网授权

登录 Hugging Face。
访问 FLUX.1-dev 页面，点击 “Agree and access repository”。（由于我已经点击过了，所以这边用FLUX.2的界面做个示范）
在 Settings -> Tokens 创建一个名为 flux 的 Read Token，并复制。

这边根据需求选就可以了，如果不理解功能的话都选也可以

2.2 终端登录鉴权

在下载模型前，必须让你的服务器“记住”你的身份：

huggingface-cli login

提示 “Enter your token” 时：粘贴你刚才生成的 Token。注意：粘贴时屏幕不会显示任何字符，直接按回车即可。
提示 “Add token as git credential?” 时：输入 n。

3. 极速下载方案 (国内 CDN 提速)

利用 ModelScope 镜像站，避开 Hugging Face 官方链接每秒几百 KB 的慢速坑。

3.1 下载底模全套文件 (约 35GB)

mkdir -p ~/workspace/FLUX.1-dev
cd ~/workspace/FLUX.1-dev

# 使用 ModelScope 顺序补全所有配置文件和权重
modelscope download --model AI-ModelScope/FLUX.1-dev --local_dir .

3.2 下载 360° 驾驶舱 LoRA

mkdir -p ~/workspace/lora-cockpit
cd ~/workspace/lora-cockpit

modelscope download --model AI-ModelScope/cockpit-360-lora-flux-dev --local_dir .

4. 编写推理脚本 (攻克显存溢出 OOM)

对于 24G 显存，普通加载必崩。我们必须使用 enable_sequential_cpu_offload() 这种“空间换时间”的策略。

创建 generate_360.py:

import torch
from diffusers import FluxPipeline
import datetime
import os

# 1. 显存优化：启用扩展段模式，减少碎片化
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

# 2. 本地绝对路径
base_model_path = "/root/workspace/FLUX.1-dev"
lora_path = "/root/workspace/lora-cockpit"

print(f"[{datetime.datetime.now()}] 正在从磁盘加载 Flux 模型组件...")

# 3. 初始化加载 (local_files_only 确保不联网检测)
pipe = FluxPipeline.from_pretrained(
    base_model_path, 
    torch_dtype=torch.bfloat16,
    local_files_only=True
)

# 4. 【核心优化】开启顺序 CPU 卸载模式
# 它会将模型按层加载到 GPU，处理完立即卸载，是 24G 显存跑通 Flux 的唯一选择
pipe.enable_sequential_cpu_offload()

print(f"[{datetime.datetime.now()}] 正在注入 360° LoRA...")
pipe.load_lora_weights(lora_path)

# 5. 设置全景提示词与参数
prompt = "A 360 degree equirectangular panorama of a high-tech spaceship cockpit, glowing blue console, detailed controls, stars outside, 8k"
width = 2048
height = 1024

print(f"[{datetime.datetime.now()}] 推理中... (该模式下速度稍慢，请耐心等待)")

with torch.inference_mode():
    torch.cuda.empty_cache() # 强制清理缓存
    image = pipe(
        prompt, 
        width=width, 
        height=height, 
        num_inference_steps=28, 
        guidance_scale=3.5
    ).images[0]

# 6. 结果保存
image.save("cockpit_360_final.png")
print(f"[{datetime.datetime.now()}] 完成！图片已保存。")

5.效果演示

在这里插入图片描述

6. 常见问题总结

报错 OSError: model_index.json not found：说明 ModelScope 没下全，请重新运行下载命令补全小文件。
报错 sentencepiece：环境里没装这个库，必须 pip install sentencepiece。
报错 CUDA out of memory：
- 检查分辨率是否设得太高（建议从 1024x512 开始测试）。
- 确保使用的是 enable_sequential_cpu_offload() 而不是 enable_model_cpu_offload()。
授权 403 错误：确保你已经在浏览器端点击过“同意协议”，且 huggingface-cli login 成功。

阅读原文

【實戰教程】Flux.1-dev 360° 全景駕駛艙：從零到一的“零坑”部署指南

本文給出在 24GB 顯存單卡上部署 Flux.1-dev 並加載 360° 駕駛艙 LoRA 的完整流程：先安裝 diffusers/transformers/peft 等依賴，完成 Hugging Face 授權與 CLI 登錄，再用 ModelScope 國內鏡像下載底模與 LoRA。推理腳本通過 enable_sequential_cpu_offload 與顯存優化規避 OOM，並總結了常見報錯與處理方式。

來源：https://blog.csdn.net/2403_87969572/article/details/156841551

抓取時間（ISO本地）：2026-05-18 05:17:30

前言

Flux.1-dev 是目前開源界最強的文生圖模型，但其高達 24GB+ 的引數量讓 24G 視訊記憶體（如 3090/4090）環境極易崩潰。本教程整理自真實踩坑記錄，教你如何利用 ModelScope 極速下載、身份自動鑑權和視訊記憶體順序解除安裝技術，在單卡環境下完美復現。

1. 核心依賴搭建

為了規避後續出現的 sentencepiece 缺失、PEFT 後端未找到等報錯，請務必先一次性執行以下安裝：

# 1. 升級核心庫
pip install --upgrade diffusers transformers accelerate 

# 2. 安裝分詞與 LoRA 後端（必須安裝，否則模型載入會報錯）
pip install sentencepiece protobuf peft

# 3. 安裝下載加速工具
pip install modelscope huggingface_hub

2. 模型許可權與身份登入 (必做)

Flux.1-dev 是受限模型，必須完成身份驗證才能下載。

2.1 官網授權

登入 Hugging Face。
訪問 FLUX.1-dev 頁面，點選 “Agree and access repository”。（由於我已經點選過了，所以這邊用FLUX.2的介面做個示範）
在 Settings -> Tokens 建立一個名為 flux 的 Read Token，並複製。

這邊根據需求選就可以了，如果不理解功能的話都選也可以

2.2 終端登入鑑權

在下載模型前，必須讓你的伺服器“記住”你的身份：

huggingface-cli login

提示 “Enter your token” 時：貼上你剛才生成的 Token。注意：貼上時螢幕不會顯示任何字元，直接按回車即可。
提示 “Add token as git credential?” 時：輸入 n。

3. 極速下載方案 (國內 CDN 提速)

利用 ModelScope 映象站，避開 Hugging Face 官方連結每秒幾百 KB 的慢速坑。

3.1 下載底模全套檔案 (約 35GB)

mkdir -p ~/workspace/FLUX.1-dev
cd ~/workspace/FLUX.1-dev

# 使用 ModelScope 順序補全所有配置檔案和權重
modelscope download --model AI-ModelScope/FLUX.1-dev --local_dir .

3.2 下載 360° 駕駛艙 LoRA

mkdir -p ~/workspace/lora-cockpit
cd ~/workspace/lora-cockpit

modelscope download --model AI-ModelScope/cockpit-360-lora-flux-dev --local_dir .

4. 編寫推理指令碼 (攻克視訊記憶體溢位 OOM)

對於 24G 視訊記憶體，普通載入必崩。我們必須使用 enable_sequential_cpu_offload() 這種“空間換時間”的策略。

建立 generate_360.py:

import torch
from diffusers import FluxPipeline
import datetime
import os

# 1. 視訊記憶體最佳化：啟用擴充套件段模式，減少碎片化
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

# 2. 本地絕對路徑
base_model_path = "/root/workspace/FLUX.1-dev"
lora_path = "/root/workspace/lora-cockpit"

print(f"[{datetime.datetime.now()}] 正在從磁碟載入 Flux 模型元件...")

# 3. 初始化載入 (local_files_only 確保不聯網檢測)
pipe = FluxPipeline.from_pretrained(
    base_model_path, 
    torch_dtype=torch.bfloat16,
    local_files_only=True
)

# 4. 【核心最佳化】開啟順序 CPU 解除安裝模式
# 它會將模型按層載入到 GPU，處理完立即解除安裝，是 24G 視訊記憶體跑通 Flux 的唯一選擇
pipe.enable_sequential_cpu_offload()

print(f"[{datetime.datetime.now()}] 正在注入 360° LoRA...")
pipe.load_lora_weights(lora_path)

# 5. 設定全景提示詞與引數
prompt = "A 360 degree equirectangular panorama of a high-tech spaceship cockpit, glowing blue console, detailed controls, stars outside, 8k"
width = 2048
height = 1024

print(f"[{datetime.datetime.now()}] 推理中... (該模式下速度稍慢，請耐心等待)")

with torch.inference_mode():
    torch.cuda.empty_cache() # 強制清理快取
    image = pipe(
        prompt, 
        width=width, 
        height=height, 
        num_inference_steps=28, 
        guidance_scale=3.5
    ).images[0]

# 6. 結果儲存
image.save("cockpit_360_final.png")
print(f"[{datetime.datetime.now()}] 完成！圖片已儲存。")

5.效果演示

在這裡插入圖片描述

6. 常見問題總結

報錯 OSError: model_index.json not found：說明 ModelScope 沒下全，請重新執行下載命令補全小檔案。
報錯 sentencepiece：環境裡沒裝這個庫，必須 pip install sentencepiece。
報錯 CUDA out of memory：
- 檢查解析度是否設得太高（建議從 1024x512 開始測試）。
- 確保使用的是 enable_sequential_cpu_offload() 而不是 enable_model_cpu_offload()。
授權 403 錯誤：確保你已經在瀏覽器端點選過“同意協議”，且 huggingface-cli login 成功。

[Hands-on] Flux.1-dev 360° Panorama Cockpit: Zero-to-One “Pitfall-Free” Deployment Guide

Flux.1-dev is among the strongest open text-to-image models, but 24GB+ parameters make 24GB VRAM (e.g. 3090/4090) setups crash easily. This guide distills real troubleshooting: ModelScope fast download, automatic auth, and sequential CPU offload for a stable single-GPU workflow.

Captured at (local ISO): 2026-05-18 05:17:30

Preface

Flux.1-dev is among the strongest open text-to-image models, but 24GB+ parameters make 24GB VRAM (e.g. 3090/4090) setups crash easily. This guide distills real troubleshooting: ModelScope fast download, automatic auth, and sequential CPU offload for a stable single-GPU workflow.

1. Core dependencies

To avoid sentencepiece missing, PEFT backend errors, etc., install once:

# 1. Upgrade core libs
pip install --upgrade diffusers transformers accelerate 

# 2. Tokenizer & LoRA backend (required for load)
pip install sentencepiece protobuf peft

# 3. Download tools
pip install modelscope huggingface_hub

Flux.1-dev is gated; you must authenticate before download.

2.1 Web approval

Log in to Hugging Face.
Open FLUX.1-dev and click “Agree and access repository”. (Screenshot uses FLUX.2 as example if you already agreed.)
In Settings -> Tokens create a Read token named flux and copy it.

Choose scopes as needed; selecting all is fine if unsure.

Before downloading, log in on the server:

huggingface-cli login

“Enter your token”: paste the token (no echo on screen), then Enter.
“Add token as git credential?”: type n.

3. Fast download (China CDN)

Use ModelScope mirror instead of slow Hugging Face links.

3.1 Base model (~35GB)

mkdir -p ~/workspace/FLUX.1-dev
cd ~/workspace/FLUX.1-dev

modelscope download --model AI-ModelScope/FLUX.1-dev --local_dir .

3.2 360° cockpit LoRA

mkdir -p ~/workspace/lora-cockpit
cd ~/workspace/lora-cockpit

modelscope download --model AI-ModelScope/cockpit-360-lora-flux-dev --local_dir .

4. Inference script (fix OOM)

On 24GB VRAM, normal full-GPU load often OOMs. Use enable_sequential_cpu_offload()—space for time.

Create generate_360.py:

import torch
from diffusers import FluxPipeline
import datetime
import os

# 1. VRAM: expandable segments
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

# 2. Local paths
base_model_path = "/root/workspace/FLUX.1-dev"
lora_path = "/root/workspace/lora-cockpit"

print(f"[{datetime.datetime.now()}] Loading Flux from disk...")

# 3. Load offline
pipe = FluxPipeline.from_pretrained(
    base_model_path, 
    torch_dtype=torch.bfloat16,
    local_files_only=True
)

# 4. Sequential CPU offload — practical way to run Flux on 24GB
pipe.enable_sequential_cpu_offload()

print(f"[{datetime.datetime.now()}] Loading 360° LoRA...")
pipe.load_lora_weights(lora_path)

# 5. Prompt and size
prompt = "A 360 degree equirectangular panorama of a high-tech spaceship cockpit, glowing blue console, detailed controls, stars outside, 8k"
width = 2048
height = 1024

print(f"[{datetime.datetime.now()}] Inferencing (slower in offload mode)...")

with torch.inference_mode():
    torch.cuda.empty_cache()
    image = pipe(
        prompt, 
        width=width, 
        height=height, 
        num_inference_steps=28, 
        guidance_scale=3.5
    ).images[0]

# 6. Save
image.save("cockpit_360_final.png")
print(f"[{datetime.datetime.now()}] Done. Saved cockpit_360_final.png")

5. Sample output

在这里插入图片描述

6. FAQ

OSError: model_index.json not found: incomplete ModelScope download—re-run download.
sentencepiece error: pip install sentencepiece.
CUDA out of memory:
- Lower resolution first (e.g. 1024×512).
- Use enable_sequential_cpu_offload(), not enable_model_cpu_offload().
403 auth: agree on the website and confirm huggingface-cli login succeeded.

阅读原文

前言

1. 核心依赖搭建

2. 模型权限与身份登录 (必做)

2.1 官网授权

2.2 终端登录鉴权

3. 极速下载方案 (国内 CDN 提速)

3.1 下载底模全套文件 (约 35GB)

3.2 下载 360° 驾驶舱 LoRA

4. 编写推理脚本 (攻克显存溢出 OOM)

5.效果演示

6. 常见问题总结

前言

1. 核心依賴搭建

2. 模型許可權與身份登入 (必做)

2.1 官網授權

2.2 終端登入鑑權

3. 極速下載方案 (國內 CDN 提速)

3.1 下載底模全套檔案 (約 35GB)

3.2 下載 360° 駕駛艙 LoRA

4. 編寫推理指令碼 (攻克視訊記憶體溢位 OOM)

5.效果演示

6. 常見問題總結

Preface

1. Core dependencies

2. Model access and login (required)

2.1 Web approval

2.2 CLI login

3. Fast download (China CDN)

3.1 Base model (~35GB)

3.2 360° cockpit LoRA

4. Inference script (fix OOM)

5. Sample output

6. FAQ