🚀 手把手教你部署 DeepSeek！从安装到优化，一次搞定！🔥

: john 在知识的海洋中遨游

0 人点赞了该文章 · 557 浏览

简介： 想在本地或服务器上跑 DeepSeek？本教程 超详细，涵盖 环境准备、模型下载、API 部署、性能优化 等关键步骤！还教你用 FastAPI 搭建聊天接口，支持 GPU 加速 & 4-bit 量化，让推理速度飞起！💡 新手友好，速速收藏！ 🔥

DeepSeek 的部署涉及多个关键步骤，包括 环境准备、模型下载、服务部署 等。以下是详细的部署流程和要点，适用于 本地部署 和 服务器部署。

1. 环境准备

在开始部署 DeepSeek 之前，需要准备适合的硬件和软件环境。

💻 硬件要求

GPU（推荐）：NVIDIA GPU，支持 CUDA（如 A100、3090、4090）。
CPU（仅测试）：也可以在 CPU 上运行，但速度较慢。
内存：至少 16GB RAM（建议 32GB+）。
存储：模型文件较大，需要 50GB 以上的可用空间。

📦 软件要求

操作系统：Linux（Ubuntu 20.04/22.04）或 Windows（推荐 WSL2）。
Python：建议使用 Python 3.8 及以上。
CUDA & cuDNN（可选）：如果使用 GPU，需要安装正确版本的 CUDA（如 11.8）。
PyTorch：DeepSeek 需要 PyTorch 2.0 以上。

2. 安装依赖

（1）创建 Python 虚拟环境

建议使用 venv 或 conda 创建独立的 Python 环境，防止依赖冲突：

bash
python3 -m venv deepseek-env
source deepseek-env/bin/activate  # Windows: deepseek-env\Scripts\activate

或者使用 conda：

bash
conda create -n deepseek python=3.8 -y
conda activate deepseek

（2）安装 PyTorch

如果使用 GPU，请根据显卡 CUDA 版本安装 PyTorch：

bash
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

如果只使用 CPU：

bash
pip install torch torchvision torchaudio

（3）安装 DeepSeek 依赖

bash
pip install transformers accelerate sentencepiece

3. 下载 DeepSeek 模型

DeepSeek 的模型可以从 Hugging Face 获取：

DeepSeek LLM（chat 模型）：Hugging Face DeepSeek
模型版本：
- deepseek-ai/deepseek-llm-7b-chat
- deepseek-ai/deepseek-llm-67b-chat

（1）手动下载模型

bash
git lfs install
git clone https://huggingface.co/deepseek-ai/deepseek-llm-7b-chat

⚠️ 注意：67B 版本模型较大，下载和加载需要更高性能的硬件。

（2）Hugging Face 直接加载

可以直接在代码中调用：

python
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "deepseek-ai/deepseek-llm-7b-chat"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

如果是 67B 模型，建议开启 4-bit 量化：

python
from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(load_in_4bit=True)
model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=quantization_config)

4. 启动推理服务

可以通过 transformers 提供的 TextGenerationPipeline 快速测试：

python
from transformers import pipeline

generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)
response = generator("你好，请介绍一下 DeepSeek", max_length=100)
print(response[0]["generated_text"])

或者使用 FastAPI 部署 API 服务：

python
from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

app = FastAPI()

# 加载模型
model_name = "deepseek-ai/deepseek-llm-7b-chat"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)

@app.post("/chat/")
async def chat(prompt: str):
    response = generator(prompt, max_length=200)
    return {"response": response[0]["generated_text"]}

# 运行服务
if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)

运行：

bash
uvicorn main:app --host 0.0.0.0 --port 8000

然后可以用 Postman 或浏览器访问：

bash
http://localhost:8000/chat/?prompt=你好

5. 进阶优化（可选）

（1）量化加速

如果内存不足，可以使用 bitsandbytes 进行 4-bit / 8-bit 量化：

bash
pip install bitsandbytes

然后在加载模型时：

python
from transformers import BitsAndBytesConfig

quant_config = BitsAndBytesConfig(load_in_4bit=True)  # 也可用 load_in_8bit
model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=quant_config)

（2）使用 vLLM 提升推理速度

vLLM 能更高效地管理显存，提高推理吞吐量：

bash
pip install vllm

然后运行：

bash
python -m vllm.entrypoints.api_server --model deepseek-ai/deepseek-llm-7b-chat

（3）多 GPU 部署

如果有多张 GPU，可开启 torchrun 进行分布式加载：

bash
torchrun --nproc_per_node=2 run_model.py

或者使用 DeepSpeed：

python
from transformers import AutoModelForCausalLM
import deepspeed

model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-llm-7b-chat", torch_dtype="auto")
model = deepspeed.init_inference(model, dtype="fp16", mp_size=2)

✅ 本地/服务器部署 DeepSeek 的完整流程

安装环境（Python, PyTorch, CUDA, transformers）
下载模型（手动下载或直接加载）
测试推理（用 pipeline 生成文本）
部署 API（FastAPI / Flask）
优化加速（4-bit 量化、vLLM、多 GPU）

DeepSeek LLM 适用于 对话机器人、代码生成、文本摘要 等 AI 任务，优化得当可大幅提升推理速度。🚀🔥