🚀 手把手教你部署 DeepSeek!从安装到优化,一次搞定!🔥

john
john 在知识的海洋中遨游

0 人点赞了该文章 · 193 浏览

简介: 想在本地或服务器上跑 DeepSeek?本教程 超详细,涵盖 环境准备、模型下载、API 部署、性能优化 等关键步骤!还教你用 FastAPI 搭建聊天接口,支持 GPU 加速 & 4-bit 量化,让推理速度飞起!💡 新手友好,速速收藏! 🔥  


DeepSeek 的部署涉及多个关键步骤,包括 环境准备、模型下载、服务部署 等。以下是详细的部署流程和要点,适用于 本地部署服务器部署


1. 环境准备

在开始部署 DeepSeek 之前,需要准备适合的硬件和软件环境。

💻 硬件要求

  • GPU(推荐):NVIDIA GPU,支持 CUDA(如 A100、3090、4090)。
  • CPU(仅测试):也可以在 CPU 上运行,但速度较慢。
  • 内存:至少 16GB RAM(建议 32GB+)。
  • 存储:模型文件较大,需要 50GB 以上的可用空间。

📦 软件要求

  • 操作系统:Linux(Ubuntu 20.04/22.04)或 Windows(推荐 WSL2)。
  • Python:建议使用 Python 3.8 及以上
  • CUDA & cuDNN(可选):如果使用 GPU,需要安装正确版本的 CUDA(如 11.8)。
  • PyTorch:DeepSeek 需要 PyTorch 2.0 以上

2. 安装依赖

(1)创建 Python 虚拟环境

建议使用 venvconda 创建独立的 Python 环境,防止依赖冲突:

bash
python3 -m venv deepseek-env source deepseek-env/bin/activate # Windows: deepseek-env\Scripts\activate

或者使用 conda

bash
conda create -n deepseek python=3.8 -y conda activate deepseek

(2)安装 PyTorch

如果使用 GPU,请根据显卡 CUDA 版本安装 PyTorch:

bash
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

如果只使用 CPU:

bash
pip install torch torchvision torchaudio

(3)安装 DeepSeek 依赖

bash
pip install transformers accelerate sentencepiece

3. 下载 DeepSeek 模型

DeepSeek 的模型可以从 Hugging Face 获取:

  • DeepSeek LLM(chat 模型)Hugging Face DeepSeek
  • 模型版本
    • deepseek-ai/deepseek-llm-7b-chat
    • deepseek-ai/deepseek-llm-67b-chat

(1)手动下载模型

bash
git lfs install git clone https://huggingface.co/deepseek-ai/deepseek-llm-7b-chat

⚠️ 注意:67B 版本模型较大,下载和加载需要更高性能的硬件。

(2)Hugging Face 直接加载

可以直接在代码中调用:

python
from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "deepseek-ai/deepseek-llm-7b-chat" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

如果是 67B 模型,建议开启 4-bit 量化

python
from transformers import BitsAndBytesConfig quantization_config = BitsAndBytesConfig(load_in_4bit=True) model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=quantization_config)

4. 启动推理服务

可以通过 transformers 提供的 TextGenerationPipeline 快速测试:

python
from transformers import pipeline generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0) response = generator("你好,请介绍一下 DeepSeek", max_length=100) print(response[0]["generated_text"])

或者使用 FastAPI 部署 API 服务

python
from fastapi import FastAPI from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline app = FastAPI() # 加载模型 model_name = "deepseek-ai/deepseek-llm-7b-chat" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto") generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0) @app.post("/chat/") async def chat(prompt: str): response = generator(prompt, max_length=200) return {"response": response[0]["generated_text"]} # 运行服务 if __name__ == "__main__": import uvicorn uvicorn.run(app, host="0.0.0.0", port=8000)

运行:

bash
uvicorn main:app --host 0.0.0.0 --port 8000

然后可以用 Postman 或浏览器访问:

bash
http://localhost:8000/chat/?prompt=你好

5. 进阶优化(可选)

(1)量化加速

如果内存不足,可以使用 bitsandbytes 进行 4-bit / 8-bit 量化

bash
pip install bitsandbytes

然后在加载模型时:

python
from transformers import BitsAndBytesConfig quant_config = BitsAndBytesConfig(load_in_4bit=True) # 也可用 load_in_8bit model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=quant_config)

(2)使用 vLLM 提升推理速度

vLLM 能更高效地管理显存,提高推理吞吐量:

bash
pip install vllm

然后运行:

bash
python -m vllm.entrypoints.api_server --model deepseek-ai/deepseek-llm-7b-chat

(3)多 GPU 部署

如果有多张 GPU,可开启 torchrun 进行分布式加载:

bash
torchrun --nproc_per_node=2 run_model.py

或者使用 DeepSpeed:

python
from transformers import AutoModelForCausalLM import deepspeed model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-llm-7b-chat", torch_dtype="auto") model = deepspeed.init_inference(model, dtype="fp16", mp_size=2)


本地/服务器部署 DeepSeek 的完整流程

  1. 安装环境(Python, PyTorch, CUDA, transformers)
  2. 下载模型(手动下载或直接加载)
  3. 测试推理(用 pipeline 生成文本)
  4. 部署 API(FastAPI / Flask)
  5. 优化加速(4-bit 量化、vLLM、多 GPU)

DeepSeek LLM 适用于 对话机器人、代码生成、文本摘要 等 AI 任务,优化得当可大幅提升推理速度。🚀🔥  

发布于 2025-03-19 23:16

免责声明:

本文由 john 原创或转载,著作权归作者所有,如有侵权,请联系我们删除。 info@frelink.top

登录一下,更多精彩内容等你发现,贡献精彩回答,参与评论互动

登录! 还没有账号?去注册

暂无评论

All Rights Reserved Frelink ©2025