🚀 手把手教你部署 DeepSeek!从安装到优化,一次搞定!🔥
简介: 想在本地或服务器上跑 DeepSeek?本教程 超详细,涵盖 环境准备、模型下载、API 部署、性能优化 等关键步骤!还教你用 FastAPI 搭建聊天接口,支持 GPU 加速 & 4-bit 量化,让推理速度飞起!💡 新手友好,速速收藏! 🔥
DeepSeek 的部署涉及多个关键步骤,包括 环境准备、模型下载、服务部署 等。以下是详细的部署流程和要点,适用于 本地部署 和 服务器部署。
1. 环境准备
在开始部署 DeepSeek 之前,需要准备适合的硬件和软件环境。
💻 硬件要求
- GPU(推荐):NVIDIA GPU,支持 CUDA(如 A100、3090、4090)。
- CPU(仅测试):也可以在 CPU 上运行,但速度较慢。
- 内存:至少 16GB RAM(建议 32GB+)。
- 存储:模型文件较大,需要 50GB 以上的可用空间。
📦 软件要求
- 操作系统:Linux(Ubuntu 20.04/22.04)或 Windows(推荐 WSL2)。
- Python:建议使用 Python 3.8 及以上。
- CUDA & cuDNN(可选):如果使用 GPU,需要安装正确版本的 CUDA(如 11.8)。
- PyTorch:DeepSeek 需要 PyTorch 2.0 以上。
2. 安装依赖
(1)创建 Python 虚拟环境
建议使用 venv
或 conda
创建独立的 Python 环境,防止依赖冲突:
bashpython3 -m venv deepseek-env source deepseek-env/bin/activate # Windows: deepseek-env\Scripts\activate
或者使用 conda
:
bashconda create -n deepseek python=3.8 -y conda activate deepseek
(2)安装 PyTorch
如果使用 GPU,请根据显卡 CUDA 版本安装 PyTorch:
bashpip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
如果只使用 CPU:
bashpip install torch torchvision torchaudio
(3)安装 DeepSeek 依赖
bashpip install transformers accelerate sentencepiece
3. 下载 DeepSeek 模型
DeepSeek 的模型可以从 Hugging Face 获取:
- DeepSeek LLM(chat 模型):Hugging Face DeepSeek
- 模型版本:
deepseek-ai/deepseek-llm-7b-chat
deepseek-ai/deepseek-llm-67b-chat
(1)手动下载模型
bashgit lfs install git clone https://huggingface.co/deepseek-ai/deepseek-llm-7b-chat
⚠️ 注意:67B 版本模型较大,下载和加载需要更高性能的硬件。
(2)Hugging Face 直接加载
可以直接在代码中调用:
pythonfrom transformers import AutoModelForCausalLM, AutoTokenizer model_name = "deepseek-ai/deepseek-llm-7b-chat" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
如果是 67B 模型,建议开启 4-bit 量化:
pythonfrom transformers import BitsAndBytesConfig quantization_config = BitsAndBytesConfig(load_in_4bit=True) model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=quantization_config)
4. 启动推理服务
可以通过 transformers
提供的 TextGenerationPipeline
快速测试:
pythonfrom transformers import pipeline generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0) response = generator("你好,请介绍一下 DeepSeek", max_length=100) print(response[0]["generated_text"])
或者使用 FastAPI 部署 API 服务:
pythonfrom fastapi import FastAPI from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline app = FastAPI() # 加载模型 model_name = "deepseek-ai/deepseek-llm-7b-chat" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto") generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0) @app.post("/chat/") async def chat(prompt: str): response = generator(prompt, max_length=200) return {"response": response[0]["generated_text"]} # 运行服务 if __name__ == "__main__": import uvicorn uvicorn.run(app, host="0.0.0.0", port=8000)
运行:
bashuvicorn main:app --host 0.0.0.0 --port 8000
然后可以用 Postman 或浏览器访问:
bashhttp://localhost:8000/chat/?prompt=你好
5. 进阶优化(可选)
(1)量化加速
如果内存不足,可以使用 bitsandbytes 进行 4-bit / 8-bit 量化:
bashpip install bitsandbytes
然后在加载模型时:
pythonfrom transformers import BitsAndBytesConfig quant_config = BitsAndBytesConfig(load_in_4bit=True) # 也可用 load_in_8bit model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=quant_config)
(2)使用 vLLM 提升推理速度
vLLM 能更高效地管理显存,提高推理吞吐量:
bashpip install vllm
然后运行:
bashpython -m vllm.entrypoints.api_server --model deepseek-ai/deepseek-llm-7b-chat
(3)多 GPU 部署
如果有多张 GPU,可开启 torchrun
进行分布式加载:
bashtorchrun --nproc_per_node=2 run_model.py
或者使用 DeepSpeed:
pythonfrom transformers import AutoModelForCausalLM import deepspeed model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-llm-7b-chat", torch_dtype="auto") model = deepspeed.init_inference(model, dtype="fp16", mp_size=2)
✅ 本地/服务器部署 DeepSeek 的完整流程
- 安装环境(Python, PyTorch, CUDA, transformers)
- 下载模型(手动下载或直接加载)
- 测试推理(用
pipeline
生成文本) - 部署 API(FastAPI / Flask)
- 优化加速(4-bit 量化、vLLM、多 GPU)
DeepSeek LLM 适用于 对话机器人、代码生成、文本摘要 等 AI 任务,优化得当可大幅提升推理速度。🚀🔥
全部 0条评论