获取 DeepSeek 最先进的人工智能模型,用于本地部署和集成到您的应用程序中。
从 DeepSeek 为不同用例量身定制的强大人工智能模型中进行选择。
DeepSeek 旗舰模型的最新版本,具有增强的推理能力和改进的多语言支持。该模型于2025年3月24日发布,代表了 DeepSeek 最先进的人工智能系统,在各种任务中表现出色。
模型 | 总参数 | 激活参数 | 上下文长度 | 下载 |
---|---|---|---|---|
DeepSeek-V3-0324 | 660B | 37B | 128K | Download |
DeepSeek-V3-0324 使用与之前 DeepSeek-V3 相同的基础模型,仅在后训练方法上有所改进。对于私有部署,您只需更新检查点和 tokenizer_config.json(工具调用相关更改)。该模型约有 660B 参数,开源版本提供 128K 上下文长度(而网页、应用和 API 提供 64K 上下文)。
DeepSeek-R1-Zero 和 DeepSeek-R1 基于 DeepSeek-V3-Base 训练。有关模型架构的更多详情,请参阅 DeepSeek-V3 仓库。
DeepSeek-R1-Distill 模型基于开源模型微调,使用 DeepSeek-R1 生成的样本。DeepSeek 稍微更改了它们的配置和分词器。请使用 DeepSeek 的设置运行这些模型。
模型 | 基础模型 | 下载 |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | Download |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | Download |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | Download |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | Download |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | Download |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | Download |
DeepSeek 模型可以使用各种硬件和开源社区软件在本地部署。
DeepSeek-V3 可以使用以下硬件和开源社区软件在本地部署:
由于 DeepSeek 的框架原生采用 FP8 训练,DeepSeek 只提供 FP8 权重。如果您需要 BF16 权重进行实验,可以使用提供的转换脚本进行转换。
以下是将 FP8 权重转换为 BF16 的示例:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
注意
Hugging Face 的 Transformers 尚未直接支持。
注意
仅支持 Python 3.10 的 Linux。不支持 Mac 和 Windows。
依赖项:
torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
首先,克隆 DeepSeek-V3 GitHub 仓库:
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
导航到 `inference` 文件夹并安装 `requirements.txt` 中列出的依赖项。最简单的方法是使用包管理器如 `conda` 或 `uv` 创建新的虚拟环境并安装依赖项。
cd DeepSeek-V3/inference
pip install -r requirements.txt
从 Hugging Face 下载模型权重,并将它们放入 `/path/to/DeepSeek-V3` 文件夹。
将 Hugging Face 模型权重转换为特定格式:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
然后您可以与 DeepSeek-V3 聊天:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200
或对给定文件进行批量推理:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE
SGLang SGLang 目前支持 MLA 优化、DP Attention、FP8 (W8A8)、FP8 KV Cache 和 Torch Compile,在开源框架中提供最先进的延迟和吞吐性能。[1 ][2 ][3 ]
值得注意的是,SGLang v0.4.1 完全支持在 NVIDIA 和 AMD GPU 上运行 DeepSeek-V3,使其成为高度通用和稳健的解决方案。[1 ]
SGLang 还支持多节点张量并行,使您能够在多台网络连接的机器上运行此模型。[1 ]
多令牌预测 (MTP) 正在开发中,进度可在优化计划中跟踪。[1 ]
以下是 SGLang 团队提供的启动说明:[1 ]
LMDeploy LMDeploy 是为大型语言模型量身定制的灵活高性能推理和服务框架,现已支持 DeepSeek-V3。它提供离线管道处理和在线部署功能,与基于 PyTorch 的工作流无缝集成。[1 ]
有关使用 LMDeploy 运行 DeepSeek-V3 的全面分步说明,请参阅此处:[1 ]
TensorRT-LLM TensorRT-LLM 现已支持 DeepSeek-V3 模型,提供 BF16 和 INT4/INT8 仅权重等精度选项。FP8 支持正在进行中,即将发布。您可以通过以下链接访问专为 DeepSeek-V3 支持的 TRTLLM 自定义分支,直接体验新功能:[1 ][2 ]
vLLM vLLM v0.6.6 支持在 NVIDIA 和 AMD GPU 上以 FP8 和 BF16 模式进行 DeepSeek-V3 推理。除标准技术外,vLLM 还提供管道并行,允许您在通过网络连接的多台机器上运行此模型。有关详细指导,请参阅 vLLM 说明。请随时关注增强计划。[1 ][2 ][3 ]
与 AMD 团队合作,DeepSeek 通过 SGLang 实现了 AMD GPU 的首日支持,完全兼容 FP8 和 BF16 精度。有关详细指导,请参阅 SGLang 说明。[1 ]
华为 Ascend 社区的 MindIE 框架已成功适配 DeepSeek-V3 的 BF16 版本。有关 Ascend NPU 的分步指导,请参阅此处的说明。[1 ][2 ]
有关本地运行 DeepSeek-R1 的更多信息,请参阅上面的 DeepSeek-V3 部署部分。
注意
Hugging Face 的 Transformers 尚未直接支持。
DeepSeek-R1-Distill 模型可以与 Qwen 或 Llama 模型相同的方式使用。
例如,您可以使用 vLLM 轻松启动服务:[1 ]
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
您也可以使用 SGLang 轻松启动服务:[1 ]
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
DeepSeek 建议在使用 DeepSeek-R1 系列模型(包括基准测试)时遵循以下配置,以获得预期性能:
此外,我们观察到 DeepSeek-R1 系列模型在回应某些查询时倾向于绕过思考模式(即输出<think></think>),这可能对模型性能产生不利影响。为确保模型进行彻底推理,我们建议强制模型在每个输出的开头以<think></think>开始其响应。
DeepSeek-V3-0324 使用与之前 DeepSeek-V3 相同的基础模型,仅在后训练方法上有所改进。对于私有部署,您只需更新检查点和 tokenizer_config.json(工具调用相关更改)。
DeepSeek-V3-0324 的部署选项和框架与第 1 节中描述的 DeepSeek-V3 相同。所有相同的工具包(SGLang、LMDeploy、TensorRT-LLM、vLLM)都支持 DeepSeek-V3-0324,具有相同的配置选项。
关于 DeepSeek 模型发布所依据的许可证信息
与 DeepSeek-R1 一致,DeepSeek 的开源仓库(包括模型权重)统一采用 MIT 许可证,并允许用户利用模型输出和蒸馏方法训练其他模型。
查看许可证此代码仓库采用 MIT 许可证。DeepSeek-V3 Base/Chat 模型的使用受模型许可证约束。DeepSeek-V3 系列(包括 Base 和 Chat)支持商业使用。
查看许可证此代码仓库和模型权重采用 MIT 许可证。DeepSeek-R1 系列支持商业使用,允许进行任何修改和衍生作品,包括但不限于蒸馏用于训练其他 LLM。请注意,DeepSeek-R1-Distill-Qwen 和 DeepSeek-R1-Distill-Llama 等模型源自各自的基础模型,受其原始许可证约束。
查看许可证DeepSeek 模型按'原样'提供,不附带任何明示或暗示的保证。用户应自行承担使用模型的风险,并确保遵守相关法律法规。DeepSeek 对因使用这些模型而导致的任何损害不承担责任。