下载 DeepSeek 人工智能模型

获取 DeepSeek 最先进的人工智能模型,用于本地部署和集成到您的应用程序中。

可用模型

从 DeepSeek 为不同用例量身定制的强大人工智能模型中进行选择。

DeepSeek-V3-0324

DeepSeek 旗舰模型的最新版本,具有增强的推理能力和改进的多语言支持。该模型于2025年3月24日发布,代表了 DeepSeek 最先进的人工智能系统,在各种任务中表现出色。

DeepSeek-V3-0324 模型

模型总参数激活参数上下文长度下载
DeepSeek-V3-0324660B37B128KDownload

DeepSeek-V3-0324 使用与之前 DeepSeek-V3 相同的基础模型,仅在后训练方法上有所改进。对于私有部署,您只需更新检查点和 tokenizer_config.json(工具调用相关更改)。该模型约有 660B 参数,开源版本提供 128K 上下文长度(而网页、应用和 API 提供 64K 上下文)。

如何本地运行

DeepSeek 模型可以使用各种硬件和开源社区软件在本地部署。

1. DeepSeek-V3 部署

DeepSeek-V3 可以使用以下硬件和开源社区软件在本地部署:

  1. DeepSeek-Infer 演示:DeepSeek 提供简单轻量级演示,支持 FP8 和 BF16 推理。
  2. SGLang:完全支持 DeepSeek-V3 模型的 BF16 和 FP8 推理模式,多令牌预测即将推出。[1 ]
  3. LMDeploy:为本地和云部署提供高效的 FP8 和 BF16 推理。
  4. TensorRT-LLM:目前支持 BF16 推理和 INT4/8 量化,FP8 支持即将推出。
  5. vLLM:支持使用 FP8 和 BF16 模式进行张量并行和管道并行的 DeepSeek-V3 模型。
  6. AMD GPU:通过 SGLang 在 BF16 和 FP8 模式下在 AMD GPU 上运行 DeepSeek-V3 模型。
  7. 华为 Ascend NPU:支持在华为 Ascend 设备上运行 DeepSeek-V3。

由于 DeepSeek 的框架原生采用 FP8 训练,DeepSeek 只提供 FP8 权重。如果您需要 BF16 权重进行实验,可以使用提供的转换脚本进行转换。

以下是将 FP8 权重转换为 BF16 的示例:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

注意

Hugging Face 的 Transformers 尚未直接支持。

1.1 使用 DeepSeek-Infer 演示进行推理(仅示例)

系统要求

注意

仅支持 Python 3.10 的 Linux。不支持 Mac 和 Windows。

依赖项:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
模型权重和演示代码准备

首先,克隆 DeepSeek-V3 GitHub 仓库:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

导航到 `inference` 文件夹并安装 `requirements.txt` 中列出的依赖项。最简单的方法是使用包管理器如 `conda` 或 `uv` 创建新的虚拟环境并安装依赖项。

cd DeepSeek-V3/inference
pip install -r requirements.txt

从 Hugging Face 下载模型权重,并将它们放入 `/path/to/DeepSeek-V3` 文件夹。

模型权重转换

将 Hugging Face 模型权重转换为特定格式:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
运行

然后您可以与 DeepSeek-V3 聊天:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

或对给定文件进行批量推理:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 使用 SGLang 进行推理(推荐)

SGLang SGLang 目前支持 MLA 优化、DP Attention、FP8 (W8A8)、FP8 KV Cache 和 Torch Compile,在开源框架中提供最先进的延迟和吞吐性能。[1 ][2 ][3 ]

值得注意的是,SGLang v0.4.1 完全支持在 NVIDIA 和 AMD GPU 上运行 DeepSeek-V3,使其成为高度通用和稳健的解决方案。[1 ]

SGLang 还支持多节点张量并行,使您能够在多台网络连接的机器上运行此模型。[1 ]

多令牌预测 (MTP) 正在开发中,进度可在优化计划中跟踪。[1 ]

以下是 SGLang 团队提供的启动说明:[1 ]

1.3 使用 LMDeploy 进行推理(推荐)

LMDeploy LMDeploy 是为大型语言模型量身定制的灵活高性能推理和服务框架,现已支持 DeepSeek-V3。它提供离线管道处理和在线部署功能,与基于 PyTorch 的工作流无缝集成。[1 ]

有关使用 LMDeploy 运行 DeepSeek-V3 的全面分步说明,请参阅此处:[1 ]

1.4 使用 TRT-LLM 进行推理(推荐)

TensorRT-LLM TensorRT-LLM 现已支持 DeepSeek-V3 模型,提供 BF16 和 INT4/INT8 仅权重等精度选项。FP8 支持正在进行中,即将发布。您可以通过以下链接访问专为 DeepSeek-V3 支持的 TRTLLM 自定义分支,直接体验新功能:[1 ][2 ]

1.5 使用 vLLM 进行推理(推荐)

vLLM vLLM v0.6.6 支持在 NVIDIA 和 AMD GPU 上以 FP8 和 BF16 模式进行 DeepSeek-V3 推理。除标准技术外,vLLM 还提供管道并行,允许您在通过网络连接的多台机器上运行此模型。有关详细指导,请参阅 vLLM 说明。请随时关注增强计划。[1 ][2 ][3 ]

1.6 AMD GPU 推荐推理功能

与 AMD 团队合作,DeepSeek 通过 SGLang 实现了 AMD GPU 的首日支持,完全兼容 FP8 和 BF16 精度。有关详细指导,请参阅 SGLang 说明。[1 ]

1.7 华为 Ascend NPU 推荐推理功能

华为 Ascend 社区的 MindIE 框架已成功适配 DeepSeek-V3 的 BF16 版本。有关 Ascend NPU 的分步指导,请参阅此处的说明。[1 ][2 ]

2. DeepSeek-R1 部署

2.1 DeepSeek-R1 模型

有关本地运行 DeepSeek-R1 的更多信息,请参阅上面的 DeepSeek-V3 部署部分。

注意

Hugging Face 的 Transformers 尚未直接支持。

2.2 DeepSeek-R1-Distill 模型

DeepSeek-R1-Distill 模型可以与 Qwen 或 Llama 模型相同的方式使用。

例如,您可以使用 vLLM 轻松启动服务:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

您也可以使用 SGLang 轻松启动服务:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 使用建议

DeepSeek 建议在使用 DeepSeek-R1 系列模型(包括基准测试)时遵循以下配置,以获得预期性能:

  1. 将温度设置在 0.5-0.7 范围内(推荐 0.6)以防止无尽重复或不连贯输出。
  2. 避免添加系统提示;所有指令应包含在用户提示中。
  3. 对于数学问题,建议在提示中包含指令,如:'请逐步推理,并将最终答案放在方框内。'
  4. 评估模型性能时,建议进行多次测试并取平均结果。

此外,我们观察到 DeepSeek-R1 系列模型在回应某些查询时倾向于绕过思考模式(即输出<think></think>),这可能对模型性能产生不利影响。为确保模型进行彻底推理,我们建议强制模型在每个输出的开头以<think></think>开始其响应。

3. DeepSeek-V3-0324 部署

DeepSeek-V3-0324 使用与之前 DeepSeek-V3 相同的基础模型,仅在后训练方法上有所改进。对于私有部署,您只需更新检查点和 tokenizer_config.json(工具调用相关更改)。

DeepSeek-V3-0324 的部署选项和框架与第 1 节中描述的 DeepSeek-V3 相同。所有相同的工具包(SGLang、LMDeploy、TensorRT-LLM、vLLM)都支持 DeepSeek-V3-0324,具有相同的配置选项。

许可证信息

关于 DeepSeek 模型发布所依据的许可证信息

DeepSeek-V3-0324

MIT 许可证

与 DeepSeek-R1 一致,DeepSeek 的开源仓库(包括模型权重)统一采用 MIT 许可证,并允许用户利用模型输出和蒸馏方法训练其他模型。

查看许可证

DeepSeek-V3

MIT 许可证

此代码仓库采用 MIT 许可证。DeepSeek-V3 Base/Chat 模型的使用受模型许可证约束。DeepSeek-V3 系列(包括 Base 和 Chat)支持商业使用。

查看许可证

DeepSeek-R1

MIT 许可证

此代码仓库和模型权重采用 MIT 许可证。DeepSeek-R1 系列支持商业使用,允许进行任何修改和衍生作品,包括但不限于蒸馏用于训练其他 LLM。请注意,DeepSeek-R1-Distill-Qwen 和 DeepSeek-R1-Distill-Llama 等模型源自各自的基础模型,受其原始许可证约束。

查看许可证

免责声明

DeepSeek 模型按'原样'提供,不附带任何明示或暗示的保证。用户应自行承担使用模型的风险,并确保遵守相关法律法规。DeepSeek 对因使用这些模型而导致的任何损害不承担责任。