下載DeepSeek AI模型

訪問DeepSeek的最新AI模型,用於本地部署和集成到您的應用程序中。

可用型號

從針對不同用例定制的功能強大的AI模型中進行選擇。

DeepSeek-V3-0324

我們的旗艦模型的最新版本具有增強的推理功能和改進的多語言支持。該模型於2025年3月24日發布,代表了我們最先進的AI系統,其性能在各種任務中具有出色的性能。

DeepSeek-V3-0324型號

模型總參數激活的參數上下文長度下載
DeepSeek-V3-0324660B37B128KDownload

DeepSeek-V3-0324使用與以前的DeepSeek-V3相同的基本模型,僅改進了訓練後方法。對於私人部署,您只需要更新檢查點和tokenizer_config.json(工具調用相關的更改)。該模型約為660B參數,開源版本提供了128K上下文長度(而Web,App和API提供了64K上下文)。

如何在本地運行

DeepSeek模型可以使用各種硬件和開源社區軟件在本地部署。

1。 DeepSeek-V3部署

DeepSeek-V3可以使用以下硬件和開源社區軟件在本地部署:

  1. DeepSeek-Inster Demo:DeepSeek為FP8和BF16推理提供了簡單且輕巧的演示。
  2. SGLANG:在BF16和FP8推理模式下,完全支持DeepSeek-V3模型,並將很快推出多句話的預測。[1 ]
  3. LMDEPLOY:對本地和雲部署啟用有效的FP8和BF16推斷。
  4. Tensorrt-LLM:當前支持BF16推理和INT4/8量化,FP8支持即將推出。
  5. VLLM:以FP8和BF16模式支持DeepSeek-V3模型,用於張量並行性和管道並行性。
  6. AMD GPU:在BF16和FP8模式下,通過SGLANG在AMD GPU上運行DeepSeek-V3模型。
  7. 華為Ascend NPU:支持在華為上升設備上運行DeepSeek-V3。

由於FP8培訓在我們的框架中被本地採用,因此我們僅提供FP8權重。如果您需要BF16權重進行實驗,則可以使用提供的轉換腳本來執行轉換。

這是將FP8權重轉換為BF16的示例:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

筆記

擁抱Face的變壓器尚未得到直接支持。

1.1推理DeepSeek-infer-terver演示(僅示例)

系統要求

筆記

Linux僅具有python 3.10。 Mac和Windows不支持。

依賴性:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
模型重量

首先,克隆DeepSeek-V3 GitHub存儲庫:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

導航到`temper` plestry`文件夾'',並在`ruesigns.txt`列出的依賴項安裝依賴項。最簡單的方法是使用``conda''或`uv'等軟件包管理器創建新的虛擬環境並安裝依賴項。

cd DeepSeek-V3/inference
pip install -r requirements.txt

從擁抱臉上下載模型權重,然後將它們放入`/path/to/deepseek-v3`文件夾中。

模型權重轉換

將擁抱的面部模型重量轉換為特定格式:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
跑步

然後,您可以與DeepSeek-V3聊天:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

或給定文件的批次推斷:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2與sglang推斷(建議)

SGLang SGLANG目前支持MLA優化,DP注意力,FP8(W8A8),FP8 KV緩存和Torch Compile,在開源框架之間提供最先進的延遲和吞吐性能。[1 ][2 ][3 ]

值得注意的是,SGLANG V0.4.1完全支持NVIDIA和AMD GPU上的DeepSeek-V3運行,這使其成為一種通用和強大的解決方案。[1 ]

Sglang還支持多節點張量並行性,使您能夠在多個網絡連接的機器上運行此模型。[1 ]

多型預測(MTP)正在開發中,並且可以在優化計劃中跟踪進度。[1 ]

以下是Sglang團隊的啟動說明:[1 ]

1.3推斷LMDEPLOY(推薦)

LMDeploy LMDeploy是針對大型語言模型量身定制的靈活且高性能的推斷和服務框架,現在支持DeepSeek-V3。它提供離線管道處理和在線部署功能,與基於Pytorch的工作流無縫集成。[1 ]

有關與LMDEPLOY一起運行DeepSeek-V3的全面分步說明,請參閱此處:[1 ]

1.4用TRT-LLM推斷(建議)

TensorRT-LLM Tensorrt-llm現在支持DeepSeek-V3模型,提供精確選項,例如BF16和INT4/INT8權重。目前正在進行對FP8的支持,並將很快發布。您可以通過以下鏈接專門訪問TRTLLM的自定義分支,以直接體驗新功能:[1 ][2 ]

1.5用VLLM推斷(建議)

vLLM VLLM V0.6.6支持NVIDIA和AMD GPU的FP8和BF16模式的DeepSeek-V3推斷。除標準技術外,VLLM提供管道並行性,使您可以在由網絡連接的多個機器上運行此型號。有關詳細的指導,請參閱VLLM說明。請隨時遵循增強計劃。[1 ][2 ][3 ]

1.6建議使用AMD GPU的推理功能

DeepSeek與AMD團隊合作,使用SGLANG為AMD GPU提供了一對一的支持,對FP8和BF16精度都具有完全兼容性。有關詳細的指導,請參閱SGLANG說明。[1 ]

1.7建議使用華為Ascend NPU的推理功能

華為Ascend社區的Mindie框架成功地改編了BF16版本的DeepSeek-V3。有關Ascend NPU的逐步指導,請按照此處的指示進行操作。[1 ][2 ]

2。 DeepSeek-R1部署

2.1 DeepSeek-R1型號

請訪問上面的DeepSeek-V3部署部分,以獲取有關本地運行DeepSeek-R1的更多信息。

筆記

擁抱Face的變壓器尚未得到直接支持。

2.2 DeepSeek-r1-Distill型號

DeepSeek-r1-Distill模型可以與QWEN或LLAMA模型相同的方式使用。

例如,您可以使用VLLM輕鬆啟動服務:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

您也可以使用SGLANG輕鬆啟動服務:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3使用建議

我們建議在使用DeepSeek-R1系列模型(包括基準測試)來實現預期性能時遵守以下配置:

  1. 將溫度設置在0.5-0.7(建議0.6)的範圍內,以防止無盡的重複或不連貫的輸出。
  2. 避免添加系統提示;所有說明都應包含在用戶提示符中。
  3. 對於數學問題,建議在您的提示中包括一個指令,例如:“請逐步推理,然後將最終答案放在盒裝中。”
  4. 評估模型性能時,建議進行多個測試並平均結果。

此外,我們已經觀察到,在響應某些查詢時,DeepSeek-R1系列模型傾向於繞過思維模式(即輸出<think> </think>),這可能會對模型的性能產生不利影響。downloadPage.howToRun.sections.r1.subsections.usageRecommendations.thinkingPatternRecommendation

3。 DeepSeek-V3-0324部署

DeepSeek-V3-0324使用與以前的DeepSeek-V3相同的基本模型,僅改進了訓練後方法。對於私人部署,您只需要更新檢查點和tokenizer_config.json(工具調用相關的更改)。

DeepSeek-V3-0324的部署選項和框架與第1節中描述的DeepSeek-V3相同。所有相同的工具包(SGLANG,LMDEPLOY,TENSORRT-LLM,VLLM,VLLM,VLLM)支持DeepSeek-V3-0324具有相同的配置選項。

許可證信息

有關釋放DeepSeek模型的許可證的信息

DeepSeek-V3-0324

麻省理工學院許可證

與DeepSeek-R1一致,我們的開源存儲庫(包括模型權重)均勻地採用了MIT許可證,並允許用戶利用模型輸出和蒸餾方法來培訓其他型號。

查看許可證

DeepSeek-V3

麻省理工學院許可證

此代碼存儲庫是根據MIT許可證獲得許可的。 DeepSeek-V3基礎/聊天模型的使用符合模型許可。 DeepSeek-V3系列(包括基礎和聊天)支持商業用途。

查看許可證

DeepSeek-R1

麻省理工學院許可證

此代碼存儲庫和模型權重已根據MIT許可證獲得許可。 DeepSeek-R1系列支持商業用途,允許進行任何修改和衍生作品,包括但不限於培訓其他LLM的蒸餾。請注意,諸如DeepSeek-R1-Distill-Qwen和DeepSeek-R1-Distill-lalama之類的模型源自其各自的基本模型,並具有其原始許可證。

查看許可證

免責聲明

DeepSeek模型提供“原樣”,而無需任何明示或暗示的保證。用戶應自行使用模型,並確保遵守相關的法律法規。 DeepSeek對使用這些模型造成的任何損害不承擔任何責任。