DeepSeek AIモデルをダウンロードします

Deepseekの最先端のAIモデルにアクセスして、ローカルの展開とアプリケーションへの統合のためのモデル。

利用可能なモデル

さまざまなユースケースに合わせた強力なAIモデルの範囲から選択してください。

DeepSeek-V3-0324

強化された推論機能と多言語サポートの改善を備えたフラッグシップモデルの最新バージョン。 2025年3月24日にリリースされたこのモデルは、幅広いタスクで優れたパフォーマンスを備えた、最も高度なAIシステムを表しています。

DeepSeek-V3-0324モデル

モデル合計パラメージアクティブ化されたパラメーションコンテキストの長さダウンロード
DeepSeek-V3-0324660B37B128KDownload

DeepSeek-V3-0324は、以前のDeepSeek-V3と同じ基本モデルを使用し、トレーニング後の方法のみが改善されています。 プライベート展開の場合、チェックポイントとtokenizer_config.json(ツールコール関連の変更)を更新するだけです。 モデルには約660Bのパラメーターがあり、オープンソースバージョンは128Kコンテキストの長さを提供します(Web、App、およびAPIは64Kコンテキストを提供します)。

ローカルで実行する方法

DeepSeekモデルは、さまざまなハードウェアおよびオープンソースコミュニティソフトウェアを使用してローカルに展開できます。

1。DeepSeek-V3展開

DeepSeek-V3は、次のハードウェアおよびオープンソースコミュニティソフトウェアを使用してローカルに展開できます。

  1. DeepSeek-Inferデモ:DeepSeekは、FP8およびBF16推論にシンプルで軽量のデモを提供します。
  2. SGLANG:BF16とFP8の推論モードの両方でDeepSeek-V3モデルを完全にサポートし、マルチトークン予測が間もなく登場します。[1 ]
  3. LMDEPLOY:ローカルおよびクラウドの展開に効率的なFP8およびBF16推論を有効にします。
  4. Tensort-llm:現在、BF16推論とINT4/8の量子化をサポートしており、FP8サポートはまもなく登場します。
  5. VLLM:テンソル並列性とパイプライン並列性のために、FP8およびBF16モードでDeepSeek-V3モデルをサポートします。
  6. AMD GPU:BF16モードとFP8モードの両方でSglangを介してAMD GPUでDeepSeek-V3モデルを実行できます。
  7. Huawei Ascend NPU:Huawei AscendデバイスでDeepSeek-V3の実行をサポートしています。

FP8トレーニングは私たちのフレームワークでネイティブに採用されているため、FP8ウェイトのみを提供します。 実験にBF16ウェイトが必要な場合は、提供された変換スクリプトを使用して変換を実行できます。

FP8の重みをBF16に変換する例は次のとおりです。

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

注記

Faceの変圧器を抱きしめることは、まだ直接サポートされていません。

1.1 deepseek-inferデモを備えた推論(例のみ)

システム要件

注記

Python 3.10のLinuxのみ。 MacとWindowsはサポートされていません。

依存関係:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
モデルの重み

まず、DeepSeek-V3 GitHubリポジトリをクローンします。

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

`inference`フォルダーに移動し、` requastion.txt`にリストされている依存関係をインストールします。 最も簡単な方法は、「Conda」や「UV」などのパッケージマネージャーを使用して、新しい仮想環境を作成し、依存関係をインストールすることです。

cd DeepSeek-V3/inference
pip install -r requirements.txt

ハグの顔からモデルの重みをダウンロードし、 `/path/to/deepseek-v3`フォルダーに入れます。

モデルの重み変換

ハグの顔モデルの重みを特定の形式に変換します。

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
走る

その後、deepseek-v3とチャットできます。

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

または特定のファイルのバッチ推論:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Sglangによる推論(推奨)

SGLang Sglangは現在、MLAの最適化、DP注意、FP8(W8A8)、FP8 KVキャッシュ、トーチコンパイルをサポートしており、オープンソースフレームワークの間で最先端のレイテンシとスループットパフォーマンスを提供しています。[1 ][2 ][3 ]

特に、Sglang V0.4.1は、NVIDIAとAMD GPUの両方でDeepSeek-V3の実行を完全にサポートしているため、非常に用途が広く堅牢なソリューションになります。[1 ]

Sglangはまた、マルチノードテンソルの並列性をサポートしており、複数のネットワーク接続マシンでこのモデルを実行できるようにします。[1 ]

マルチトークン予測(MTP)が開発中であり、最適化計画で進歩を追跡できます。[1 ]

Sglangチームからの起動手順は次のとおりです。[1 ]

1.3 lmdeployによる推論(推奨)

LMDeploy LMDEPLOYは、大規模な言語モデルに合わせた柔軟で高性能の推論とサービングフレームワークであり、DeepSeek-V3をサポートしています。 オフラインのパイプライン処理とオンライン展開機能の両方を提供し、Pytorchベースのワークフローとシームレスに統合します。[1 ]

lmdeployを使用してdeepseek-v3を実行することに関する包括的なステップバイステップごとの指示については、こちらを参照してください。[1 ]

1.4 TRT-llmとの推論(推奨)

TensorRT-LLM Tensort-llmは、BF16やINT4/INT8の重量のみなどの精密オプションを提供するDeepSeek-V3モデルをサポートするようになりました。 FP8のサポートは現在進行中であり、まもなくリリースされます。 新しい機能を直接体験するために、次のリンクを使用して、DeepSeek-V3サポートのためにTRTLLMのカスタムブランチに特にアクセスできます。[1 ][2 ]

1.5 VLLMとの推論(推奨)

vLLM VLLM V0.6.6は、NVIDIAとAMD GPUの両方でFP8およびBF16モードのDeepSeek-V3推論をサポートしています。 標準的な手法とは別に、VLLMはパイプラインの並列性を提供し、ネットワークで接続された複数のマシンでこのモデルを実行できます。 詳細なガイダンスについては、VLLMの指示を参照してください。 エンハンスメントプランにもお気軽にお問い合わせください。[1 ][2 ][3 ]

1.6 AMD GPUで推奨される推論機能

AMDチームと協力して、DeepSeekはSGLANGを使用してAMD GPUのデイワークサポートを達成し、FP8とBF16の両方の精度に完全な互換性を備えています。 詳細なガイダンスについては、Sglangの指示を参照してください。[1 ]

1.7 Huawei Ascend NPUで推奨される推論機能

Huawei Ascend CommunityのMindie Frameworkは、Deepseek-V3のBF16バージョンをうまく適合させました。 Ascend NPUに関する段階的なガイダンスについては、こちらの指示に従ってください。[1 ][2 ]

2。DeepSeek-R1展開

2.1 DeepSeek-R1モデル

DeepSeek-V3 Deepseek-V3の展開セクションにアクセスして、DeepSeek-R1をローカルで実行する詳細をご覧ください。

注記

Faceの変圧器を抱きしめることは、まだ直接サポートされていません。

2.2 deepseek-r1-distillモデル

deepseek-r1-distillモデルは、qwenモデルやllamaモデルと同じ方法で使用できます。

たとえば、VLLMを使用してサービスを簡単に開始できます。[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

Sglangを使用してサービスを簡単に開始することもできます。[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3使用に関する推奨事項

予想されるパフォーマンスを実現するために、ベンチマークを含むDeepSeek-R1シリーズモデルを使用する場合、次の構成を順守することをお勧めします。

  1. 無限の繰り返しや一貫性のない出力を防ぐために、0.5-0.7(0.6を推奨)の範囲内で温度を設定します。
  2. システムプロンプトを追加しないでください。 すべての指示は、ユーザープロンプト内に含める必要があります。
  3. 数学的な問題については、「段階的に推論し、最終的な答えを箱入りに入れてください」など、プロンプトに指示を含めることをお勧めします。
  4. モデルのパフォーマンスを評価するときは、複数のテストを実施し、結果を平均することをお勧めします。

さらに、DeepSeek-R1シリーズモデルは、モデルのパフォーマンスに悪影響を与える可能性のある特定のクエリに応答するときに、思考パターンをバイパスする傾向がある(つまり、 <shink> </sink>を出力する)傾向があることを観察しました。downloadPage.howToRun.sections.r1.subsections.usageRecommendations.thinkingPatternRecommendation

3。DeepSeek-V3-0324展開

DeepSeek-V3-0324は、以前のDeepSeek-V3と同じ基本モデルを使用し、トレーニング後の方法のみが改善されています。 プライベート展開の場合、チェックポイントとtokenizer_config.json(ツールコール関連の変更)を更新するだけです。

DeepSeek-V3-0324の展開オプションとフレームワークは、セクション1で説明されているDeepSeek-V3の展開オプションと同一です。

ライセンス情報

DeepSeekモデルがリリースされるライセンスに関する情報

DeepSeek-V3-0324

MITライセンス

DeepSeek-R1と一致して、当社のオープンソースリポジトリ(モデル重量を含む)はMITライセンスを均一に採用し、ユーザーがモデルの出力と蒸留方法を活用して他のモデルをトレーニングできるようにします。

ライセンスを表示します

deepseek-v3

MITライセンス

このコードリポジトリは、MITライセンスの下でライセンスされています。 DeepSeek-V3ベース/チャットモデルの使用は、モデルライセンスの対象となります。 DeepSeek-V3シリーズ(ベースおよびチャットを含む)は、商業用途をサポートしています。

ライセンスを表示します

deepseek-r1

MITライセンス

このコードリポジトリとモデルの重みは、MITライセンスの下でライセンスされています。 DeepSeek-R1シリーズは、商業用途をサポートしています。他のLLMを訓練するための蒸留を含むがこれらに限定されない、変更や派生作業を可能にします。 DeepSeek-R1-Distill-QwenやDeepseek-R1-Distill-Lalamaなどのモデルは、元のライセンスを備えたそれぞれのベースモデルから派生していることに注意してください。

ライセンスを表示します

免責事項

DeepSeekモデルは、明示的または黙示的な保証なしで「現状のまま」提供されます。 ユーザーは、モデルを自己のリスクで使用し、関連する法律や規制へのコンプライアンスを確保する必要があります。 DeepSeekは、これらのモデルの使用に起因する損害について責任を負いません。