DeepSeek AIモデルをダウンロードします

Deepseekの最先端のAIモデルにアクセスして、ローカルの展開とアプリケーションへの統合のためのモデル。

利用可能なモデル

さまざまなユースケースに合わせた強力なAIモデルの範囲から選択してください。

DeepSeek-V3-0324

強化された推論機能と多言語サポートの改善を備えたフラッグシップモデルの最新バージョン。 2025年3月24日にリリースされたこのモデルは、幅広いタスクで優れたパフォーマンスを備えた、最も高度なAIシステムを表しています。

DeepSeek-V3-0324モデル

モデル	合計パラメージ	アクティブ化されたパラメーション	コンテキストの長さ	ダウンロード
DeepSeek-V3-0324	660B	37B	128K	Download

DeepSeek-V3-0324は、以前のDeepSeek-V3と同じ基本モデルを使用し、トレーニング後の方法のみが改善されています。プライベート展開の場合、チェックポイントとtokenizer_config.json（ツールコール関連の変更）を更新するだけです。モデルには約660Bのパラメーターがあり、オープンソースバージョンは128Kコンテキストの長さを提供します（Web、App、およびAPIは64Kコンテキストを提供します）。

DeepSeek-V3

私たちの強力な汎用AIモデルは、例外的な推論、理解、および生成能力を備えています。 DeepSeek-V3は複雑な問題解決に優れており、技術ドメインで強力なパフォーマンスを示しています。

ダウンロード GitHub

DeepSeek-V3モデル

モデル	合計パラメージ	アクティブ化されたパラメーション	コンテキストの長さ	ダウンロード
DeepSeek-V3-Base	671B	37B	128K	Download
DeepSeek-V3	671B	37B	128K	Download

注記

ハグする顔のDeepSeek-V3モデルの合計サイズは685Bで、これには671Bのメインモデル重みとマルチトークン予測（MTP）モジュールの重量の14Bが含まれます。

最適なパフォーマンスと柔軟性を確保するために、DeepSeekはオープンソースコミュニティやハードウェアベンダーと提携して、モデルをローカルで実行する複数の方法を提供しています。ステップバイステップのガイダンスについては、以下の「ローカルで実行する方法」セクションをご覧ください。

DeepSeek-R1-0528

DeepSeek R1モデルはマイナーバージョンのアップグレードを受けており、現在のバージョンはDeepSeek-R1-0528です。最新のアップデートでは、DeepSeek R1は、計算リソースの増加を活用し、トレーニング後にアルゴリズム最適化メカニズムを導入することにより、推論と推論機能の深さを大幅に改善しました。このモデルは、数学、プログラミング、一般ロジックなど、さまざまなベンチマーク評価にわたる優れたパフォーマンスを実証しています。現在、その全体的なパフォーマンスは、O3やGemini 2.5 Proなどの主要なモデルのパフォーマンスに近づいています。

ダウンロード GitHub

DeepSeek-R1-0528モデル

モデル	合計パラメージ	アクティブ化されたパラメーション	コンテキストの長さ	ダウンロード
DeepSeek-R1-0528	685B	37B	128K	Download

以前のバージョンと比較して、アップグレードされたモデルは、複雑な推論タスクの処理における大幅な改善を示しています。たとえば、AIME 2025テストでは、モデルの精度は、以前のバージョンの70％から現在のバージョンの87.5％に増加しています。この進歩は、推論プロセス中の思考深さの強化に起因します。AIMEテストセットでは、以前のモデルでは質問ごとに平均12kトークンを使用しましたが、新しいバージョンでは質問ごとに平均23kトークンです。

DeepSeek-R1

高度な推論タスクに特化したDeepSeek-R1は、数学、コーディング、および論理的推論の課題で優れたパフォーマンスを提供します。強化学習技術で構築され、比類のない問題解決能力を提供します。

ダウンロード GitHub

deepseek-r1-zero

DeepSeek-R1モデル

モデル	合計パラメージ	アクティブ化されたパラメーション	コンテキストの長さ	ダウンロード
DeepSeek-R1-Zero	671B	37B	128K	Download
DeepSeek-R1	671B	37B	128K	Download

DeepSeek-R1-Distillモデルは、DeepSeek-R1によって生成されたサンプルを使用して、オープンソースモデルに基づいて微調整されています。構成とトークンザーをわずかに変更します。これらのモデルを実行するには、設定を使用してください。

deepseek-r1-distillモデル

モデル	ベースモデル	ダウンロード
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	Download
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	Download
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	Download
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	Download
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	Download
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	Download

ローカルで実行する方法

DeepSeekモデルは、さまざまなハードウェアおよびオープンソースコミュニティソフトウェアを使用してローカルに展開できます。

1。DeepSeek-V3展開

DeepSeek-V3は、次のハードウェアおよびオープンソースコミュニティソフトウェアを使用してローカルに展開できます。

DeepSeek-Inferデモ：DeepSeekは、FP8およびBF16推論にシンプルで軽量のデモを提供します。
SGLANG：BF16とFP8の推論モードの両方でDeepSeek-V3モデルを完全にサポートし、マルチトークン予測が間もなく登場します。[1 ]
LMDEPLOY：ローカルおよびクラウドの展開に効率的なFP8およびBF16推論を有効にします。
Tensort-llm：現在、BF16推論とINT4/8の量子化をサポートしており、FP8サポートはまもなく登場します。
VLLM：テンソル並列性とパイプライン並列性のために、FP8およびBF16モードでDeepSeek-V3モデルをサポートします。
AMD GPU：BF16モードとFP8モードの両方でSglangを介してAMD GPUでDeepSeek-V3モデルを実行できます。
Huawei Ascend NPU：Huawei AscendデバイスでDeepSeek-V3の実行をサポートしています。

FP8トレーニングは私たちのフレームワークでネイティブに採用されているため、FP8ウェイトのみを提供します。実験にBF16ウェイトが必要な場合は、提供された変換スクリプトを使用して変換を実行できます。

FP8の重みをBF16に変換する例は次のとおりです。

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

注記

Faceの変圧器を抱きしめることは、まだ直接サポートされていません。

1.1 deepseek-inferデモを備えた推論（例のみ）

システム要件

注記

Python 3.10のLinuxのみ。 MacとWindowsはサポートされていません。

依存関係：

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5

モデルの重み

まず、DeepSeek-V3 GitHubリポジトリをクローンします。

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

`inference`フォルダーに移動し、` requastion.txt`にリストされている依存関係をインストールします。最も簡単な方法は、「Conda」や「UV」などのパッケージマネージャーを使用して、新しい仮想環境を作成し、依存関係をインストールすることです。

cd DeepSeek-V3/inference
pip install -r requirements.txt

ハグの顔からモデルの重みをダウンロードし、 `/path/to/deepseek-v3`フォルダーに入れます。

モデルの重み変換

ハグの顔モデルの重みを特定の形式に変換します。

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

走る

その後、deepseek-v3とチャットできます。

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

または特定のファイルのバッチ推論：

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Sglangによる推論（推奨）

SGLang Sglangは現在、MLAの最適化、DP注意、FP8（W8A8）、FP8 KVキャッシュ、トーチコンパイルをサポートしており、オープンソースフレームワークの間で最先端のレイテンシとスループットパフォーマンスを提供しています。[1 ][2 ][3 ]

特に、Sglang V0.4.1は、NVIDIAとAMD GPUの両方でDeepSeek-V3の実行を完全にサポートしているため、非常に用途が広く堅牢なソリューションになります。[1 ]

Sglangはまた、マルチノードテンソルの並列性をサポートしており、複数のネットワーク接続マシンでこのモデルを実行できるようにします。[1 ]

マルチトークン予測（MTP）が開発中であり、最適化計画で進歩を追跡できます。[1 ]

Sglangチームからの起動手順は次のとおりです。[1 ]

1.3 lmdeployによる推論（推奨）

LMDeploy LMDEPLOYは、大規模な言語モデルに合わせた柔軟で高性能の推論とサービングフレームワークであり、DeepSeek-V3をサポートしています。オフラインのパイプライン処理とオンライン展開機能の両方を提供し、Pytorchベースのワークフローとシームレスに統合します。[1 ]

lmdeployを使用してdeepseek-v3を実行することに関する包括的なステップバイステップごとの指示については、こちらを参照してください。[1 ]

1.4 TRT-llmとの推論（推奨）

TensorRT-LLM Tensort-llmは、BF16やINT4/INT8の重量のみなどの精密オプションを提供するDeepSeek-V3モデルをサポートするようになりました。 FP8のサポートは現在進行中であり、まもなくリリースされます。新しい機能を直接体験するために、次のリンクを使用して、DeepSeek-V3サポートのためにTRTLLMのカスタムブランチに特にアクセスできます。[1 ][2 ]

1.5 VLLMとの推論（推奨）

vLLM VLLM V0.6.6は、NVIDIAとAMD GPUの両方でFP8およびBF16モードのDeepSeek-V3推論をサポートしています。標準的な手法とは別に、VLLMはパイプラインの並列性を提供し、ネットワークで接続された複数のマシンでこのモデルを実行できます。詳細なガイダンスについては、VLLMの指示を参照してください。エンハンスメントプランにもお気軽にお問い合わせください。[1 ][2 ][3 ]

1.6 AMD GPUで推奨される推論機能

AMDチームと協力して、DeepSeekはSGLANGを使用してAMD GPUのデイワークサポートを達成し、FP8とBF16の両方の精度に完全な互換性を備えています。詳細なガイダンスについては、Sglangの指示を参照してください。[1 ]

1.7 Huawei Ascend NPUで推奨される推論機能

Huawei Ascend CommunityのMindie Frameworkは、Deepseek-V3のBF16バージョンをうまく適合させました。 Ascend NPUに関する段階的なガイダンスについては、こちらの指示に従ってください。[1 ][2 ]

2。DeepSeek-R1展開

2.1 DeepSeek-R1モデル

DeepSeek-V3 Deepseek-V3の展開セクションにアクセスして、DeepSeek-R1をローカルで実行する詳細をご覧ください。

注記

Faceの変圧器を抱きしめることは、まだ直接サポートされていません。

2.2 deepseek-r1-distillモデル

deepseek-r1-distillモデルは、qwenモデルやllamaモデルと同じ方法で使用できます。

たとえば、VLLMを使用してサービスを簡単に開始できます。[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

Sglangを使用してサービスを簡単に開始することもできます。[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3使用に関する推奨事項

予想されるパフォーマンスを実現するために、ベンチマークを含むDeepSeek-R1シリーズモデルを使用する場合、次の構成を順守することをお勧めします。

無限の繰り返しや一貫性のない出力を防ぐために、0.5-0.7（0.6を推奨）の範囲内で温度を設定します。
システムプロンプトを追加しないでください。すべての指示は、ユーザープロンプト内に含める必要があります。
数学的な問題については、「段階的に推論し、最終的な答えを箱入りに入れてください」など、プロンプトに指示を含めることをお勧めします。
モデルのパフォーマンスを評価するときは、複数のテストを実施し、結果を平均することをお勧めします。

さらに、DeepSeek-R1シリーズモデルは、モデルのパフォーマンスに悪影響を与える可能性のある特定のクエリに応答するときに、思考パターンをバイパスする傾向がある（つまり、 <think> </think>を出力する）傾向があることを観察しました。モデルが徹底的な推論に従事することを確認するために、すべての出力の開始時に <think> </think> で応答を開始するためにモデルを実施することをお勧めします。

3。DeepSeek-V3-0324展開

DeepSeek-V3-0324は、以前のDeepSeek-V3と同じ基本モデルを使用し、トレーニング後の方法のみが改善されています。プライベート展開の場合、チェックポイントとtokenizer_config.json（ツールコール関連の変更）を更新するだけです。

DeepSeek-V3-0324の展開オプションとフレームワークは、セクション1で説明されているDeepSeek-V3の展開オプションと同一です。

ライセンス情報

DeepSeekモデルがリリースされるライセンスに関する情報

DeepSeek-V3-0324

MITライセンス

DeepSeek-R1と一致して、当社のオープンソースリポジトリ（モデル重量を含む）はMITライセンスを均一に採用し、ユーザーがモデルの出力と蒸留方法を活用して他のモデルをトレーニングできるようにします。

ライセンスを表示します

deepseek-v3

MITライセンス

このコードリポジトリは、MITライセンスの下でライセンスされています。 DeepSeek-V3ベース/チャットモデルの使用は、モデルライセンスの対象となります。 DeepSeek-V3シリーズ（ベースおよびチャットを含む）は、商業用途をサポートしています。

ライセンスを表示します

deepseek-r1

MITライセンス

このコードリポジトリとモデルの重みは、MITライセンスの下でライセンスされています。 DeepSeek-R1シリーズは、商業用途をサポートしています。他のLLMを訓練するための蒸留を含むがこれらに限定されない、変更や派生作業を可能にします。 DeepSeek-R1-Distill-QwenやDeepseek-R1-Distill-Lalamaなどのモデルは、元のライセンスを備えたそれぞれのベースモデルから派生していることに注意してください。

ライセンスを表示します

免責事項

DeepSeekモデルは、明示的または黙示的な保証なしで「現状のまま」提供されます。ユーザーは、モデルを自己のリスクで使用し、関連する法律や規制へのコンプライアンスを確保する必要があります。 DeepSeekは、これらのモデルの使用に起因する損害について責任を負いません。