Deepseekの最先端のAIモデルにアクセスして、ローカルの展開とアプリケーションへの統合のためのモデル。
さまざまなユースケースに合わせた強力なAIモデルの範囲から選択してください。
強化された推論機能と多言語サポートの改善を備えたフラッグシップモデルの最新バージョン。 2025年3月24日にリリースされたこのモデルは、幅広いタスクで優れたパフォーマンスを備えた、最も高度なAIシステムを表しています。
モデル | 合計パラメージ | アクティブ化されたパラメーション | コンテキストの長さ | ダウンロード |
---|---|---|---|---|
DeepSeek-V3-0324 | 660B | 37B | 128K | Download |
DeepSeek-V3-0324は、以前のDeepSeek-V3と同じ基本モデルを使用し、トレーニング後の方法のみが改善されています。 プライベート展開の場合、チェックポイントとtokenizer_config.json(ツールコール関連の変更)を更新するだけです。 モデルには約660Bのパラメーターがあり、オープンソースバージョンは128Kコンテキストの長さを提供します(Web、App、およびAPIは64Kコンテキストを提供します)。
私たちの強力な汎用AIモデルは、例外的な推論、理解、および生成能力を備えています。 DeepSeek-V3は複雑な問題解決に優れており、技術ドメインで強力なパフォーマンスを示しています。
注記
ハグする顔のDeepSeek-V3モデルの合計サイズは685Bで、これには671Bのメインモデル重みとマルチトークン予測(MTP)モジュールの重量の14Bが含まれます。
最適なパフォーマンスと柔軟性を確保するために、DeepSeekはオープンソースコミュニティやハードウェアベンダーと提携して、モデルをローカルで実行する複数の方法を提供しています。 ステップバイステップのガイダンスについては、以下の「ローカルで実行する方法」セクションをご覧ください。
高度な推論タスクに特化したDeepSeek-R1は、数学、コーディング、および論理的推論の課題で優れたパフォーマンスを提供します。 強化学習技術で構築され、比類のない問題解決能力を提供します。
deepseek-r1-zero
DeepSeek-R1-Distillモデルは、DeepSeek-R1によって生成されたサンプルを使用して、オープンソースモデルに基づいて微調整されています。 構成とトークンザーをわずかに変更します。 これらのモデルを実行するには、設定を使用してください。
モデル | ベースモデル | ダウンロード |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | Download |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | Download |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | Download |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | Download |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | Download |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | Download |
DeepSeekモデルは、さまざまなハードウェアおよびオープンソースコミュニティソフトウェアを使用してローカルに展開できます。
DeepSeek-V3は、次のハードウェアおよびオープンソースコミュニティソフトウェアを使用してローカルに展開できます。
FP8トレーニングは私たちのフレームワークでネイティブに採用されているため、FP8ウェイトのみを提供します。 実験にBF16ウェイトが必要な場合は、提供された変換スクリプトを使用して変換を実行できます。
FP8の重みをBF16に変換する例は次のとおりです。
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
注記
Faceの変圧器を抱きしめることは、まだ直接サポートされていません。
注記
Python 3.10のLinuxのみ。 MacとWindowsはサポートされていません。
依存関係:
torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
まず、DeepSeek-V3 GitHubリポジトリをクローンします。
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
`inference`フォルダーに移動し、` requastion.txt`にリストされている依存関係をインストールします。 最も簡単な方法は、「Conda」や「UV」などのパッケージマネージャーを使用して、新しい仮想環境を作成し、依存関係をインストールすることです。
cd DeepSeek-V3/inference
pip install -r requirements.txt
ハグの顔からモデルの重みをダウンロードし、 `/path/to/deepseek-v3`フォルダーに入れます。
ハグの顔モデルの重みを特定の形式に変換します。
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
その後、deepseek-v3とチャットできます。
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200
または特定のファイルのバッチ推論:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE
SGLang Sglangは現在、MLAの最適化、DP注意、FP8(W8A8)、FP8 KVキャッシュ、トーチコンパイルをサポートしており、オープンソースフレームワークの間で最先端のレイテンシとスループットパフォーマンスを提供しています。[1 ][2 ][3 ]
特に、Sglang V0.4.1は、NVIDIAとAMD GPUの両方でDeepSeek-V3の実行を完全にサポートしているため、非常に用途が広く堅牢なソリューションになります。[1 ]
Sglangはまた、マルチノードテンソルの並列性をサポートしており、複数のネットワーク接続マシンでこのモデルを実行できるようにします。[1 ]
マルチトークン予測(MTP)が開発中であり、最適化計画で進歩を追跡できます。[1 ]
Sglangチームからの起動手順は次のとおりです。[1 ]
LMDeploy LMDEPLOYは、大規模な言語モデルに合わせた柔軟で高性能の推論とサービングフレームワークであり、DeepSeek-V3をサポートしています。 オフラインのパイプライン処理とオンライン展開機能の両方を提供し、Pytorchベースのワークフローとシームレスに統合します。[1 ]
lmdeployを使用してdeepseek-v3を実行することに関する包括的なステップバイステップごとの指示については、こちらを参照してください。[1 ]
TensorRT-LLM Tensort-llmは、BF16やINT4/INT8の重量のみなどの精密オプションを提供するDeepSeek-V3モデルをサポートするようになりました。 FP8のサポートは現在進行中であり、まもなくリリースされます。 新しい機能を直接体験するために、次のリンクを使用して、DeepSeek-V3サポートのためにTRTLLMのカスタムブランチに特にアクセスできます。[1 ][2 ]
vLLM VLLM V0.6.6は、NVIDIAとAMD GPUの両方でFP8およびBF16モードのDeepSeek-V3推論をサポートしています。 標準的な手法とは別に、VLLMはパイプラインの並列性を提供し、ネットワークで接続された複数のマシンでこのモデルを実行できます。 詳細なガイダンスについては、VLLMの指示を参照してください。 エンハンスメントプランにもお気軽にお問い合わせください。[1 ][2 ][3 ]
AMDチームと協力して、DeepSeekはSGLANGを使用してAMD GPUのデイワークサポートを達成し、FP8とBF16の両方の精度に完全な互換性を備えています。 詳細なガイダンスについては、Sglangの指示を参照してください。[1 ]
Huawei Ascend CommunityのMindie Frameworkは、Deepseek-V3のBF16バージョンをうまく適合させました。 Ascend NPUに関する段階的なガイダンスについては、こちらの指示に従ってください。[1 ][2 ]
DeepSeek-V3 Deepseek-V3の展開セクションにアクセスして、DeepSeek-R1をローカルで実行する詳細をご覧ください。
注記
Faceの変圧器を抱きしめることは、まだ直接サポートされていません。
deepseek-r1-distillモデルは、qwenモデルやllamaモデルと同じ方法で使用できます。
たとえば、VLLMを使用してサービスを簡単に開始できます。[1 ]
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
Sglangを使用してサービスを簡単に開始することもできます。[1 ]
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
予想されるパフォーマンスを実現するために、ベンチマークを含むDeepSeek-R1シリーズモデルを使用する場合、次の構成を順守することをお勧めします。
さらに、DeepSeek-R1シリーズモデルは、モデルのパフォーマンスに悪影響を与える可能性のある特定のクエリに応答するときに、思考パターンをバイパスする傾向がある(つまり、 <shink> </sink>を出力する)傾向があることを観察しました。downloadPage.howToRun.sections.r1.subsections.usageRecommendations.thinkingPatternRecommendation
DeepSeek-V3-0324は、以前のDeepSeek-V3と同じ基本モデルを使用し、トレーニング後の方法のみが改善されています。 プライベート展開の場合、チェックポイントとtokenizer_config.json(ツールコール関連の変更)を更新するだけです。
DeepSeek-V3-0324の展開オプションとフレームワークは、セクション1で説明されているDeepSeek-V3の展開オプションと同一です。
DeepSeekモデルがリリースされるライセンスに関する情報
DeepSeek-R1と一致して、当社のオープンソースリポジトリ(モデル重量を含む)はMITライセンスを均一に採用し、ユーザーがモデルの出力と蒸留方法を活用して他のモデルをトレーニングできるようにします。
ライセンスを表示しますこのコードリポジトリは、MITライセンスの下でライセンスされています。 DeepSeek-V3ベース/チャットモデルの使用は、モデルライセンスの対象となります。 DeepSeek-V3シリーズ(ベースおよびチャットを含む)は、商業用途をサポートしています。
ライセンスを表示しますこのコードリポジトリとモデルの重みは、MITライセンスの下でライセンスされています。 DeepSeek-R1シリーズは、商業用途をサポートしています。他のLLMを訓練するための蒸留を含むがこれらに限定されない、変更や派生作業を可能にします。 DeepSeek-R1-Distill-QwenやDeepseek-R1-Distill-Lalamaなどのモデルは、元のライセンスを備えたそれぞれのベースモデルから派生していることに注意してください。
ライセンスを表示しますDeepSeekモデルは、明示的または黙示的な保証なしで「現状のまま」提供されます。 ユーザーは、モデルを自己のリスクで使用し、関連する法律や規制へのコンプライアンスを確保する必要があります。 DeepSeekは、これらのモデルの使用に起因する損害について責任を負いません。