Greifen Sie auf Deepseeks hochmoderne KI-Modelle für die lokale Bereitstellung und Integration in Ihre Anwendungen zu.
Wählen Sie aus unserer Auswahl an leistungsstarken KI -Modellen, die auf verschiedene Anwendungsfälle zugeschnitten sind.
Die neueste Version unseres Flaggschiffmodells mit verbesserten Argumentationsfunktionen und verbesserter mehrsprachiger Unterstützung. Dieses am 24. März 2025 veröffentlichte Modell repräsentiert unser fortschrittlichstes KI -System mit überlegener Leistung in einer Vielzahl von Aufgaben.
Modell | Gesamtparameter | Aktivierte Parameter | Kontextlänge | Herunterladen |
---|---|---|---|---|
DeepSeek-V3-0324 | 660B | 37B | 128K | Download |
Deepseek-V3-0324 verwendet dasselbe Basismodell wie das vorherige Deepseek-V3 mit nur Verbesserungen der Methoden nach der Ausbildung. Für die private Bereitstellung müssen Sie nur die Checkpoint und Tokenizer_Config.json (Tool Calls Related Änderungen) aktualisieren. Das Modell verfügt über ungefähr 660B-Parameter, und die Open-Source-Version bietet eine Kontextlänge von 128K (während Web, App und API einen 64K-Kontext bieten).
Unser leistungsstarkes KI-Modell mit außergewöhnlichem Denken, Verständnis und Erzeugungsfähigkeiten. Deepseek-V3 zeichnet sich durch komplexe Problemlösungen aus und zeigt eine starke Leistung in technischen Bereichen.
NOTIZ
Die Gesamtgröße von Deekseek-V3-Modellen auf dem Umarmungsgesicht beträgt 685b, einschließlich 671b der Hauptmodellgewichte und 14b der MTP-Modulgewichte (Multi-Token Prediction).
Um eine optimale Leistung und Flexibilität zu gewährleisten, hat Deepseek mit Open-Source-Communities und Hardware-Anbietern zusammengearbeitet, um mehrere Möglichkeiten zur lokalen Ausführung des Modells zu bieten. Für Schritt-für-Schritt-Anleitungen finden Sie unten den Abschnitt "Wie man lokal ausführen".
Deepseek-R1 ist spezialisiert für fortgeschrittene Argumentationsaufgaben und bietet herausragende Leistung in den Herausforderungen von Mathematik, Codierung und logischem Argument. Es wurde mit Verstärkungslernen-Techniken erstellt und bietet beispiellose Fähigkeiten zur Problemlösung.
Deepseek-R1-Null
Deepseek-R1-Distill-Modelle werden auf der Grundlage von Open-Source-Modellen unter Verwendung von Proben, die von Deepseek-R1 erzeugt werden, fein abgestimmt. Wir ändern ihre Konfigurationen und Tokenisierer leicht. Bitte verwenden Sie unsere Einstellung, um diese Modelle auszuführen.
Modell | Basismodell | Herunterladen |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | Download |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | Download |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | Download |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | Download |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | Download |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | Download |
Deepseek-Modelle können lokal mit verschiedenen Hardware- und Open-Source-Community-Software bereitgestellt werden.
Deepseek-V3 kann lokal mit der folgenden Software für Hardware und Open-Source-Community bereitgestellt werden:
Da die FP8 -Schulung in unserem Rahmen nativ angenommen wird, bieten wir nur FP8 -Gewichte an. Wenn Sie BF16 -Gewichte für das Experimentieren benötigen, können Sie das bereitgestellte Konvertierungsskript verwenden, um die Transformation durchzuführen.
Hier ist ein Beispiel für die Umwandlung von FP8 -Gewichten in BF16:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
NOTIZ
Das Umarmung von Face's Transformers wurde noch nicht direkt unterstützt.
NOTIZ
Linux nur mit Python 3.10. Mac und Windows werden nicht unterstützt.
Abhängigkeiten:
torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
Klonen Sie zunächst das Deepseek-V3 Github-Repository:
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
Navigieren Sie zum Ordner "Inferenz" und installieren Sie Abhängigkeiten, die in `Anforderungen.txt` aufgeführt sind. Der einfachste Weg ist es, einen Paketmanager wie "Conda` oder" UV "zu verwenden, um eine neue virtuelle Umgebung zu erstellen und die Abhängigkeiten zu installieren.
cd DeepSeek-V3/inference
pip install -r requirements.txt
Laden Sie die Modellgewichte vom Umarmungsgesicht herunter und setzen Sie sie in den Ordner "/path/to/Deepseek-v3".
Konvertieren Sie das umarmende Gesichtsmodellgewichte in ein bestimmtes Format:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
Dann können Sie mit Deepseek-V3 chatten:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200
Oder Batch -Inferenz in eine bestimmte Datei:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE
SGLang Sglang unterstützt derzeit MLA-Optimierungen, DP-Aufmerksamkeit, FP8 (W8A8), FP8-KV-Cache und Fackelkompilierung, die hochmoderne Latenz- und Durchsatzleistung bei Open-Source-Frameworks liefern.[1 ][2 ][3 ]
Insbesondere unterstützt Sglang v0.4.1 volles Laufen Deepseek-V3 sowohl auf Nvidia als auch für AMD-GPUs, was es zu einer sehr vielseitigen und robusten Lösung macht.[1 ]
Sglang unterstützt auch die Parallelität mit Multi-Knoten-Tensor und ermöglicht es Ihnen, dieses Modell auf mehreren netzwerkverbundenen Maschinen auszuführen.[1 ]
Die Multi-Token-Vorhersage (MTP) ist in der Entwicklung und im Optimierungsplan kann der Fortschritt verfolgt werden.[1 ]
Hier sind die Startanweisungen des Sglang -Teams:[1 ]
LMDeploy LMDeploy, ein flexibler und leistungsstarker Inferenz- und Serviergerüst, der auf große Sprachmodelle zugeschnitten ist, unterstützt jetzt Deepseek-V3. Es bietet sowohl Offline-Pipeline-Verarbeitung als auch Online-Bereitstellungsfunktionen und integriert sich nahtlos in Pytorch-basierte Workflows.[1 ]
Für umfassende Schritt-für-Schritt-Anweisungen zum Ausführen von Deepseek-V3 mit LMDeploy finden Sie hier hier:[1 ]
TensorRT-LLM Tensorrt-Llm unterstützt nun das Deepseek-V3-Modell und bietet Präzisionsoptionen wie BF16 und INT4/INT8-Gewicht. Die Unterstützung für FP8 ist derzeit in Arbeit und wird in Kürze veröffentlicht. Sie können auf den benutzerdefinierten Zweig von TRTllM zugreifen, speziell für Deepseek-V3-Unterstützung über den folgenden Link, um die neuen Funktionen direkt zu erleben:[1 ][2 ]
vLLM VllM V0.6.6 unterstützt Deepseek-V3-Inferenz für FP8- und BF16-Modi sowohl für Nvidia als auch für AMD-GPUs. Abgesehen von Standardtechniken bietet VLLM eine Pipeline -Parallelität, mit der Sie dieses Modell auf mehreren Maschinen ausführen können, die von Netzwerken verbunden sind. Ausführliche Anleitungen finden Sie in den VLLM -Anweisungen. Bitte befolgen Sie auch den Verbesserungsplan.[1 ][2 ][3 ]
In Zusammenarbeit mit dem AMD-Team hat Deepseek mit Sglang die Unterstützung von AMD-GPUs mit der vollen Kompatibilität sowohl für FP8 als auch für BF16-Präzision erreicht. Ausführliche Anleitungen finden Sie in den Sglang -Anweisungen.[1 ]
Das Mindie-Framework der Huawei Ascend-Community hat die BF16-Version von Deepseek-V3 erfolgreich angepasst. Für Schritt-für-Schritt-Anleitungen zu Ascend NPUs befolgen Sie die Anweisungen hier.[1 ][2 ]
Bitte besuchen Sie den Abschnitt Deepseek-V3 Deployment oben, um weitere Informationen zum Ausführen von Deepseek-R1 lokal auszuführen.
NOTIZ
Das Umarmung von Face's Transformers wurde noch nicht direkt unterstützt.
Deepseek-R1-Distill-Modelle können auf die gleiche Weise wie Qwen- oder Lama-Modelle verwendet werden.
Beispielsweise können Sie einen Dienst mit VLLM problemlos starten:[1 ]
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
Sie können auch einen Dienst mit Sglang starten:[1 ]
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
Wir empfehlen, die folgenden Konfigurationen bei der Verwendung der Modelle der Deepseek-R1-Serie, einschließlich Benchmarking, einzuhalten, um die erwartete Leistung zu erzielen:
Darüber hinaus haben wir beobachtet, dass die Modelle der Deepseek-R1-Serie dazu neigen, das Denkmuster zu umgehen (d. H. Ausgabe von <donden> </thungen>), wenn sie auf bestimmte Abfragen reagieren, was die Leistung des Modells nachteilig beeinflussen kann.Um sicherzustellen, dass das Modell eine gründliche Begründung betrifft, empfehlen wir, das Modell durchzusetzen, um seine Reaktion mit <donden> </thungen> zu Beginn jeder Ausgabe zu initiieren.
Deepseek-V3-0324 verwendet dasselbe Basismodell wie das vorherige Deepseek-V3 mit nur Verbesserungen der Methoden nach der Ausbildung. Für die private Bereitstellung müssen Sie nur die Checkpoint und Tokenizer_Config.json (Tool Calls Related Änderungen) aktualisieren.
Die Bereitstellungsoptionen und Frameworks für Deepseek-V3-0324 sind identisch mit denen für Deepseek-V3, die in Abschnitt 1 beschrieben wurden.
Informationen zu den Lizenzen, unter denen Deepseek -Modelle veröffentlicht werden
In Übereinstimmung mit Deepseek-R1 übernimmt unser Open-Source-Repository (einschließlich Modellgewichte) die MIT-Lizenz einheitlich und ermöglicht es Benutzern, Modellausgaben und Destillationsmethoden zu nutzen, um andere Modelle zu schulen.
Lizenz anzeigenDieses Code -Repository ist unter der MIT -Lizenz lizenziert. Die Verwendung von Deepseek-V3-Basis-/Chat-Modellen unterliegt der Modelllizenz. Die Deepseek-V3-Serie (einschließlich Basis und Chat) unterstützt den kommerziellen Gebrauch.
Lizenz anzeigenDieses Code -Repository und die Modellgewichte sind unter der MIT -Lizenz lizenziert. Deepseek-R1-Serie unterstützt den kommerziellen Gebrauch und ermöglichen Sie alle Änderungen und derivativen Arbeiten, einschließlich, aber nicht beschränkt auf die Destillation für die Schulung anderer LLMs. Bitte beachten Sie, dass Modelle wie Deepseek-R1-Distill-Qwen und Deepseek-R1-Distill-Llama mit ihren ursprünglichen Lizenzen aus ihren jeweiligen Basismodellen abgeleitet werden.
Lizenz anzeigenDeekseek -Modelle werden "wie es" ohne ausdrückliche oder implizite Garantien bereitgestellt. Benutzer sollten die Modelle auf eigenes Risiko verwenden und die Einhaltung der relevanten Gesetze und Vorschriften sicherstellen. Deepseek haftet nicht für Schäden, die sich aus der Verwendung dieser Modelle ergeben.