Laden Sie Deepseek AI -Modelle herunter

Greifen Sie auf Deepseeks hochmoderne KI-Modelle für die lokale Bereitstellung und Integration in Ihre Anwendungen zu.

Verfügbare Modelle

Wählen Sie aus unserer Auswahl an leistungsstarken KI -Modellen, die auf verschiedene Anwendungsfälle zugeschnitten sind.

DeepSeek-V3.1

DeepSeek-V3.1 ist ein revolutionäres KI-Modell mit wichtigen Upgrades basierend auf dem ursprünglichen V3. Es hat 671B Gesamtparameter, 37B aktivierte Parameter pro Token, unterstützt 128K Kontextlänge und integriert tiefe Denkfähigkeiten direkt in das Hauptmodell.

Herunterladen GitHub

DeepSeek-V3.1-Modelle

Modell	Gesamtparameter	Aktivierte Parameter	Kontextlänge	Herunterladen
DeepSeek-V3.1-Base	671B	37B	128K	Download

DeepSeek-V3.1 ist ein inkrementelles Upgrade basierend auf dem ursprünglichen V3, gekennzeichnet durch erweiterte Kontextfenster und verbesserte Denkfähigkeiten.

DeepSeek-V3-0324

Die neueste Version unseres Flaggschiffmodells mit verbesserten Argumentationsfunktionen und verbesserter mehrsprachiger Unterstützung. Dieses am 24. März 2025 veröffentlichte Modell repräsentiert unser fortschrittlichstes KI -System mit überlegener Leistung in einer Vielzahl von Aufgaben.

Herunterladen GitHub

Deepseek-V3-0324 Modelle

Modell	Gesamtparameter	Aktivierte Parameter	Kontextlänge	Herunterladen
DeepSeek-V3-0324	660B	37B	128K	Download

Deepseek-V3-0324 verwendet dasselbe Basismodell wie das vorherige Deepseek-V3 mit nur Verbesserungen der Methoden nach der Ausbildung. Für die private Bereitstellung müssen Sie nur die Checkpoint und Tokenizer_Config.json (Tool Calls Related Änderungen) aktualisieren. Das Modell verfügt über ungefähr 660B-Parameter, und die Open-Source-Version bietet eine Kontextlänge von 128K (während Web, App und API einen 64K-Kontext bieten).

DeepSeek-V3

Unser leistungsstarkes KI-Modell mit außergewöhnlichem Denken, Verständnis und Erzeugungsfähigkeiten. Deepseek-V3 zeichnet sich durch komplexe Problemlösungen aus und zeigt eine starke Leistung in technischen Bereichen.

Herunterladen GitHub

Deepseek-V3-Modelle

Modell	Gesamtparameter	Aktivierte Parameter	Kontextlänge	Herunterladen
DeepSeek-V3-Base	671B	37B	128K	Download
DeepSeek-V3	671B	37B	128K	Download

NOTIZ

Die Gesamtgröße von Deekseek-V3-Modellen auf dem Umarmungsgesicht beträgt 685b, einschließlich 671b der Hauptmodellgewichte und 14b der MTP-Modulgewichte (Multi-Token Prediction).

Um eine optimale Leistung und Flexibilität zu gewährleisten, hat Deepseek mit Open-Source-Communities und Hardware-Anbietern zusammengearbeitet, um mehrere Möglichkeiten zur lokalen Ausführung des Modells zu bieten. Für Schritt-für-Schritt-Anleitungen finden Sie unten den Abschnitt "Wie man lokal ausführen".

DeepSeek-R1-0528

Das Deepseek R1-Modell hat ein Upgrade der kleinen Version durchlaufen, wobei die aktuelle Version Deepseek-R1-0528 ist. In der jüngsten Aktualisierung hat Deepseek R1 seine Überlegungs- und Inferenzfunktionen erheblich verbessert, indem sie erhöhte Rechenressourcen nutzt und algorithmische Optimierungsmechanismen während der Nachtraining einführen. Das Modell hat in verschiedenen Benchmark -Bewertungen, einschließlich Mathematik, Programmierung und allgemeiner Logik, eine herausragende Leistung gezeigt. Die Gesamtleistung nähert sich nun der von führenden Modellen wie O3 und Gemini 2.5 Pro.

Herunterladen GitHub

Deepseek-R1-0528 Modelle

Modell	Gesamtparameter	Aktivierte Parameter	Kontextlänge	Herunterladen
DeepSeek-R1-0528	685B	37B	128K	Download

Im Vergleich zur früheren Version zeigt das aktualisierte Modell signifikante Verbesserungen bei der Behandlung komplexer Argumentationsaufgaben. Beispielsweise ist im Aime 2025 -Test die Genauigkeit des Modells von 70% in der vorherigen Version auf 87,5% in der aktuellen Version gestiegen. Dieser Fortschritt ergibt sich aus der verbesserten Denktiefe während des Argumentationsprozesses: Im Aime -Testsatz verwendete das Vorgängermodell durchschnittlich 12.000 Token pro Frage, während die neue Version durchschnittlich 23.000 Token pro Frage beträgt.

DeepSeek-R1

Deepseek-R1 ist spezialisiert für fortgeschrittene Argumentationsaufgaben und bietet herausragende Leistung in den Herausforderungen von Mathematik, Codierung und logischem Argument. Es wurde mit Verstärkungslernen-Techniken erstellt und bietet beispiellose Fähigkeiten zur Problemlösung.

Herunterladen GitHub

Deepseek-R1-Null

Deepseek-R1-Modelle

Modell	Gesamtparameter	Aktivierte Parameter	Kontextlänge	Herunterladen
DeepSeek-R1-Zero	671B	37B	128K	Download
DeepSeek-R1	671B	37B	128K	Download

Deepseek-R1-Distill-Modelle werden auf der Grundlage von Open-Source-Modellen unter Verwendung von Proben, die von Deepseek-R1 erzeugt werden, fein abgestimmt. Wir ändern ihre Konfigurationen und Tokenisierer leicht. Bitte verwenden Sie unsere Einstellung, um diese Modelle auszuführen.

Deepseek-R1-Distill-Modelle

Modell	Basismodell	Herunterladen
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	Download
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	Download
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	Download
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	Download
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	Download
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	Download

Wie man vor Ort rennt

Deepseek-Modelle können lokal mit verschiedenen Hardware- und Open-Source-Community-Software bereitgestellt werden.

1. Deepseek-V3-Bereitstellung

Deepseek-V3 kann lokal mit der folgenden Software für Hardware und Open-Source-Community bereitgestellt werden:

Deepseek-Infer-Demo: Deepseek bietet eine einfache und leichte Demo für FP8- und BF16-Inferenz.
Sglang: Unterstützen Sie das Deepseek-V3-Modell sowohl im BF16- als auch im FP8-Inferenzmodi voll und ganz, wobei die multi-gepflegerte Vorhersage bald vorhanden ist.[1 ]
LMDeploy: Ermöglicht eine effiziente FP8- und BF16 -Inferenz für die lokale und Cloud -Bereitstellung.
Tensorrt-Llm: Derzeit unterstützt BF16-Inferenz und INT4/8-Quantisierung, wobei die Unterstützung von FP8 in Kürze erfolgt.
VLLM: Unterstützen Sie das Deepseek-V3-Modell mit FP8- und BF16-Modi für die Parallelität und Pipeline-Parallelität der Tensor.
AMD GPU: Ermöglicht das Ausführen des Deepseek-V3-Modells auf AMD-GPUs über Sglang sowohl im BF16- als auch im FP8-Modus.
Huawei Ascend NPU: unterstützt Deepseek-V3 auf Huawei Ascend-Geräten.

Da die FP8 -Schulung in unserem Rahmen nativ angenommen wird, bieten wir nur FP8 -Gewichte an. Wenn Sie BF16 -Gewichte für das Experimentieren benötigen, können Sie das bereitgestellte Konvertierungsskript verwenden, um die Transformation durchzuführen.

Hier ist ein Beispiel für die Umwandlung von FP8 -Gewichten in BF16:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

NOTIZ

Das Umarmung von Face's Transformers wurde noch nicht direkt unterstützt.

1.1 Inferenz mit Deepseek-Infer-Demo (nur Beispiel)

Systemanforderungen

NOTIZ

Linux nur mit Python 3.10. Mac und Windows werden nicht unterstützt.

Abhängigkeiten:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5

Modellgewichte

Klonen Sie zunächst das Deepseek-V3 Github-Repository:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

Navigieren Sie zum Ordner "Inferenz" und installieren Sie Abhängigkeiten, die in `Anforderungen.txt` aufgeführt sind. Der einfachste Weg ist es, einen Paketmanager wie "Conda` oder" UV "zu verwenden, um eine neue virtuelle Umgebung zu erstellen und die Abhängigkeiten zu installieren.

cd DeepSeek-V3/inference
pip install -r requirements.txt

Laden Sie die Modellgewichte vom Umarmungsgesicht herunter und setzen Sie sie in den Ordner "/path/to/Deepseek-v3".

Modellgewichtsumwandlung

Konvertieren Sie das umarmende Gesichtsmodellgewichte in ein bestimmtes Format:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

Laufen

Dann können Sie mit Deepseek-V3 chatten:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

Oder Batch -Inferenz in eine bestimmte Datei:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Inferenz mit Sglang (empfohlen)

SGLang Sglang unterstützt derzeit MLA-Optimierungen, DP-Aufmerksamkeit, FP8 (W8A8), FP8-KV-Cache und Fackelkompilierung, die hochmoderne Latenz- und Durchsatzleistung bei Open-Source-Frameworks liefern.[1 ][2 ][3 ]

Insbesondere unterstützt Sglang v0.4.1 volles Laufen Deepseek-V3 sowohl auf Nvidia als auch für AMD-GPUs, was es zu einer sehr vielseitigen und robusten Lösung macht.[1 ]

Sglang unterstützt auch die Parallelität mit Multi-Knoten-Tensor und ermöglicht es Ihnen, dieses Modell auf mehreren netzwerkverbundenen Maschinen auszuführen.[1 ]

Die Multi-Token-Vorhersage (MTP) ist in der Entwicklung und im Optimierungsplan kann der Fortschritt verfolgt werden.[1 ]

Hier sind die Startanweisungen des Sglang -Teams:[1 ]

1.3 Inferenz mit LMDeploy (empfohlen)

LMDeploy LMDeploy, ein flexibler und leistungsstarker Inferenz- und Serviergerüst, der auf große Sprachmodelle zugeschnitten ist, unterstützt jetzt Deepseek-V3. Es bietet sowohl Offline-Pipeline-Verarbeitung als auch Online-Bereitstellungsfunktionen und integriert sich nahtlos in Pytorch-basierte Workflows.[1 ]

Für umfassende Schritt-für-Schritt-Anweisungen zum Ausführen von Deepseek-V3 mit LMDeploy finden Sie hier hier:[1 ]

1.4 Inferenz mit TRT-LlM (empfohlen)

TensorRT-LLM Tensorrt-Llm unterstützt nun das Deepseek-V3-Modell und bietet Präzisionsoptionen wie BF16 und INT4/INT8-Gewicht. Die Unterstützung für FP8 ist derzeit in Arbeit und wird in Kürze veröffentlicht. Sie können auf den benutzerdefinierten Zweig von TRTllM zugreifen, speziell für Deepseek-V3-Unterstützung über den folgenden Link, um die neuen Funktionen direkt zu erleben:[1 ][2 ]

1.5 Inferenz mit VLLM (empfohlen)

vLLM VllM V0.6.6 unterstützt Deepseek-V3-Inferenz für FP8- und BF16-Modi sowohl für Nvidia als auch für AMD-GPUs. Abgesehen von Standardtechniken bietet VLLM eine Pipeline -Parallelität, mit der Sie dieses Modell auf mehreren Maschinen ausführen können, die von Netzwerken verbunden sind. Ausführliche Anleitungen finden Sie in den VLLM -Anweisungen. Bitte befolgen Sie auch den Verbesserungsplan.[1 ][2 ][3 ]

1.6 Empfohlene Inferenzfunktionalität mit AMD -GPUs

In Zusammenarbeit mit dem AMD-Team hat Deepseek mit Sglang die Unterstützung von AMD-GPUs mit der vollen Kompatibilität sowohl für FP8 als auch für BF16-Präzision erreicht. Ausführliche Anleitungen finden Sie in den Sglang -Anweisungen.[1 ]

1.7 Empfohlene Inferenzfunktionalität mit Huawei Ascend NPUs

Das Mindie-Framework der Huawei Ascend-Community hat die BF16-Version von Deepseek-V3 erfolgreich angepasst. Für Schritt-für-Schritt-Anleitungen zu Ascend NPUs befolgen Sie die Anweisungen hier.[1 ][2 ]

2. Deepseek-R1-Bereitstellung

2.1 Modelle Deepseek-R1

Bitte besuchen Sie den Abschnitt Deepseek-V3 Deployment oben, um weitere Informationen zum Ausführen von Deepseek-R1 lokal auszuführen.

NOTIZ

Das Umarmung von Face's Transformers wurde noch nicht direkt unterstützt.

2.2 Modelle von Deepseek-R1-Distill

Deepseek-R1-Distill-Modelle können auf die gleiche Weise wie Qwen- oder Lama-Modelle verwendet werden.

Beispielsweise können Sie einen Dienst mit VLLM problemlos starten:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

Sie können auch einen Dienst mit Sglang starten:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 Nutzungsempfehlungen

Wir empfehlen, die folgenden Konfigurationen bei der Verwendung der Modelle der Deepseek-R1-Serie, einschließlich Benchmarking, einzuhalten, um die erwartete Leistung zu erzielen:

Stellen Sie die Temperatur im Bereich von 0,5 bis 0,7 (0,6 empfohlen) ein, um endlose Wiederholungen oder inkohärente Ausgänge zu verhindern.
Vermeiden Sie es, eine Systemaufforderung hinzuzufügen. Alle Anweisungen sollten in der Benutzeraufforderung enthalten sein.
Bei mathematischen Problemen ist es ratsam, eine Richtlinie in Ihre Eingabeaufforderung aufzunehmen, z. B. „Bitte Grund für Schritt und Schritt, und Ihre endgültige Antwort in den Boxed einfügen.“
Bei der Bewertung der Modellleistung wird empfohlen, mehrere Tests durchzuführen und die Ergebnisse zu durchschnittlich.

Darüber hinaus haben wir beobachtet, dass die Modelle der Deepseek-R1-Serie dazu neigen, das Denkmuster zu umgehen (d. H. Ausgabe von <donden> </thungen>), wenn sie auf bestimmte Abfragen reagieren, was die Leistung des Modells nachteilig beeinflussen kann.Um sicherzustellen, dass das Modell eine gründliche Begründung betrifft, empfehlen wir, das Modell durchzusetzen, um seine Reaktion mit <donden> </thungen> zu Beginn jeder Ausgabe zu initiieren.

3. Deepseek-V3-0324 Bereitstellung

Deepseek-V3-0324 verwendet dasselbe Basismodell wie das vorherige Deepseek-V3 mit nur Verbesserungen der Methoden nach der Ausbildung. Für die private Bereitstellung müssen Sie nur die Checkpoint und Tokenizer_Config.json (Tool Calls Related Änderungen) aktualisieren.

Die Bereitstellungsoptionen und Frameworks für Deepseek-V3-0324 sind identisch mit denen für Deepseek-V3, die in Abschnitt 1 beschrieben wurden.

Lizenzinformationen

Informationen zu den Lizenzen, unter denen Deepseek -Modelle veröffentlicht werden

Deepseek-V3-0324

MIT -Lizenz

In Übereinstimmung mit Deepseek-R1 übernimmt unser Open-Source-Repository (einschließlich Modellgewichte) die MIT-Lizenz einheitlich und ermöglicht es Benutzern, Modellausgaben und Destillationsmethoden zu nutzen, um andere Modelle zu schulen.

Lizenz anzeigen

Deepseek-V3

MIT -Lizenz

Dieses Code -Repository ist unter der MIT -Lizenz lizenziert. Die Verwendung von Deepseek-V3-Basis-/Chat-Modellen unterliegt der Modelllizenz. Die Deepseek-V3-Serie (einschließlich Basis und Chat) unterstützt den kommerziellen Gebrauch.

Lizenz anzeigen

Deepseek-R1

MIT -Lizenz

Dieses Code -Repository und die Modellgewichte sind unter der MIT -Lizenz lizenziert. Deepseek-R1-Serie unterstützt den kommerziellen Gebrauch und ermöglichen Sie alle Änderungen und derivativen Arbeiten, einschließlich, aber nicht beschränkt auf die Destillation für die Schulung anderer LLMs. Bitte beachten Sie, dass Modelle wie Deepseek-R1-Distill-Qwen und Deepseek-R1-Distill-Llama mit ihren ursprünglichen Lizenzen aus ihren jeweiligen Basismodellen abgeleitet werden.

Lizenz anzeigen

Haftungsausschluss

Deekseek -Modelle werden "wie es" ohne ausdrückliche oder implizite Garantien bereitgestellt. Benutzer sollten die Modelle auf eigenes Risiko verwenden und die Einhaltung der relevanten Gesetze und Vorschriften sicherstellen. Deepseek haftet nicht für Schäden, die sich aus der Verwendung dieser Modelle ergeben.