Laden Sie Deepseek AI -Modelle herunter

Greifen Sie auf Deepseeks hochmoderne KI-Modelle für die lokale Bereitstellung und Integration in Ihre Anwendungen zu.

Verfügbare Modelle

Wählen Sie aus unserer Auswahl an leistungsstarken KI -Modellen, die auf verschiedene Anwendungsfälle zugeschnitten sind.

DeepSeek-V3-0324

Die neueste Version unseres Flaggschiffmodells mit verbesserten Argumentationsfunktionen und verbesserter mehrsprachiger Unterstützung. Dieses am 24. März 2025 veröffentlichte Modell repräsentiert unser fortschrittlichstes KI -System mit überlegener Leistung in einer Vielzahl von Aufgaben.

Deepseek-V3-0324 Modelle

ModellGesamtparameterAktivierte ParameterKontextlängeHerunterladen
DeepSeek-V3-0324660B37B128KDownload

Deepseek-V3-0324 verwendet dasselbe Basismodell wie das vorherige Deepseek-V3 mit nur Verbesserungen der Methoden nach der Ausbildung. Für die private Bereitstellung müssen Sie nur die Checkpoint und Tokenizer_Config.json (Tool Calls Related Änderungen) aktualisieren. Das Modell verfügt über ungefähr 660B-Parameter, und die Open-Source-Version bietet eine Kontextlänge von 128K (während Web, App und API einen 64K-Kontext bieten).

Wie man vor Ort rennt

Deepseek-Modelle können lokal mit verschiedenen Hardware- und Open-Source-Community-Software bereitgestellt werden.

1. Deepseek-V3-Bereitstellung

Deepseek-V3 kann lokal mit der folgenden Software für Hardware und Open-Source-Community bereitgestellt werden:

  1. Deepseek-Infer-Demo: Deepseek bietet eine einfache und leichte Demo für FP8- und BF16-Inferenz.
  2. Sglang: Unterstützen Sie das Deepseek-V3-Modell sowohl im BF16- als auch im FP8-Inferenzmodi voll und ganz, wobei die multi-gepflegerte Vorhersage bald vorhanden ist.[1 ]
  3. LMDeploy: Ermöglicht eine effiziente FP8- und BF16 -Inferenz für die lokale und Cloud -Bereitstellung.
  4. Tensorrt-Llm: Derzeit unterstützt BF16-Inferenz und INT4/8-Quantisierung, wobei die Unterstützung von FP8 in Kürze erfolgt.
  5. VLLM: Unterstützen Sie das Deepseek-V3-Modell mit FP8- und BF16-Modi für die Parallelität und Pipeline-Parallelität der Tensor.
  6. AMD GPU: Ermöglicht das Ausführen des Deepseek-V3-Modells auf AMD-GPUs über Sglang sowohl im BF16- als auch im FP8-Modus.
  7. Huawei Ascend NPU: unterstützt Deepseek-V3 auf Huawei Ascend-Geräten.

Da die FP8 -Schulung in unserem Rahmen nativ angenommen wird, bieten wir nur FP8 -Gewichte an. Wenn Sie BF16 -Gewichte für das Experimentieren benötigen, können Sie das bereitgestellte Konvertierungsskript verwenden, um die Transformation durchzuführen.

Hier ist ein Beispiel für die Umwandlung von FP8 -Gewichten in BF16:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

NOTIZ

Das Umarmung von Face's Transformers wurde noch nicht direkt unterstützt.

1.1 Inferenz mit Deepseek-Infer-Demo (nur Beispiel)

Systemanforderungen

NOTIZ

Linux nur mit Python 3.10. Mac und Windows werden nicht unterstützt.

Abhängigkeiten:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
Modellgewichte

Klonen Sie zunächst das Deepseek-V3 Github-Repository:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

Navigieren Sie zum Ordner "Inferenz" und installieren Sie Abhängigkeiten, die in `Anforderungen.txt` aufgeführt sind. Der einfachste Weg ist es, einen Paketmanager wie "Conda` oder" UV "zu verwenden, um eine neue virtuelle Umgebung zu erstellen und die Abhängigkeiten zu installieren.

cd DeepSeek-V3/inference
pip install -r requirements.txt

Laden Sie die Modellgewichte vom Umarmungsgesicht herunter und setzen Sie sie in den Ordner "/path/to/Deepseek-v3".

Modellgewichtsumwandlung

Konvertieren Sie das umarmende Gesichtsmodellgewichte in ein bestimmtes Format:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
Laufen

Dann können Sie mit Deepseek-V3 chatten:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

Oder Batch -Inferenz in eine bestimmte Datei:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Inferenz mit Sglang (empfohlen)

SGLang Sglang unterstützt derzeit MLA-Optimierungen, DP-Aufmerksamkeit, FP8 (W8A8), FP8-KV-Cache und Fackelkompilierung, die hochmoderne Latenz- und Durchsatzleistung bei Open-Source-Frameworks liefern.[1 ][2 ][3 ]

Insbesondere unterstützt Sglang v0.4.1 volles Laufen Deepseek-V3 sowohl auf Nvidia als auch für AMD-GPUs, was es zu einer sehr vielseitigen und robusten Lösung macht.[1 ]

Sglang unterstützt auch die Parallelität mit Multi-Knoten-Tensor und ermöglicht es Ihnen, dieses Modell auf mehreren netzwerkverbundenen Maschinen auszuführen.[1 ]

Die Multi-Token-Vorhersage (MTP) ist in der Entwicklung und im Optimierungsplan kann der Fortschritt verfolgt werden.[1 ]

Hier sind die Startanweisungen des Sglang -Teams:[1 ]

1.3 Inferenz mit LMDeploy (empfohlen)

LMDeploy LMDeploy, ein flexibler und leistungsstarker Inferenz- und Serviergerüst, der auf große Sprachmodelle zugeschnitten ist, unterstützt jetzt Deepseek-V3. Es bietet sowohl Offline-Pipeline-Verarbeitung als auch Online-Bereitstellungsfunktionen und integriert sich nahtlos in Pytorch-basierte Workflows.[1 ]

Für umfassende Schritt-für-Schritt-Anweisungen zum Ausführen von Deepseek-V3 mit LMDeploy finden Sie hier hier:[1 ]

1.4 Inferenz mit TRT-LlM (empfohlen)

TensorRT-LLM Tensorrt-Llm unterstützt nun das Deepseek-V3-Modell und bietet Präzisionsoptionen wie BF16 und INT4/INT8-Gewicht. Die Unterstützung für FP8 ist derzeit in Arbeit und wird in Kürze veröffentlicht. Sie können auf den benutzerdefinierten Zweig von TRTllM zugreifen, speziell für Deepseek-V3-Unterstützung über den folgenden Link, um die neuen Funktionen direkt zu erleben:[1 ][2 ]

1.5 Inferenz mit VLLM (empfohlen)

vLLM VllM V0.6.6 unterstützt Deepseek-V3-Inferenz für FP8- und BF16-Modi sowohl für Nvidia als auch für AMD-GPUs. Abgesehen von Standardtechniken bietet VLLM eine Pipeline -Parallelität, mit der Sie dieses Modell auf mehreren Maschinen ausführen können, die von Netzwerken verbunden sind. Ausführliche Anleitungen finden Sie in den VLLM -Anweisungen. Bitte befolgen Sie auch den Verbesserungsplan.[1 ][2 ][3 ]

1.6 Empfohlene Inferenzfunktionalität mit AMD -GPUs

In Zusammenarbeit mit dem AMD-Team hat Deepseek mit Sglang die Unterstützung von AMD-GPUs mit der vollen Kompatibilität sowohl für FP8 als auch für BF16-Präzision erreicht. Ausführliche Anleitungen finden Sie in den Sglang -Anweisungen.[1 ]

1.7 Empfohlene Inferenzfunktionalität mit Huawei Ascend NPUs

Das Mindie-Framework der Huawei Ascend-Community hat die BF16-Version von Deepseek-V3 erfolgreich angepasst. Für Schritt-für-Schritt-Anleitungen zu Ascend NPUs befolgen Sie die Anweisungen hier.[1 ][2 ]

2. Deepseek-R1-Bereitstellung

2.1 Modelle Deepseek-R1

Bitte besuchen Sie den Abschnitt Deepseek-V3 Deployment oben, um weitere Informationen zum Ausführen von Deepseek-R1 lokal auszuführen.

NOTIZ

Das Umarmung von Face's Transformers wurde noch nicht direkt unterstützt.

2.2 Modelle von Deepseek-R1-Distill

Deepseek-R1-Distill-Modelle können auf die gleiche Weise wie Qwen- oder Lama-Modelle verwendet werden.

Beispielsweise können Sie einen Dienst mit VLLM problemlos starten:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

Sie können auch einen Dienst mit Sglang starten:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 Nutzungsempfehlungen

Wir empfehlen, die folgenden Konfigurationen bei der Verwendung der Modelle der Deepseek-R1-Serie, einschließlich Benchmarking, einzuhalten, um die erwartete Leistung zu erzielen:

  1. Stellen Sie die Temperatur im Bereich von 0,5 bis 0,7 (0,6 empfohlen) ein, um endlose Wiederholungen oder inkohärente Ausgänge zu verhindern.
  2. Vermeiden Sie es, eine Systemaufforderung hinzuzufügen. Alle Anweisungen sollten in der Benutzeraufforderung enthalten sein.
  3. Bei mathematischen Problemen ist es ratsam, eine Richtlinie in Ihre Eingabeaufforderung aufzunehmen, z. B. „Bitte Grund für Schritt und Schritt, und Ihre endgültige Antwort in den Boxed einfügen.“
  4. Bei der Bewertung der Modellleistung wird empfohlen, mehrere Tests durchzuführen und die Ergebnisse zu durchschnittlich.

Darüber hinaus haben wir beobachtet, dass die Modelle der Deepseek-R1-Serie dazu neigen, das Denkmuster zu umgehen (d. H. Ausgabe von <donden> </thungen>), wenn sie auf bestimmte Abfragen reagieren, was die Leistung des Modells nachteilig beeinflussen kann.Um sicherzustellen, dass das Modell eine gründliche Begründung betrifft, empfehlen wir, das Modell durchzusetzen, um seine Reaktion mit <donden> </thungen> zu Beginn jeder Ausgabe zu initiieren.

3. Deepseek-V3-0324 Bereitstellung

Deepseek-V3-0324 verwendet dasselbe Basismodell wie das vorherige Deepseek-V3 mit nur Verbesserungen der Methoden nach der Ausbildung. Für die private Bereitstellung müssen Sie nur die Checkpoint und Tokenizer_Config.json (Tool Calls Related Änderungen) aktualisieren.

Die Bereitstellungsoptionen und Frameworks für Deepseek-V3-0324 sind identisch mit denen für Deepseek-V3, die in Abschnitt 1 beschrieben wurden.

Lizenzinformationen

Informationen zu den Lizenzen, unter denen Deepseek -Modelle veröffentlicht werden

Deepseek-V3-0324

MIT -Lizenz

In Übereinstimmung mit Deepseek-R1 übernimmt unser Open-Source-Repository (einschließlich Modellgewichte) die MIT-Lizenz einheitlich und ermöglicht es Benutzern, Modellausgaben und Destillationsmethoden zu nutzen, um andere Modelle zu schulen.

Lizenz anzeigen

Deepseek-V3

MIT -Lizenz

Dieses Code -Repository ist unter der MIT -Lizenz lizenziert. Die Verwendung von Deepseek-V3-Basis-/Chat-Modellen unterliegt der Modelllizenz. Die Deepseek-V3-Serie (einschließlich Basis und Chat) unterstützt den kommerziellen Gebrauch.

Lizenz anzeigen

Deepseek-R1

MIT -Lizenz

Dieses Code -Repository und die Modellgewichte sind unter der MIT -Lizenz lizenziert. Deepseek-R1-Serie unterstützt den kommerziellen Gebrauch und ermöglichen Sie alle Änderungen und derivativen Arbeiten, einschließlich, aber nicht beschränkt auf die Destillation für die Schulung anderer LLMs. Bitte beachten Sie, dass Modelle wie Deepseek-R1-Distill-Qwen und Deepseek-R1-Distill-Llama mit ihren ursprünglichen Lizenzen aus ihren jeweiligen Basismodellen abgeleitet werden.

Lizenz anzeigen

Haftungsausschluss

Deekseek -Modelle werden "wie es" ohne ausdrückliche oder implizite Garantien bereitgestellt. Benutzer sollten die Modelle auf eigenes Risiko verwenden und die Einhaltung der relevanten Gesetze und Vorschriften sicherstellen. Deepseek haftet nicht für Schäden, die sich aus der Verwendung dieser Modelle ergeben.