Télécharger les modèles Deepseek AI

Accédez aux modèles d'IA de pointe de Deepseek pour le déploiement et l'intégration locaux dans vos applications.

Modèles disponibles

Choisissez parmi notre gamme de modèles d'IA puissants adaptés à différents cas d'utilisation.

DeepSeek-V3-0324

La dernière version de notre modèle phare, avec des capacités de raisonnement améliorées et un support multilingue amélioré. Sorti le 24 mars 2025, ce modèle représente notre système d'IA le plus avancé avec des performances supérieures à travers une large gamme de tâches.

Modèles Deepseek-V3-0324

ModèleParams totauxParams activésDurée du contexteTélécharger
DeepSeek-V3-0324660B37B128KDownload

Deepseek-V3-0324 utilise le même modèle de base que le deepseek-V3 précédent, avec seulement des améliorations des méthodes post-entraînement. Pour le déploiement privé, il vous suffit de mettre à jour le point de contrôle et Tokenizer_Config.json (modifications liées aux appels d'outils). Le modèle a environ 660B paramètres et la version open source offre une longueur de contexte de 128k (tandis que le Web, l'application et l'API fournissent un contexte 64k).

Comment courir localement

Les modèles Deepseek peuvent être déployés localement à l'aide de divers logiciels communautaires matériels et open source.

1. Déploiement Deepseek-V3

Deepseek-V3 peut être déployé localement en utilisant le matériel suivant et le logiciel communautaire open source:

  1. Démo en profondeur: Deepseek fournit une démo simple et légère pour l'inférence FP8 et BF16.
  2. SGLANG: Soutenez entièrement le modèle Deepseek-V3 dans les modes d'inférence BF16 et FP8, avec une prédiction multi-token à venir bientôt.[1 ]
  3. LMDEPLOY: permet une inférence FP8 et BF16 efficace pour le déploiement local et cloud.
  4. Tensorrt-llm: prend actuellement en charge l'inférence BF16 et la quantification INT4 / 8, avec le support FP8 à venir bientôt.
  5. VLLM: Soutenez le modèle Deepseek-V3 avec les modes FP8 et BF16 pour le parallélisme du tenseur et le parallélisme du pipeline.
  6. AMD GPU: permet d'exécuter le modèle Deepseek-V3 sur les GPU AMD via SGLANG dans les modes BF16 et FP8.
  7. Huawei Ascend NPU: prend en charge la course Deepseek-V3 sur les dispositifs Huawei Ascend.

Étant donné que la formation FP8 est adoptée nativement dans notre cadre, nous fournissons uniquement des poids FP8. Si vous avez besoin de poids BF16 pour l'expérimentation, vous pouvez utiliser le script de conversion fourni pour effectuer la transformation.

Voici un exemple de conversion de poids FP8 en BF16:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

NOTE

Les transformateurs de Hugging Face n'ont pas encore été directement soutenus.

1.1 Inférence avec la démo profonde-inférieure (exemple uniquement)

Exigences du système

NOTE

Linux avec Python 3.10 uniquement. Mac et Windows ne sont pas pris en charge.

Dépendances:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
Poids du modèle

Tout d'abord, clonage le référentiel Github Deepseek-V3:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

Accédez au dossier «Inference» et installez les dépendances répertoriées dans `exigences.txt». Le moyen le plus simple consiste à utiliser un gestionnaire de packages comme `Conda` ou« UV »pour créer un nouvel environnement virtuel et installer les dépendances.

cd DeepSeek-V3/inference
pip install -r requirements.txt

Téléchargez les poids du modèle à partir de l'étreinte Face et mettez-les dans le dossier `/ path / vers / deepseek-v3`.

Conversion des poids du modèle

Convertir les poids des modèles de visage étreintes en un format spécifique:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
Courir

Ensuite, vous pouvez discuter avec Deepseek-V3:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

Ou inférence par lots sur un fichier donné:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Inférence avec SGlang (recommandé)

SGLang SGLANG prend actuellement en charge les optimisations de MLA, l'attention DP, FP8 (W8A8), le cache FP8 KV et la compilation de torche, offrant la latence de pointe et les performances de débit parmi les cadres open-source.[1 ][2 ][3 ]

Notamment, SGLANG V0.4.1 prend en charge entièrement Running Deepseek-V3 sur les GPU NVIDIA et AMD, ce qui en fait une solution très polyvalente et robuste.[1 ]

SGLANG prend également en charge le parallélisme du tenseur multi-nœuds, vous permettant d'exécuter ce modèle sur plusieurs machines connectées au réseau.[1 ]

La prédiction multi-token (MTP) est en développement et les progrès peuvent être suivis dans le plan d'optimisation.[1 ]

Voici les instructions de lancement de l'équipe SGLANG:[1 ]

1.3 Inférence avec LMDEPLOY (recommandé)

LMDeploy LMDEPLOY, une inférence flexible et haute performance et un cadre de service adapté aux modèles de grands langues, prend désormais en charge Deepseek-V3. Il offre à la fois des capacités de traitement des pipelines hors ligne et de déploiement en ligne, s'intégrant de manière transparente aux workflows basés sur Pytorch.[1 ]

Pour des instructions complètes étape par étape sur la course à l'exécution de Deepseek-V3 avec LMDEPLOY, veuillez vous référer à ICI:[1 ]

1.4 Inférence avec TRT-llm (recommandé)

TensorRT-LLM TENSORT-LLM prend désormais en charge le modèle Deepseek-V3, offrant des options de précision telles que BF16 et INT4 / INT8 poids uniquement. La prise en charge de FP8 est actuellement en cours et sera bientôt publiée. Vous pouvez accéder à la branche personnalisée de TrTLLM spécialement pour la prise en charge Deepseek-V3 via le lien suivant pour expérimenter directement les nouvelles fonctionnalités:[1 ][2 ]

1.5 Inférence avec VLLM (recommandé)

vLLM Vllm V0.6.6 prend en charge l'inférence Deepseek-V3 pour les modes FP8 et BF16 sur les GPU NVIDIA et AMD. Mis à part les techniques standard, VLLM offre un parallélisme de pipeline vous permettant d'exécuter ce modèle sur plusieurs machines connectées par des réseaux. Pour des conseils détaillés, veuillez vous référer aux instructions VLLM. N'hésitez pas à suivre également le plan d'amélioration.[1 ][2 ][3 ]

1.6 Fonctionnalité d'inférence recommandée avec les GPU AMD

En collaboration avec l'équipe AMD, Deepseek a obtenu le soutien de la journée pour les GPU AMD en utilisant SGLANG, avec une compatibilité complète pour la précision FP8 et BF16. Pour des conseils détaillés, veuillez vous référer aux instructions SGLANG.[1 ]

1.7 Fonctionnalité d'inférence recommandée avec Huawei Ascend NPUS

Le cadre Mindie de la communauté Huawei Ascend a réussi à adapter la version BF16 de Deepseek-V3. Pour des conseils étape par étape sur les NPU Ascend, veuillez suivre les instructions ici.[1 ][2 ]

2. Déploiement Deepseek-R1

2.1 Modèles Deepseek-R1

Veuillez visiter la section de déploiement Deepseek-V3 ci-dessus pour plus d'informations sur l'exécution de Deepseek-R1 localement.

NOTE

Les transformateurs de Hugging Face n'ont pas encore été directement soutenus.

2.2 Modèles Deepseek-R1-Distill

Des modèles Deepseek-R1-Distill peuvent être utilisés de la même manière que les modèles QWEN ou LLAMA.

Par exemple, vous pouvez facilement démarrer un service à l'aide de VLLM:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

Vous pouvez également démarrer facilement un service en utilisant SGLANG:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 Recommandations d'utilisation

Nous vous recommandons d'adhérer aux configurations suivantes lors de l'utilisation des modèles Deepseek-R1, y compris l'analyse comparative, pour atteindre les performances attendues:

  1. Réglez la température dans la plage de 0,5 à 0,7 (0,6 est recommandée) pour empêcher les répétitions sans fin ou les sorties incohérentes.
  2. Évitez d'ajouter une invite système; Toutes les instructions doivent être contenues dans l'invite utilisateur.
  3. Pour les problèmes mathématiques, il est conseillé d'inclure une directive dans votre invite, telle que: "Veuillez raisonner étape par étape et mettre votre réponse finale dans Boxed."
  4. Lors de l'évaluation des performances du modèle, il est recommandé d'effectuer plusieurs tests et de faire la moyenne des résultats.

downloadPage.howToRun.sections.r1.subsections.usageRecommendations.thinkingPatternDescriptionPour nous assurer que le modèle engage un raisonnement approfondi, nous vous recommandons d'appliquer le modèle pour initier sa réponse avec <fink> </fink> au début de chaque sortie.

3. Déploiement Deepseek-V3-0324

Deepseek-V3-0324 utilise le même modèle de base que le deepseek-V3 précédent, avec seulement des améliorations des méthodes post-entraînement. Pour le déploiement privé, il vous suffit de mettre à jour le point de contrôle et Tokenizer_Config.json (modifications liées aux appels d'outils).

Les options de déploiement et les cadres de Deepseek-V3-0324 sont identiques à ceux de Deepseek-V3 décrits dans la section 1. Toutes les mêmes boîtes à outils (SGlang, LMDeploy, Tensorrt-llm, Vllm) prennent en charge Deepseek-V3-0324 avec les mêmes options de configuration.

Informations sur la licence

Informations sur les licences sous lesquelles les modèles Deepseek sont publiés

Deepseek-V3-0324

Licence MIT

Conformément à Deepseek-R1, notre référentiel open source (y compris les poids du modèle) adopte uniformément la licence MIT et permet aux utilisateurs de tirer parti des sorties du modèle et des méthodes de distillation pour former d'autres modèles.

Afficher la licence

Deepseek-V3

Licence MIT

Ce référentiel de code est concédé sous licence MIT. L'utilisation de modèles de base / chat Deepseek-V3 est soumise à la licence du modèle. La série Deepseek-V3 (y compris la base et le chat) prend en charge l'utilisation commerciale.

Afficher la licence

Deepseek-R1

Licence MIT

Ce référentiel de code et les poids du modèle sont sous licence sous la licence MIT. La série Deepseek-R1 prend en charge l'utilisation commerciale, permettez toute modification et œuvres dérivées, y compris, mais sans s'y limiter, la distillation pour la formation d'autres LLM. Veuillez noter que des modèles comme Deepseek-R1-Distill-Qwen et Deepseek-R1-Distill-Llama sont dérivés de leurs modèles de base respectifs avec leurs licences originales.

Afficher la licence

Clause de non-responsabilité

Des modèles Deepseek sont fournis "tels quels" sans aucune garantie expresse ou implicite. Les utilisateurs doivent utiliser les modèles à leurs propres risques et garantir la conformité aux lois et réglementations pertinentes. Deepseek n'est pas responsable des dommages résultant de l'utilisation de ces modèles.