Télécharger les modèles Deepseek AI

Accédez aux modèles d'IA de pointe de Deepseek pour le déploiement et l'intégration locaux dans vos applications.

Modèles disponibles

Choisissez parmi notre gamme de modèles d'IA puissants adaptés à différents cas d'utilisation.

DeepSeek-V3-0324

La dernière version de notre modèle phare, avec des capacités de raisonnement améliorées et un support multilingue amélioré. Sorti le 24 mars 2025, ce modèle représente notre système d'IA le plus avancé avec des performances supérieures à travers une large gamme de tâches.

Télécharger GitHub

Modèles Deepseek-V3-0324

Modèle	Params totaux	Params activés	Durée du contexte	Télécharger
DeepSeek-V3-0324	660B	37B	128K	Download

Deepseek-V3-0324 utilise le même modèle de base que le deepseek-V3 précédent, avec seulement des améliorations des méthodes post-entraînement. Pour le déploiement privé, il vous suffit de mettre à jour le point de contrôle et Tokenizer_Config.json (modifications liées aux appels d'outils). Le modèle a environ 660B paramètres et la version open source offre une longueur de contexte de 128k (tandis que le Web, l'application et l'API fournissent un contexte 64k).

DeepSeek-V3

Notre puissant modèle d'IA à usage général avec des capacités exceptionnelles de raisonnement, de compréhension et de génération exceptionnelles. Deepseek-V3 excelle à la résolution de problèmes complexes et démontre de fortes performances dans les domaines techniques.

Télécharger GitHub

Modèles Deepseek-V3

Modèle	Params totaux	Params activés	Durée du contexte	Télécharger
DeepSeek-V3-Base	671B	37B	128K	Download
DeepSeek-V3	671B	37B	128K	Download

NOTE

La taille totale des modèles Deepseek-V3 sur la face des étreintes est de 685b, ce qui comprend 671b des poids principaux du modèle et 14b des poids des modules de prédiction multi-token (MTP).

Pour garantir des performances et une flexibilité optimales, Deepseek s'est associé à des communautés open source et à des fournisseurs de matériel pour fournir plusieurs façons d'exécuter le modèle localement. Pour des conseils étape par étape, consultez la section "Comment exécuter localement" ci-dessous.

DeepSeek-R1-0528

Le modèle Deepseek R1 a subi une mise à niveau de version mineure, la version actuelle étant Deepseek-R1-0528. Dans la dernière mise à jour, Deepseek R1 a considérablement amélioré sa profondeur de raisonnement et les capacités d'inférence en tirant une mise à profit des ressources de calcul accrues et en introduisant des mécanismes d'optimisation algorithmique pendant la post-formation. Le modèle a démontré des performances exceptionnelles dans diverses évaluations de référence, notamment les mathématiques, la programmation et la logique générale. Ses performances globales approchent maintenant de celles des principaux modèles, tels que O3 et Gemini 2.5 Pro.

Télécharger GitHub

Modèles Deepseek-R1-0528

Modèle	Params totaux	Params activés	Durée du contexte	Télécharger
DeepSeek-R1-0528	685B	37B	128K	Download

Par rapport à la version précédente, le modèle amélioré montre des améliorations significatives dans la manipulation des tâches de raisonnement complexes. Par exemple, dans le test AIME 2025, la précision du modèle est passée de 70% dans la version précédente à 87,5% dans la version actuelle. Cette avancement découle d'une profondeur de réflexion améliorée au cours du processus de raisonnement: dans l'ensemble de tests AIME, le modèle précédent a utilisé une moyenne de 12 000 jetons par question, tandis que la nouvelle version est en moyenne de 23K jetons par question.

DeepSeek-R1

Spécialisée pour les tâches de raisonnement avancé, Deepseek-R1 offre des performances exceptionnelles dans les défis de mathématiques, de codage et de raisonnement logique. Construit avec des techniques d'apprentissage par renforcement, il offre des capacités de résolution de problèmes inégalées.

Télécharger GitHub

Deepseek-R1-zéro

Modèles Deepseek-R1

Modèle	Params totaux	Params activés	Durée du contexte	Télécharger
DeepSeek-R1-Zero	671B	37B	128K	Download
DeepSeek-R1	671B	37B	128K	Download

Les modèles Deepseek-R1-Distill sont affinés sur la base de modèles open source, en utilisant des échantillons générés par Deepseek-R1. Nous changeons légèrement leurs configurations et tokeniseurs. Veuillez utiliser notre paramètre pour exécuter ces modèles.

Modèles Deepseek-R1-Distill

Modèle	Modèle de base	Télécharger
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	Download
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	Download
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	Download
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	Download
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	Download
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	Download

Comment courir localement

Les modèles Deepseek peuvent être déployés localement à l'aide de divers logiciels communautaires matériels et open source.

1. Déploiement Deepseek-V3

Deepseek-V3 peut être déployé localement en utilisant le matériel suivant et le logiciel communautaire open source:

Démo en profondeur: Deepseek fournit une démo simple et légère pour l'inférence FP8 et BF16.
SGLANG: Soutenez entièrement le modèle Deepseek-V3 dans les modes d'inférence BF16 et FP8, avec une prédiction multi-token à venir bientôt.[1 ]
LMDEPLOY: permet une inférence FP8 et BF16 efficace pour le déploiement local et cloud.
Tensorrt-llm: prend actuellement en charge l'inférence BF16 et la quantification INT4 / 8, avec le support FP8 à venir bientôt.
VLLM: Soutenez le modèle Deepseek-V3 avec les modes FP8 et BF16 pour le parallélisme du tenseur et le parallélisme du pipeline.
AMD GPU: permet d'exécuter le modèle Deepseek-V3 sur les GPU AMD via SGLANG dans les modes BF16 et FP8.
Huawei Ascend NPU: prend en charge la course Deepseek-V3 sur les dispositifs Huawei Ascend.

Étant donné que la formation FP8 est adoptée nativement dans notre cadre, nous fournissons uniquement des poids FP8. Si vous avez besoin de poids BF16 pour l'expérimentation, vous pouvez utiliser le script de conversion fourni pour effectuer la transformation.

Voici un exemple de conversion de poids FP8 en BF16:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

NOTE

Les transformateurs de Hugging Face n'ont pas encore été directement soutenus.

1.1 Inférence avec la démo profonde-inférieure (exemple uniquement)

Exigences du système

NOTE

Linux avec Python 3.10 uniquement. Mac et Windows ne sont pas pris en charge.

Dépendances:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5

Poids du modèle

Tout d'abord, clonage le référentiel Github Deepseek-V3:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

Accédez au dossier «Inference» et installez les dépendances répertoriées dans `exigences.txt». Le moyen le plus simple consiste à utiliser un gestionnaire de packages comme `Conda` ou« UV »pour créer un nouvel environnement virtuel et installer les dépendances.

cd DeepSeek-V3/inference
pip install -r requirements.txt

Téléchargez les poids du modèle à partir de l'étreinte Face et mettez-les dans le dossier `/ path / vers / deepseek-v3`.

Conversion des poids du modèle

Convertir les poids des modèles de visage étreintes en un format spécifique:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

Courir

Ensuite, vous pouvez discuter avec Deepseek-V3:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

Ou inférence par lots sur un fichier donné:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Inférence avec SGlang (recommandé)

SGLang SGLANG prend actuellement en charge les optimisations de MLA, l'attention DP, FP8 (W8A8), le cache FP8 KV et la compilation de torche, offrant la latence de pointe et les performances de débit parmi les cadres open-source.[1 ][2 ][3 ]

Notamment, SGLANG V0.4.1 prend en charge entièrement Running Deepseek-V3 sur les GPU NVIDIA et AMD, ce qui en fait une solution très polyvalente et robuste.[1 ]

SGLANG prend également en charge le parallélisme du tenseur multi-nœuds, vous permettant d'exécuter ce modèle sur plusieurs machines connectées au réseau.[1 ]

La prédiction multi-token (MTP) est en développement et les progrès peuvent être suivis dans le plan d'optimisation.[1 ]

Voici les instructions de lancement de l'équipe SGLANG:[1 ]

1.3 Inférence avec LMDEPLOY (recommandé)

LMDeploy LMDEPLOY, une inférence flexible et haute performance et un cadre de service adapté aux modèles de grands langues, prend désormais en charge Deepseek-V3. Il offre à la fois des capacités de traitement des pipelines hors ligne et de déploiement en ligne, s'intégrant de manière transparente aux workflows basés sur Pytorch.[1 ]

Pour des instructions complètes étape par étape sur la course à l'exécution de Deepseek-V3 avec LMDEPLOY, veuillez vous référer à ICI:[1 ]

1.4 Inférence avec TRT-llm (recommandé)

TensorRT-LLM TENSORT-LLM prend désormais en charge le modèle Deepseek-V3, offrant des options de précision telles que BF16 et INT4 / INT8 poids uniquement. La prise en charge de FP8 est actuellement en cours et sera bientôt publiée. Vous pouvez accéder à la branche personnalisée de TrTLLM spécialement pour la prise en charge Deepseek-V3 via le lien suivant pour expérimenter directement les nouvelles fonctionnalités:[1 ][2 ]

1.5 Inférence avec VLLM (recommandé)

vLLM Vllm V0.6.6 prend en charge l'inférence Deepseek-V3 pour les modes FP8 et BF16 sur les GPU NVIDIA et AMD. Mis à part les techniques standard, VLLM offre un parallélisme de pipeline vous permettant d'exécuter ce modèle sur plusieurs machines connectées par des réseaux. Pour des conseils détaillés, veuillez vous référer aux instructions VLLM. N'hésitez pas à suivre également le plan d'amélioration.[1 ][2 ][3 ]

1.6 Fonctionnalité d'inférence recommandée avec les GPU AMD

En collaboration avec l'équipe AMD, Deepseek a obtenu le soutien de la journée pour les GPU AMD en utilisant SGLANG, avec une compatibilité complète pour la précision FP8 et BF16. Pour des conseils détaillés, veuillez vous référer aux instructions SGLANG.[1 ]

1.7 Fonctionnalité d'inférence recommandée avec Huawei Ascend NPUS

Le cadre Mindie de la communauté Huawei Ascend a réussi à adapter la version BF16 de Deepseek-V3. Pour des conseils étape par étape sur les NPU Ascend, veuillez suivre les instructions ici.[1 ][2 ]

2. Déploiement Deepseek-R1

2.1 Modèles Deepseek-R1

Veuillez visiter la section de déploiement Deepseek-V3 ci-dessus pour plus d'informations sur l'exécution de Deepseek-R1 localement.

NOTE

Les transformateurs de Hugging Face n'ont pas encore été directement soutenus.

2.2 Modèles Deepseek-R1-Distill

Des modèles Deepseek-R1-Distill peuvent être utilisés de la même manière que les modèles QWEN ou LLAMA.

Par exemple, vous pouvez facilement démarrer un service à l'aide de VLLM:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

Vous pouvez également démarrer facilement un service en utilisant SGLANG:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 Recommandations d'utilisation

Nous vous recommandons d'adhérer aux configurations suivantes lors de l'utilisation des modèles Deepseek-R1, y compris l'analyse comparative, pour atteindre les performances attendues:

Réglez la température dans la plage de 0,5 à 0,7 (0,6 est recommandée) pour empêcher les répétitions sans fin ou les sorties incohérentes.
Évitez d'ajouter une invite système; Toutes les instructions doivent être contenues dans l'invite utilisateur.
Pour les problèmes mathématiques, il est conseillé d'inclure une directive dans votre invite, telle que: "Veuillez raisonner étape par étape et mettre votre réponse finale dans Boxed."
Lors de l'évaluation des performances du modèle, il est recommandé d'effectuer plusieurs tests et de faire la moyenne des résultats.

De plus, nous avons observé que les modèles de la série Deepseek-R1 ont tendance à contourner le modèle de réflexion (c'est-à-dire la sortie de <think> </think>) lors de la réponse à certaines requêtes, ce qui peut nuire aux performances du modèle.Pour nous assurer que le modèle engage un raisonnement approfondi, nous vous recommandons d'appliquer le modèle pour initier sa réponse avec <think> </think> au début de chaque sortie.

3. Déploiement Deepseek-V3-0324

Deepseek-V3-0324 utilise le même modèle de base que le deepseek-V3 précédent, avec seulement des améliorations des méthodes post-entraînement. Pour le déploiement privé, il vous suffit de mettre à jour le point de contrôle et Tokenizer_Config.json (modifications liées aux appels d'outils).

Les options de déploiement et les cadres de Deepseek-V3-0324 sont identiques à ceux de Deepseek-V3 décrits dans la section 1. Toutes les mêmes boîtes à outils (SGlang, LMDeploy, Tensorrt-llm, Vllm) prennent en charge Deepseek-V3-0324 avec les mêmes options de configuration.

Informations sur la licence

Informations sur les licences sous lesquelles les modèles Deepseek sont publiés

Deepseek-V3-0324

Licence MIT

Conformément à Deepseek-R1, notre référentiel open source (y compris les poids du modèle) adopte uniformément la licence MIT et permet aux utilisateurs de tirer parti des sorties du modèle et des méthodes de distillation pour former d'autres modèles.

Afficher la licence

Deepseek-V3

Licence MIT

Ce référentiel de code est concédé sous licence MIT. L'utilisation de modèles de base / chat Deepseek-V3 est soumise à la licence du modèle. La série Deepseek-V3 (y compris la base et le chat) prend en charge l'utilisation commerciale.

Afficher la licence

Deepseek-R1

Licence MIT

Ce référentiel de code et les poids du modèle sont sous licence sous la licence MIT. La série Deepseek-R1 prend en charge l'utilisation commerciale, permettez toute modification et œuvres dérivées, y compris, mais sans s'y limiter, la distillation pour la formation d'autres LLM. Veuillez noter que des modèles comme Deepseek-R1-Distill-Qwen et Deepseek-R1-Distill-Llama sont dérivés de leurs modèles de base respectifs avec leurs licences originales.

Afficher la licence

Clause de non-responsabilité

Des modèles Deepseek sont fournis "tels quels" sans aucune garantie expresse ou implicite. Les utilisateurs doivent utiliser les modèles à leurs propres risques et garantir la conformité aux lois et réglementations pertinentes. Deepseek n'est pas responsable des dommages résultant de l'utilisation de ces modèles.