Accédez aux modèles d'IA de pointe de Deepseek pour le déploiement et l'intégration locaux dans vos applications.
Choisissez parmi notre gamme de modèles d'IA puissants adaptés à différents cas d'utilisation.
La dernière version de notre modèle phare, avec des capacités de raisonnement améliorées et un support multilingue amélioré. Sorti le 24 mars 2025, ce modèle représente notre système d'IA le plus avancé avec des performances supérieures à travers une large gamme de tâches.
Modèle | Params totaux | Params activés | Durée du contexte | Télécharger |
---|---|---|---|---|
DeepSeek-V3-0324 | 660B | 37B | 128K | Download |
Deepseek-V3-0324 utilise le même modèle de base que le deepseek-V3 précédent, avec seulement des améliorations des méthodes post-entraînement. Pour le déploiement privé, il vous suffit de mettre à jour le point de contrôle et Tokenizer_Config.json (modifications liées aux appels d'outils). Le modèle a environ 660B paramètres et la version open source offre une longueur de contexte de 128k (tandis que le Web, l'application et l'API fournissent un contexte 64k).
Notre puissant modèle d'IA à usage général avec des capacités exceptionnelles de raisonnement, de compréhension et de génération exceptionnelles. Deepseek-V3 excelle à la résolution de problèmes complexes et démontre de fortes performances dans les domaines techniques.
NOTE
La taille totale des modèles Deepseek-V3 sur la face des étreintes est de 685b, ce qui comprend 671b des poids principaux du modèle et 14b des poids des modules de prédiction multi-token (MTP).
Pour garantir des performances et une flexibilité optimales, Deepseek s'est associé à des communautés open source et à des fournisseurs de matériel pour fournir plusieurs façons d'exécuter le modèle localement. Pour des conseils étape par étape, consultez la section "Comment exécuter localement" ci-dessous.
Spécialisée pour les tâches de raisonnement avancé, Deepseek-R1 offre des performances exceptionnelles dans les défis de mathématiques, de codage et de raisonnement logique. Construit avec des techniques d'apprentissage par renforcement, il offre des capacités de résolution de problèmes inégalées.
Deepseek-R1-zéro
Les modèles Deepseek-R1-Distill sont affinés sur la base de modèles open source, en utilisant des échantillons générés par Deepseek-R1. Nous changeons légèrement leurs configurations et tokeniseurs. Veuillez utiliser notre paramètre pour exécuter ces modèles.
Modèle | Modèle de base | Télécharger |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | Download |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | Download |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | Download |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | Download |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | Download |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | Download |
Les modèles Deepseek peuvent être déployés localement à l'aide de divers logiciels communautaires matériels et open source.
Deepseek-V3 peut être déployé localement en utilisant le matériel suivant et le logiciel communautaire open source:
Étant donné que la formation FP8 est adoptée nativement dans notre cadre, nous fournissons uniquement des poids FP8. Si vous avez besoin de poids BF16 pour l'expérimentation, vous pouvez utiliser le script de conversion fourni pour effectuer la transformation.
Voici un exemple de conversion de poids FP8 en BF16:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
NOTE
Les transformateurs de Hugging Face n'ont pas encore été directement soutenus.
NOTE
Linux avec Python 3.10 uniquement. Mac et Windows ne sont pas pris en charge.
Dépendances:
torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
Tout d'abord, clonage le référentiel Github Deepseek-V3:
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
Accédez au dossier «Inference» et installez les dépendances répertoriées dans `exigences.txt». Le moyen le plus simple consiste à utiliser un gestionnaire de packages comme `Conda` ou« UV »pour créer un nouvel environnement virtuel et installer les dépendances.
cd DeepSeek-V3/inference
pip install -r requirements.txt
Téléchargez les poids du modèle à partir de l'étreinte Face et mettez-les dans le dossier `/ path / vers / deepseek-v3`.
Convertir les poids des modèles de visage étreintes en un format spécifique:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
Ensuite, vous pouvez discuter avec Deepseek-V3:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200
Ou inférence par lots sur un fichier donné:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE
SGLang SGLANG prend actuellement en charge les optimisations de MLA, l'attention DP, FP8 (W8A8), le cache FP8 KV et la compilation de torche, offrant la latence de pointe et les performances de débit parmi les cadres open-source.[1 ][2 ][3 ]
Notamment, SGLANG V0.4.1 prend en charge entièrement Running Deepseek-V3 sur les GPU NVIDIA et AMD, ce qui en fait une solution très polyvalente et robuste.[1 ]
SGLANG prend également en charge le parallélisme du tenseur multi-nœuds, vous permettant d'exécuter ce modèle sur plusieurs machines connectées au réseau.[1 ]
La prédiction multi-token (MTP) est en développement et les progrès peuvent être suivis dans le plan d'optimisation.[1 ]
Voici les instructions de lancement de l'équipe SGLANG:[1 ]
LMDeploy LMDEPLOY, une inférence flexible et haute performance et un cadre de service adapté aux modèles de grands langues, prend désormais en charge Deepseek-V3. Il offre à la fois des capacités de traitement des pipelines hors ligne et de déploiement en ligne, s'intégrant de manière transparente aux workflows basés sur Pytorch.[1 ]
Pour des instructions complètes étape par étape sur la course à l'exécution de Deepseek-V3 avec LMDEPLOY, veuillez vous référer à ICI:[1 ]
TensorRT-LLM TENSORT-LLM prend désormais en charge le modèle Deepseek-V3, offrant des options de précision telles que BF16 et INT4 / INT8 poids uniquement. La prise en charge de FP8 est actuellement en cours et sera bientôt publiée. Vous pouvez accéder à la branche personnalisée de TrTLLM spécialement pour la prise en charge Deepseek-V3 via le lien suivant pour expérimenter directement les nouvelles fonctionnalités:[1 ][2 ]
vLLM Vllm V0.6.6 prend en charge l'inférence Deepseek-V3 pour les modes FP8 et BF16 sur les GPU NVIDIA et AMD. Mis à part les techniques standard, VLLM offre un parallélisme de pipeline vous permettant d'exécuter ce modèle sur plusieurs machines connectées par des réseaux. Pour des conseils détaillés, veuillez vous référer aux instructions VLLM. N'hésitez pas à suivre également le plan d'amélioration.[1 ][2 ][3 ]
En collaboration avec l'équipe AMD, Deepseek a obtenu le soutien de la journée pour les GPU AMD en utilisant SGLANG, avec une compatibilité complète pour la précision FP8 et BF16. Pour des conseils détaillés, veuillez vous référer aux instructions SGLANG.[1 ]
Le cadre Mindie de la communauté Huawei Ascend a réussi à adapter la version BF16 de Deepseek-V3. Pour des conseils étape par étape sur les NPU Ascend, veuillez suivre les instructions ici.[1 ][2 ]
Veuillez visiter la section de déploiement Deepseek-V3 ci-dessus pour plus d'informations sur l'exécution de Deepseek-R1 localement.
NOTE
Les transformateurs de Hugging Face n'ont pas encore été directement soutenus.
Des modèles Deepseek-R1-Distill peuvent être utilisés de la même manière que les modèles QWEN ou LLAMA.
Par exemple, vous pouvez facilement démarrer un service à l'aide de VLLM:[1 ]
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
Vous pouvez également démarrer facilement un service en utilisant SGLANG:[1 ]
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
Nous vous recommandons d'adhérer aux configurations suivantes lors de l'utilisation des modèles Deepseek-R1, y compris l'analyse comparative, pour atteindre les performances attendues:
downloadPage.howToRun.sections.r1.subsections.usageRecommendations.thinkingPatternDescriptionPour nous assurer que le modèle engage un raisonnement approfondi, nous vous recommandons d'appliquer le modèle pour initier sa réponse avec <fink> </fink> au début de chaque sortie.
Deepseek-V3-0324 utilise le même modèle de base que le deepseek-V3 précédent, avec seulement des améliorations des méthodes post-entraînement. Pour le déploiement privé, il vous suffit de mettre à jour le point de contrôle et Tokenizer_Config.json (modifications liées aux appels d'outils).
Les options de déploiement et les cadres de Deepseek-V3-0324 sont identiques à ceux de Deepseek-V3 décrits dans la section 1. Toutes les mêmes boîtes à outils (SGlang, LMDeploy, Tensorrt-llm, Vllm) prennent en charge Deepseek-V3-0324 avec les mêmes options de configuration.
Informations sur les licences sous lesquelles les modèles Deepseek sont publiés
Conformément à Deepseek-R1, notre référentiel open source (y compris les poids du modèle) adopte uniformément la licence MIT et permet aux utilisateurs de tirer parti des sorties du modèle et des méthodes de distillation pour former d'autres modèles.
Afficher la licenceCe référentiel de code est concédé sous licence MIT. L'utilisation de modèles de base / chat Deepseek-V3 est soumise à la licence du modèle. La série Deepseek-V3 (y compris la base et le chat) prend en charge l'utilisation commerciale.
Afficher la licenceCe référentiel de code et les poids du modèle sont sous licence sous la licence MIT. La série Deepseek-R1 prend en charge l'utilisation commerciale, permettez toute modification et œuvres dérivées, y compris, mais sans s'y limiter, la distillation pour la formation d'autres LLM. Veuillez noter que des modèles comme Deepseek-R1-Distill-Qwen et Deepseek-R1-Distill-Llama sont dérivés de leurs modèles de base respectifs avec leurs licences originales.
Afficher la licenceDes modèles Deepseek sont fournis "tels quels" sans aucune garantie expresse ou implicite. Les utilisateurs doivent utiliser les modèles à leurs propres risques et garantir la conformité aux lois et réglementations pertinentes. Deepseek n'est pas responsable des dommages résultant de l'utilisation de ces modèles.