Acceda a los modelos AI de vanguardia de Deepseek para la implementación local e integración en sus aplicaciones.
Elija entre nuestra gama de potentes modelos de IA adaptados para diferentes casos de uso.
La última versión de nuestro modelo insignia, con capacidades de razonamiento mejoradas y soporte multilingüe mejorado. Lanzado el 24 de marzo de 2025, este modelo representa nuestro sistema de IA más avanzado con un rendimiento superior en una amplia gama de tareas.
Modelo | Total de parámetros | Parámetros activados | Longitud de contexto | Descargar |
---|---|---|---|---|
DeepSeek-V3-0324 | 660B | 37B | 128K | Download |
Deepseek-V3-0324 utiliza el mismo modelo base que el anterior Deepseek-V3, con solo mejoras en los métodos posteriores a la capacitación. Para la implementación privada, solo necesita actualizar el punto de control y tokenizer_config.json (cambios relacionados con las llamadas de herramientas). El modelo tiene aproximadamente 660b parámetros, y la versión de código abierto ofrece una longitud de contexto de 128k (mientras que la web, la aplicación y la API proporcionan un contexto 64K).
Nuestro potente modelo de IA de uso general con razonamiento excepcional, comprensión y capacidades de generación. Deepseek-V3 sobresale en la resolución compleja de problemas y demuestra un fuerte rendimiento en los dominios técnicos.
NOTA
El tamaño total de los modelos Deepseek-V3 en la cara de abrazo es 685B, que incluye 671B de los pesos del modelo principal y 14B de los pesos del módulo de predicción múltiple (MTP).
Para garantizar un rendimiento y flexibilidad óptimos, Deepseek se ha asociado con comunidades de código abierto y proveedores de hardware para proporcionar múltiples formas de ejecutar el modelo localmente. Para obtener orientación paso a paso, consulte la sección "Cómo ejecutar localmente" a continuación.
Especializado para tareas de razonamiento avanzado, Deepseek-R1 ofrece un rendimiento sobresaliente en matemáticas, codificación y desafíos de razonamiento lógico. Construido con técnicas de aprendizaje de refuerzo, ofrece habilidades incomparables para resolver problemas.
Deepseek-r1-cero
Los modelos Deepseek-R1-Distill se ajustan en función de los modelos de código abierto, utilizando muestras generadas por Deepseek-R1. Cambiamos ligeramente sus configuraciones y tokenizadores. Utilice nuestra configuración para ejecutar estos modelos.
Modelo | Modelo base | Descargar |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | Download |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | Download |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | Download |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | Download |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | Download |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | Download |
Los modelos Deepseek se pueden implementar localmente utilizando varios hardware y software de la comunidad de código abierto.
Deepseek-v3 se puede implementar localmente utilizando el siguiente hardware y software de comunidad de código abierto:
Dado que la capacitación FP8 se adopta de forma nativa en nuestro marco, solo proporcionamos pesos FP8. Si necesita pesos BF16 para la experimentación, puede usar el script de conversión proporcionado para realizar la transformación.
Aquí hay un ejemplo de conversión de pesos FP8 a BF16:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
NOTA
Hacer los transformadores de abrazos de Face aún no se ha apoyado directamente.
NOTA
Linux con Python 3.10 solamente. Mac y Windows no son compatibles.
Dependencias:
torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
Primero, clone el repositorio de GitHub Deepseek-V3:
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
Navegue a la carpeta `inferencia` e instale dependencias enumeradas en` requisitos.txt`. La forma más fácil es usar un administrador de paquetes como `conda` o` UV` para crear un nuevo entorno virtual e instalar las dependencias.
cd DeepSeek-V3/inference
pip install -r requirements.txt
Descargue los pesos del modelo de la cara abrazada y póngalas en la carpeta `/Path/to/Deepseek-V3`.
Convertir pesos del modelo de cara de abrazo a un formato específico:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
Entonces puedes chatear con Deepseek-V3:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200
O inferencia por lotes en un archivo determinado:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE
SGLang Actualmente, SGLANG admite Optimizaciones MLA, Atención DP, FP8 (W8A8), caché FP8 KV y compilación de antorcha, que ofrece latencia de última generación y rendimiento de rendimiento entre marcos de código abierto.[1 ][2 ][3 ]
En particular, Sglang V0.4.1 admite completamente la ejecución de Deepseek-V3 en NVIDIA y AMD GPU, lo que lo convierte en una solución altamente versátil y robusta.[1 ]
SGLANG también admite el paralelismo del tensor de nodos múltiples, lo que le permite ejecutar este modelo en múltiples máquinas conectadas a la red.[1 ]
La predicción múltiple (MTP) está en desarrollo, y el progreso se puede rastrear en el plan de optimización.[1 ]
Aquí están las instrucciones de lanzamiento del equipo de Sglang:[1 ]
LMDeploy LMDeploy, una inferencia flexible y de alto rendimiento y un marco de servicio adaptado para modelos de idiomas grandes, ahora admite Deepseek-V3. Ofrece el procesamiento de tuberías fuera de línea y las capacidades de implementación en línea, integrándose sin problemas con los flujos de trabajo basados en Pytorch.[1 ]
Para obtener instrucciones completas paso a paso sobre la ejecución de Deepseek-V3 con LMDePloy, consulte aquí:[1 ]
TensorRT-LLM Tensorrt-LLM ahora admite el modelo Deepseek-V3, ofreciendo opciones de precisión como BF16 e Int4/Int8 Peavone-Pealle. El soporte para FP8 está actualmente en progreso y se lanzará pronto. Puede acceder a la rama personalizada de TRTLLM específicamente para el soporte Deepseek-V3 a través del siguiente enlace para experimentar las nuevas funciones directamente:[1 ][2 ]
vLLM VLLM V0.6.6 admite la inferencia de Deepseek-V3 para los modos FP8 y BF16 en las GPU NVIDIA y AMD. Además de las técnicas estándar, VLLM ofrece paralelismo de tuberías que le permite ejecutar este modelo en múltiples máquinas conectadas por redes. Para una guía detallada, consulte las instrucciones de VLLM. No dude en seguir el plan de mejora también.[1 ][2 ][3 ]
En colaboración con el equipo de AMD, Deepseek ha logrado el apoyo del día uno para las GPU AMD utilizando SGLANG, con una compatibilidad total para la precisión FP8 y BF16. Para una guía detallada, consulte las instrucciones de SGLANG.[1 ]
El marco Mindie de la comunidad Huawei Ascend ha adaptado con éxito la versión BF16 de Deepseek-V3. Para una guía paso a paso sobre ASCEND NPUS, siga las instrucciones aquí.[1 ][2 ]
Visite la sección de implementación Deepseek-V3 anterior para obtener más información sobre la ejecución de Deepseek-R1 localmente.
NOTA
Hacer los transformadores de abrazos de Face aún no se ha apoyado directamente.
Los modelos Deepseek-R1-Distill se pueden utilizar de la misma manera que los modelos Qwen o Llama.
Por ejemplo, puede iniciar fácilmente un servicio usando VLLM:[1 ]
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
También puede iniciar fácilmente un servicio usando SGLANG:[1 ]
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
Recomendamos cumplir con las siguientes configuraciones al utilizar los modelos de la serie Deepseek-R1, incluida la evaluación comparativa, para lograr el rendimiento esperado:
Además, hemos observado que los modelos de la serie Deepseek-R1 tienden a evitar el patrón de pensamiento (es decir, emitir <miend> </lek>) al responder a ciertas consultas, lo que puede afectar negativamente el rendimiento del modelo.Para garantizar que el modelo se involucre en un razonamiento exhaustivo, recomendamos hacer cumplir el modelo para iniciar su respuesta con <Think> </Think> al comienzo de cada salida.
Deepseek-V3-0324 utiliza el mismo modelo base que el anterior Deepseek-V3, con solo mejoras en los métodos posteriores a la capacitación. Para la implementación privada, solo necesita actualizar el punto de control y tokenizer_config.json (cambios relacionados con las llamadas de herramientas).
Las opciones de implementación y los marcos para Deepseek-V3-0324 son idénticos a las de Deepseek-V3 descritos en la Sección 1. Todos los mismos kits de herramientas (Sglang, LMDePloy, Tensorrt-LLM, VLLM) admiten Deepseek-V3-0324 con las mismas opciones de configuración.
Información sobre las licencias bajo las cuales se lanzan modelos Deepseek
De acuerdo con Deepseek-R1, nuestro repositorio de código abierto (incluidos los pesos del modelo) adopta de manera uniforme la licencia MIT, y permite a los usuarios aprovechar las salidas del modelo y los métodos de destilación para capacitar a otros modelos.
Ver licenciaEste repositorio de código tiene licencia bajo la licencia MIT. El uso de modelos de base/chat Deepseek-V3 está sujeto a la licencia de modelo. Deepseek-V3 Series (incluida la base y el chat) admite el uso comercial.
Ver licenciaEste repositorio de código y los pesos del modelo tienen licencia bajo la licencia MIT. La serie Deepseek-R1 admite el uso comercial, permite modificaciones y trabajos derivados, incluidos, entre otros, la destilación para capacitar a otros LLM. Tenga en cuenta que modelos como Deepseek-R1-Distill-Qwen y Deepseek-R1-Distill-Llama se derivan de sus respectivos modelos base con sus licencias originales.
Ver licenciaLos modelos Deepseek se proporcionan "tal cual" sin ninguna garantía expresa o implícita. Los usuarios deben usar los modelos bajo su propio riesgo y garantizar el cumplimiento de las leyes y regulaciones relevantes. Deepseek no es responsable de los daños resultantes del uso de estos modelos.