Descargar modelos de Deepseek AI

Acceda a los modelos AI de vanguardia de Deepseek para la implementación local e integración en sus aplicaciones.

Modelos disponibles

Elija entre nuestra gama de potentes modelos de IA adaptados para diferentes casos de uso.

DeepSeek-V3.1

DeepSeek-V3.1 es un modelo de IA revolucionario con importantes actualizaciones basadas en el V3 original. Tiene 671B parámetros totales, 37B parámetros activados por token, soporta longitud de contexto de 128K e integra capacidades de razonamiento profundo directamente en el modelo principal.

Descargar GitHub

Modelos DeepSeek-V3.1

Modelo	Total de parámetros	Parámetros activados	Longitud de contexto	Descargar
DeepSeek-V3.1-Base	671B	37B	128K	Download

DeepSeek-V3.1 es una actualización incremental basada en el V3 original, caracterizada por ventana de contexto expandida y capacidades de razonamiento mejoradas.

DeepSeek-V3-0324

La última versión de nuestro modelo insignia, con capacidades de razonamiento mejoradas y soporte multilingüe mejorado. Lanzado el 24 de marzo de 2025, este modelo representa nuestro sistema de IA más avanzado con un rendimiento superior en una amplia gama de tareas.

Descargar GitHub

Deepseek-v3-0324 modelos

Modelo	Total de parámetros	Parámetros activados	Longitud de contexto	Descargar
DeepSeek-V3-0324	660B	37B	128K	Download

Deepseek-V3-0324 utiliza el mismo modelo base que el anterior Deepseek-V3, con solo mejoras en los métodos posteriores a la capacitación. Para la implementación privada, solo necesita actualizar el punto de control y tokenizer_config.json (cambios relacionados con las llamadas de herramientas). El modelo tiene aproximadamente 660b parámetros, y la versión de código abierto ofrece una longitud de contexto de 128k (mientras que la web, la aplicación y la API proporcionan un contexto 64K).

DeepSeek-V3

Nuestro potente modelo de IA de uso general con razonamiento excepcional, comprensión y capacidades de generación. Deepseek-V3 sobresale en la resolución compleja de problemas y demuestra un fuerte rendimiento en los dominios técnicos.

Descargar GitHub

Modelos Deepseek-V3

Modelo	Total de parámetros	Parámetros activados	Longitud de contexto	Descargar
DeepSeek-V3-Base	671B	37B	128K	Download
DeepSeek-V3	671B	37B	128K	Download

NOTA

El tamaño total de los modelos Deepseek-V3 en la cara de abrazo es 685B, que incluye 671B de los pesos del modelo principal y 14B de los pesos del módulo de predicción múltiple (MTP).

Para garantizar un rendimiento y flexibilidad óptimos, Deepseek se ha asociado con comunidades de código abierto y proveedores de hardware para proporcionar múltiples formas de ejecutar el modelo localmente. Para obtener orientación paso a paso, consulte la sección "Cómo ejecutar localmente" a continuación.

DeepSeek-R1-0528

El modelo Deepseek R1 ha sufrido una actualización de versión menor, con la versión actual de Deepseek-R1-0528. En la última actualización, Deepseek R1 ha mejorado significativamente su profundidad de razonamiento e capacidades de inferencia al aprovechar los mayores recursos computacionales e introducir mecanismos de optimización algorítmica durante el entrenamiento posterior. El modelo ha demostrado un rendimiento sobresaliente en varias evaluaciones de referencia, incluidas las matemáticas, la programación y la lógica general. Su rendimiento general ahora se acerca al de los modelos principales, como O3 y Gemini 2.5 Pro.

Descargar GitHub

Deepseek-r1-0528 modelos

Modelo	Total de parámetros	Parámetros activados	Longitud de contexto	Descargar
DeepSeek-R1-0528	685B	37B	128K	Download

En comparación con la versión anterior, el modelo actualizado muestra mejoras significativas en el manejo de tareas de razonamiento complejos. Por ejemplo, en la prueba AIME 2025, la precisión del modelo ha aumentado de 70% en la versión anterior a 87.5% en la versión actual. Este avance se deriva de la profundidad de pensamiento mejorada durante el proceso de razonamiento: en el conjunto de pruebas de AIME, el modelo anterior utilizó un promedio de 12k tokens por pregunta, mientras que la nueva versión promedia 23k tokens por pregunta.

DeepSeek-R1

Especializado para tareas de razonamiento avanzado, Deepseek-R1 ofrece un rendimiento sobresaliente en matemáticas, codificación y desafíos de razonamiento lógico. Construido con técnicas de aprendizaje de refuerzo, ofrece habilidades incomparables para resolver problemas.

Descargar GitHub

Deepseek-r1-cero

Modelos Deepseek-R1

Modelo	Total de parámetros	Parámetros activados	Longitud de contexto	Descargar
DeepSeek-R1-Zero	671B	37B	128K	Download
DeepSeek-R1	671B	37B	128K	Download

Los modelos Deepseek-R1-Distill se ajustan en función de los modelos de código abierto, utilizando muestras generadas por Deepseek-R1. Cambiamos ligeramente sus configuraciones y tokenizadores. Utilice nuestra configuración para ejecutar estos modelos.

Modelos Deepseek-R1-Distill

Modelo	Modelo base	Descargar
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	Download
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	Download
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	Download
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	Download
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	Download
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	Download

Cómo ejecutar localmente

Los modelos Deepseek se pueden implementar localmente utilizando varios hardware y software de la comunidad de código abierto.

1. Deplentamiento de Deepseek-V3

Deepseek-v3 se puede implementar localmente utilizando el siguiente hardware y software de comunidad de código abierto:

Deepseek-Infer Demo: Deepseek proporciona una demostración simple y liviana para la inferencia FP8 y BF16.
SGLANG: Apoye plenamente el modelo Deepseek-V3 en los modos de inferencia BF16 y FP8, con una predicción múltiple que llegará pronto.[1 ]
LMDePloy: permite una inferencia eficiente de FP8 y BF16 para la implementación local y en la nube.
Tensorrt-LLM: actualmente admite la inferencia BF16 y la cuantización INT4/8, con el soporte FP8 próximamente.
VLLM: Apoye el modelo Deepseek-V3 con modos FP8 y BF16 para el paralelismo tensor y el paralelismo de la tubería.
AMD GPU: Habilita la ejecución del modelo Deepseek-V3 en AMD GPU a través de SGLANG en los modos BF16 y FP8.
Huawei Ascend NPU: Admite la ejecución de Deepseek-V3 en los dispositivos Huawei Ascend.

Dado que la capacitación FP8 se adopta de forma nativa en nuestro marco, solo proporcionamos pesos FP8. Si necesita pesos BF16 para la experimentación, puede usar el script de conversión proporcionado para realizar la transformación.

Aquí hay un ejemplo de conversión de pesos FP8 a BF16:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

NOTA

Hacer los transformadores de abrazos de Face aún no se ha apoyado directamente.

1.1 Inferencia con Deepseek-Infer demostración (solo ejemplo)

Requisitos del sistema

NOTA

Linux con Python 3.10 solamente. Mac y Windows no son compatibles.

Dependencias:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5

Pesas de modelos

Primero, clone el repositorio de GitHub Deepseek-V3:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

Navegue a la carpeta `inferencia` e instale dependencias enumeradas en` requisitos.txt`. La forma más fácil es usar un administrador de paquetes como `conda` o` UV` para crear un nuevo entorno virtual e instalar las dependencias.

cd DeepSeek-V3/inference
pip install -r requirements.txt

Descargue los pesos del modelo de la cara abrazada y póngalas en la carpeta `/Path/to/Deepseek-V3`.

Conversión de pesas de modelo

Convertir pesos del modelo de cara de abrazo a un formato específico:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

Correr

Entonces puedes chatear con Deepseek-V3:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

O inferencia por lotes en un archivo determinado:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Inferencia con Sglang (recomendado)

SGLang Actualmente, SGLANG admite Optimizaciones MLA, Atención DP, FP8 (W8A8), caché FP8 KV y compilación de antorcha, que ofrece latencia de última generación y rendimiento de rendimiento entre marcos de código abierto.[1 ][2 ][3 ]

En particular, Sglang V0.4.1 admite completamente la ejecución de Deepseek-V3 en NVIDIA y AMD GPU, lo que lo convierte en una solución altamente versátil y robusta.[1 ]

SGLANG también admite el paralelismo del tensor de nodos múltiples, lo que le permite ejecutar este modelo en múltiples máquinas conectadas a la red.[1 ]

La predicción múltiple (MTP) está en desarrollo, y el progreso se puede rastrear en el plan de optimización.[1 ]

Aquí están las instrucciones de lanzamiento del equipo de Sglang:[1 ]

1.3 Inferencia con LMDePloy (recomendado)

LMDeploy LMDeploy, una inferencia flexible y de alto rendimiento y un marco de servicio adaptado para modelos de idiomas grandes, ahora admite Deepseek-V3. Ofrece el procesamiento de tuberías fuera de línea y las capacidades de implementación en línea, integrándose sin problemas con los flujos de trabajo basados en Pytorch.[1 ]

Para obtener instrucciones completas paso a paso sobre la ejecución de Deepseek-V3 con LMDePloy, consulte aquí:[1 ]

1.4 Inferencia con TRT-LLM (recomendado)

TensorRT-LLM Tensorrt-LLM ahora admite el modelo Deepseek-V3, ofreciendo opciones de precisión como BF16 e Int4/Int8 Peavone-Pealle. El soporte para FP8 está actualmente en progreso y se lanzará pronto. Puede acceder a la rama personalizada de TRTLLM específicamente para el soporte Deepseek-V3 a través del siguiente enlace para experimentar las nuevas funciones directamente:[1 ][2 ]

1.5 Inferencia con VLLM (recomendado)

vLLM VLLM V0.6.6 admite la inferencia de Deepseek-V3 para los modos FP8 y BF16 en las GPU NVIDIA y AMD. Además de las técnicas estándar, VLLM ofrece paralelismo de tuberías que le permite ejecutar este modelo en múltiples máquinas conectadas por redes. Para una guía detallada, consulte las instrucciones de VLLM. No dude en seguir el plan de mejora también.[1 ][2 ][3 ]

1.6 Funcionalidad de inferencia recomendada con AMD GPU

En colaboración con el equipo de AMD, Deepseek ha logrado el apoyo del día uno para las GPU AMD utilizando SGLANG, con una compatibilidad total para la precisión FP8 y BF16. Para una guía detallada, consulte las instrucciones de SGLANG.[1 ]

1.7 Funcionalidad de inferencia recomendada con Huawei Ascend NPUS

El marco Mindie de la comunidad Huawei Ascend ha adaptado con éxito la versión BF16 de Deepseek-V3. Para una guía paso a paso sobre ASCEND NPUS, siga las instrucciones aquí.[1 ][2 ]

2. Despliegue de Deepseek-R1

2.1 modelos Deepseek-R1

Visite la sección de implementación Deepseek-V3 anterior para obtener más información sobre la ejecución de Deepseek-R1 localmente.

NOTA

Hacer los transformadores de abrazos de Face aún no se ha apoyado directamente.

2.2 Modelos Deepseek-R1-Distill

Los modelos Deepseek-R1-Distill se pueden utilizar de la misma manera que los modelos Qwen o Llama.

Por ejemplo, puede iniciar fácilmente un servicio usando VLLM:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

También puede iniciar fácilmente un servicio usando SGLANG:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 Recomendaciones de uso

Recomendamos cumplir con las siguientes configuraciones al utilizar los modelos de la serie Deepseek-R1, incluida la evaluación comparativa, para lograr el rendimiento esperado:

Establezca la temperatura dentro del rango de 0.5-0.7 (se recomienda 0.6) para evitar repeticiones interminables o salidas incoherentes.
Evite agregar un mensaje del sistema; Todas las instrucciones deben estar contenidas dentro del indicador del usuario.
Para problemas matemáticos, es aconsejable incluir una directiva en su mensaje, tales como: "Por favor, razón paso a paso y coloque su respuesta final dentro de Boxed".
Al evaluar el rendimiento del modelo, se recomienda realizar múltiples pruebas y promediar los resultados.

Además, hemos observado que los modelos de la serie Deepseek-R1 tienden a evitar el patrón de pensamiento (es decir, emitir <miend> </lek>) al responder a ciertas consultas, lo que puede afectar negativamente el rendimiento del modelo.Para garantizar que el modelo se involucre en un razonamiento exhaustivo, recomendamos hacer cumplir el modelo para iniciar su respuesta con <Think> </Think> al comienzo de cada salida.

3. Deepseek-v3-0324 despliegue

Deepseek-V3-0324 utiliza el mismo modelo base que el anterior Deepseek-V3, con solo mejoras en los métodos posteriores a la capacitación. Para la implementación privada, solo necesita actualizar el punto de control y tokenizer_config.json (cambios relacionados con las llamadas de herramientas).

Las opciones de implementación y los marcos para Deepseek-V3-0324 son idénticos a las de Deepseek-V3 descritos en la Sección 1. Todos los mismos kits de herramientas (Sglang, LMDePloy, Tensorrt-LLM, VLLM) admiten Deepseek-V3-0324 con las mismas opciones de configuración.

Información de licencia

Información sobre las licencias bajo las cuales se lanzan modelos Deepseek

Deepseek-v3-0324

Licencia de MIT

De acuerdo con Deepseek-R1, nuestro repositorio de código abierto (incluidos los pesos del modelo) adopta de manera uniforme la licencia MIT, y permite a los usuarios aprovechar las salidas del modelo y los métodos de destilación para capacitar a otros modelos.

Ver licencia

Deepseek-v3

Licencia de MIT

Este repositorio de código tiene licencia bajo la licencia MIT. El uso de modelos de base/chat Deepseek-V3 está sujeto a la licencia de modelo. Deepseek-V3 Series (incluida la base y el chat) admite el uso comercial.

Ver licencia

Deepseek-r1

Licencia de MIT

Este repositorio de código y los pesos del modelo tienen licencia bajo la licencia MIT. La serie Deepseek-R1 admite el uso comercial, permite modificaciones y trabajos derivados, incluidos, entre otros, la destilación para capacitar a otros LLM. Tenga en cuenta que modelos como Deepseek-R1-Distill-Qwen y Deepseek-R1-Distill-Llama se derivan de sus respectivos modelos base con sus licencias originales.

Ver licencia

Descargo de responsabilidad

Los modelos Deepseek se proporcionan "tal cual" sin ninguna garantía expresa o implícita. Los usuarios deben usar los modelos bajo su propio riesgo y garantizar el cumplimiento de las leyes y regulaciones relevantes. Deepseek no es responsable de los daños resultantes del uso de estos modelos.