Descargar modelos de Deepseek AI

Acceda a los modelos AI de vanguardia de Deepseek para la implementación local e integración en sus aplicaciones.

Modelos disponibles

Elija entre nuestra gama de potentes modelos de IA adaptados para diferentes casos de uso.

DeepSeek-V3-0324

La última versión de nuestro modelo insignia, con capacidades de razonamiento mejoradas y soporte multilingüe mejorado. Lanzado el 24 de marzo de 2025, este modelo representa nuestro sistema de IA más avanzado con un rendimiento superior en una amplia gama de tareas.

Deepseek-v3-0324 modelos

ModeloTotal de parámetrosParámetros activadosLongitud de contextoDescargar
DeepSeek-V3-0324660B37B128KDownload

Deepseek-V3-0324 utiliza el mismo modelo base que el anterior Deepseek-V3, con solo mejoras en los métodos posteriores a la capacitación. Para la implementación privada, solo necesita actualizar el punto de control y tokenizer_config.json (cambios relacionados con las llamadas de herramientas). El modelo tiene aproximadamente 660b parámetros, y la versión de código abierto ofrece una longitud de contexto de 128k (mientras que la web, la aplicación y la API proporcionan un contexto 64K).

Cómo ejecutar localmente

Los modelos Deepseek se pueden implementar localmente utilizando varios hardware y software de la comunidad de código abierto.

1. Deplentamiento de Deepseek-V3

Deepseek-v3 se puede implementar localmente utilizando el siguiente hardware y software de comunidad de código abierto:

  1. Deepseek-Infer Demo: Deepseek proporciona una demostración simple y liviana para la inferencia FP8 y BF16.
  2. SGLANG: Apoye plenamente el modelo Deepseek-V3 en los modos de inferencia BF16 y FP8, con una predicción múltiple que llegará pronto.[1 ]
  3. LMDePloy: permite una inferencia eficiente de FP8 y BF16 para la implementación local y en la nube.
  4. Tensorrt-LLM: actualmente admite la inferencia BF16 y la cuantización INT4/8, con el soporte FP8 próximamente.
  5. VLLM: Apoye el modelo Deepseek-V3 con modos FP8 y BF16 para el paralelismo tensor y el paralelismo de la tubería.
  6. AMD GPU: Habilita la ejecución del modelo Deepseek-V3 en AMD GPU a través de SGLANG en los modos BF16 y FP8.
  7. Huawei Ascend NPU: Admite la ejecución de Deepseek-V3 en los dispositivos Huawei Ascend.

Dado que la capacitación FP8 se adopta de forma nativa en nuestro marco, solo proporcionamos pesos FP8. Si necesita pesos BF16 para la experimentación, puede usar el script de conversión proporcionado para realizar la transformación.

Aquí hay un ejemplo de conversión de pesos FP8 a BF16:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

NOTA

Hacer los transformadores de abrazos de Face aún no se ha apoyado directamente.

1.1 Inferencia con Deepseek-Infer demostración (solo ejemplo)

Requisitos del sistema

NOTA

Linux con Python 3.10 solamente. Mac y Windows no son compatibles.

Dependencias:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
Pesas de modelos

Primero, clone el repositorio de GitHub Deepseek-V3:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

Navegue a la carpeta `inferencia` e instale dependencias enumeradas en` requisitos.txt`. La forma más fácil es usar un administrador de paquetes como `conda` o` UV` para crear un nuevo entorno virtual e instalar las dependencias.

cd DeepSeek-V3/inference
pip install -r requirements.txt

Descargue los pesos del modelo de la cara abrazada y póngalas en la carpeta `/Path/to/Deepseek-V3`.

Conversión de pesas de modelo

Convertir pesos del modelo de cara de abrazo a un formato específico:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
Correr

Entonces puedes chatear con Deepseek-V3:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

O inferencia por lotes en un archivo determinado:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Inferencia con Sglang (recomendado)

SGLang Actualmente, SGLANG admite Optimizaciones MLA, Atención DP, FP8 (W8A8), caché FP8 KV y compilación de antorcha, que ofrece latencia de última generación y rendimiento de rendimiento entre marcos de código abierto.[1 ][2 ][3 ]

En particular, Sglang V0.4.1 admite completamente la ejecución de Deepseek-V3 en NVIDIA y AMD GPU, lo que lo convierte en una solución altamente versátil y robusta.[1 ]

SGLANG también admite el paralelismo del tensor de nodos múltiples, lo que le permite ejecutar este modelo en múltiples máquinas conectadas a la red.[1 ]

La predicción múltiple (MTP) está en desarrollo, y el progreso se puede rastrear en el plan de optimización.[1 ]

Aquí están las instrucciones de lanzamiento del equipo de Sglang:[1 ]

1.3 Inferencia con LMDePloy (recomendado)

LMDeploy LMDeploy, una inferencia flexible y de alto rendimiento y un marco de servicio adaptado para modelos de idiomas grandes, ahora admite Deepseek-V3. Ofrece el procesamiento de tuberías fuera de línea y las capacidades de implementación en línea, integrándose sin problemas con los flujos de trabajo basados ​​en Pytorch.[1 ]

Para obtener instrucciones completas paso a paso sobre la ejecución de Deepseek-V3 con LMDePloy, consulte aquí:[1 ]

1.4 Inferencia con TRT-LLM (recomendado)

TensorRT-LLM Tensorrt-LLM ahora admite el modelo Deepseek-V3, ofreciendo opciones de precisión como BF16 e Int4/Int8 Peavone-Pealle. El soporte para FP8 está actualmente en progreso y se lanzará pronto. Puede acceder a la rama personalizada de TRTLLM específicamente para el soporte Deepseek-V3 a través del siguiente enlace para experimentar las nuevas funciones directamente:[1 ][2 ]

1.5 Inferencia con VLLM (recomendado)

vLLM VLLM V0.6.6 admite la inferencia de Deepseek-V3 para los modos FP8 y BF16 en las GPU NVIDIA y AMD. Además de las técnicas estándar, VLLM ofrece paralelismo de tuberías que le permite ejecutar este modelo en múltiples máquinas conectadas por redes. Para una guía detallada, consulte las instrucciones de VLLM. No dude en seguir el plan de mejora también.[1 ][2 ][3 ]

1.6 Funcionalidad de inferencia recomendada con AMD GPU

En colaboración con el equipo de AMD, Deepseek ha logrado el apoyo del día uno para las GPU AMD utilizando SGLANG, con una compatibilidad total para la precisión FP8 y BF16. Para una guía detallada, consulte las instrucciones de SGLANG.[1 ]

1.7 Funcionalidad de inferencia recomendada con Huawei Ascend NPUS

El marco Mindie de la comunidad Huawei Ascend ha adaptado con éxito la versión BF16 de Deepseek-V3. Para una guía paso a paso sobre ASCEND NPUS, siga las instrucciones aquí.[1 ][2 ]

2. Despliegue de Deepseek-R1

2.1 modelos Deepseek-R1

Visite la sección de implementación Deepseek-V3 anterior para obtener más información sobre la ejecución de Deepseek-R1 localmente.

NOTA

Hacer los transformadores de abrazos de Face aún no se ha apoyado directamente.

2.2 Modelos Deepseek-R1-Distill

Los modelos Deepseek-R1-Distill se pueden utilizar de la misma manera que los modelos Qwen o Llama.

Por ejemplo, puede iniciar fácilmente un servicio usando VLLM:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

También puede iniciar fácilmente un servicio usando SGLANG:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 Recomendaciones de uso

Recomendamos cumplir con las siguientes configuraciones al utilizar los modelos de la serie Deepseek-R1, incluida la evaluación comparativa, para lograr el rendimiento esperado:

  1. Establezca la temperatura dentro del rango de 0.5-0.7 (se recomienda 0.6) para evitar repeticiones interminables o salidas incoherentes.
  2. Evite agregar un mensaje del sistema; Todas las instrucciones deben estar contenidas dentro del indicador del usuario.
  3. Para problemas matemáticos, es aconsejable incluir una directiva en su mensaje, tales como: "Por favor, razón paso a paso y coloque su respuesta final dentro de Boxed".
  4. Al evaluar el rendimiento del modelo, se recomienda realizar múltiples pruebas y promediar los resultados.

Además, hemos observado que los modelos de la serie Deepseek-R1 tienden a evitar el patrón de pensamiento (es decir, emitir <miend> </lek>) al responder a ciertas consultas, lo que puede afectar negativamente el rendimiento del modelo.Para garantizar que el modelo se involucre en un razonamiento exhaustivo, recomendamos hacer cumplir el modelo para iniciar su respuesta con <Think> </Think> al comienzo de cada salida.

3. Deepseek-v3-0324 despliegue

Deepseek-V3-0324 utiliza el mismo modelo base que el anterior Deepseek-V3, con solo mejoras en los métodos posteriores a la capacitación. Para la implementación privada, solo necesita actualizar el punto de control y tokenizer_config.json (cambios relacionados con las llamadas de herramientas).

Las opciones de implementación y los marcos para Deepseek-V3-0324 son idénticos a las de Deepseek-V3 descritos en la Sección 1. Todos los mismos kits de herramientas (Sglang, LMDePloy, Tensorrt-LLM, VLLM) admiten Deepseek-V3-0324 con las mismas opciones de configuración.

Información de licencia

Información sobre las licencias bajo las cuales se lanzan modelos Deepseek

Deepseek-v3-0324

Licencia de MIT

De acuerdo con Deepseek-R1, nuestro repositorio de código abierto (incluidos los pesos del modelo) adopta de manera uniforme la licencia MIT, y permite a los usuarios aprovechar las salidas del modelo y los métodos de destilación para capacitar a otros modelos.

Ver licencia

Deepseek-v3

Licencia de MIT

Este repositorio de código tiene licencia bajo la licencia MIT. El uso de modelos de base/chat Deepseek-V3 está sujeto a la licencia de modelo. Deepseek-V3 Series (incluida la base y el chat) admite el uso comercial.

Ver licencia

Deepseek-r1

Licencia de MIT

Este repositorio de código y los pesos del modelo tienen licencia bajo la licencia MIT. La serie Deepseek-R1 admite el uso comercial, permite modificaciones y trabajos derivados, incluidos, entre otros, la destilación para capacitar a otros LLM. Tenga en cuenta que modelos como Deepseek-R1-Distill-Qwen y Deepseek-R1-Distill-Llama se derivan de sus respectivos modelos base con sus licencias originales.

Ver licencia

Descargo de responsabilidad

Los modelos Deepseek se proporcionan "tal cual" sin ninguna garantía expresa o implícita. Los usuarios deben usar los modelos bajo su propio riesgo y garantizar el cumplimiento de las leyes y regulaciones relevantes. Deepseek no es responsable de los daños resultantes del uso de estos modelos.