Baixe os modelos Deepseek AI

Acesse os modelos de AI de última geração da Deepseek para implantação e integração local em seus aplicativos.

Modelos disponíveis

Escolha entre nossa gama de modelos poderosos de IA adaptados para diferentes casos de uso.

DeepSeek-V3-0324

A versão mais recente do nosso modelo principal, com recursos aprimorados de raciocínio e suporte multilíngue aprimorado. Lançado em 24 de março de 2025, este modelo representa nosso sistema de IA mais avançado com desempenho superior em uma ampla gama de tarefas.

Modelos Deepseek-V3-0324

ModeloTotal ParamsParams ativadosComprimento do contextoDownload
DeepSeek-V3-0324660B37B128KDownload

Deepseek-V3-0324 usa o mesmo modelo básico do Deepseek-V3 anterior, com apenas melhorias nos métodos pós-treinamento. Para implantação privada, você só precisa atualizar o ponto de verificação e o tokenizer_config.json (alterações relacionadas às chamadas de ferramentas). O modelo possui aproximadamente 660b parâmetros e a versão de código aberto oferece um comprimento de contexto de 128k (enquanto a Web, o aplicativo e a API fornecem contexto 64K).

Como correr localmente

Os modelos Deepseek podem ser implantados localmente usando vários softwares comunitários de hardware e código aberto.

1. Destacamento Deepseek-V3

Deepseek-V3 pode ser implantado localmente usando o seguinte software de hardware e código aberto:

  1. Demonstração de invas de Deepseek: Deepseek fornece uma demonstração simples e leve para a inferência FP8 e BF16.
  2. SGLANG: Apoie totalmente o modelo Deepseek-V3 nos modos de inferência BF16 e FP8, com previsão de vários toques em breve.[1 ]
  3. LMDEploy: Ativa a inferência eficiente de FP8 e BF16 para implantação local e em nuvem.
  4. Tensorrt-llm: Atualmente, suporta a inferência BF16 e a quantização INT4/8, com o suporte FP8 em breve.
  5. VLLM: Suporte o modelo Deepseek-V3 com os modos FP8 e BF16 para paralelismo tensorial e paralelismo de pipeline.
  6. AMD GPU: Permite executar o modelo Deepseek-V3 nas GPUs AMD via SGLANG nos modos BF16 e FP8.
  7. Huawei Ascend NPU: suporta a execução do Deepseek-V3 nos dispositivos Huawei Ascend.

Como o treinamento FP8 é adotado nativamente em nossa estrutura, fornecemos apenas pesos FP8. Se você precisar de pesos BF16 para experimentação, poderá usar o script de conversão fornecido para executar a transformação.

Aqui está um exemplo de conversão de pesos FP8 em BF16:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

OBSERVAÇÃO

Abraçar os transformadores do rosto ainda não foi diretamente apoiado.

1.1 Inferência com a demonstração de invasão Deepseek (somente exemplo)

Requisitos do sistema

OBSERVAÇÃO

Linux apenas com Python 3.10. Mac e Windows não são suportados.

Dependências:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
Pesos do modelo

Primeiro, clone o repositório Github Deepseek-V3:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

Navegue até a pasta `inference` e instale dependências listadas em` requisitos.txt`. A maneira mais fácil é usar um gerenciador de pacotes como `conda` ou` uv` para criar um novo ambiente virtual e instalar as dependências.

cd DeepSeek-V3/inference
pip install -r requirements.txt

Faça o download dos pesos do modelo de Hugging Face e coloque-os na pasta `/Path/para/Deepseek-V3`.

Modelo pesam conversão

Converta os pesos do modelo de rosto de abraço em um formato específico:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
Correr

Então você pode conversar com Deepseek-V3:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

Ou inferência em lote em um determinado arquivo:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Inferência com SGlang (recomendado)

SGLang Atualmente, o SGLANG suporta otimizações do MLA, Atenção de DP, FP8 (W8A8), cache FP8 KV e compilação da tocha, oferecendo desempenho de latência e rendimento de última geração entre as estruturas de código aberto.[1 ][2 ][3 ]

Notavelmente, o SGLANG V0.4.1 suporta totalmente a execução do DeepSeek-V3 nas GPUs NVIDIA e AMD, tornando-a uma solução altamente versátil e robusta.[1 ]

O SGLANG também suporta paralelismo de tensor de vários nós, permitindo que você execute esse modelo em várias máquinas conectadas à rede.[1 ]

A previsão de vários toques (MTP) está em desenvolvimento e o progresso pode ser rastreado no plano de otimização.[1 ]

Aqui estão as instruções de lançamento da equipe SGLANG:[1 ]

1.3 Inferência no LMDeploy (recomendado)

LMDeploy O LMDeploy, uma estrutura de inferência e serviço flexível e de alto desempenho, adaptada para modelos de idiomas grandes, agora suporta Deepseek-V3. Ele oferece recursos offline de processamento de pipeline e de implantação on-line, integrando-se perfeitamente aos fluxos de trabalho baseados em Pytorch.[1 ]

Para obter instruções passo a passo abrangentes sobre a execução do DeepSeek-V3 com o LMDEPLAPE, consulte aqui:[1 ]

1.4 Inferência com TRT-LLM (recomendado)

TensorRT-LLM O Tensorrt-llm agora suporta o modelo Deepseek-V3, oferecendo opções de precisão como BF16 e INT4/INT8 somente peso. O suporte ao FP8 está atualmente em andamento e será lançado em breve. Você pode acessar a filial personalizada do TRTLLM especificamente para suporte do Deepseek-V3 através do link a seguir para experimentar os novos recursos diretamente:[1 ][2 ]

1.5 Inferência com VLLM (recomendado)

vLLM O VLLM v0.6.6 suporta a inferência Deepseek-V3 para os modos FP8 e BF16 nas GPUs NVIDIA e AMD. Além das técnicas padrão, o VLLM oferece o paralelismo do pipeline, permitindo que você execute esse modelo em várias máquinas conectadas pelas redes. Para orientação detalhada, consulte as instruções VLLM. Sinta -se à vontade para seguir o plano de aprimoramento também.[1 ][2 ][3 ]

1.6 Funcionalidade de inferência recomendada com GPUs AMD

Em colaboração com a equipe da AMD, a Deepseek alcançou o suporte diurno para as GPUs da AMD usando SGLANG, com total compatibilidade para a precisão FP8 e BF16. Para orientação detalhada, consulte as instruções do SGLANG.[1 ]

1.7 Funcionalidade de inferência recomendada com Huawei Ascend NPUS

A estrutura Mindie da comunidade Huawei Ascend adaptou com sucesso a versão BF16 do Deepseek-V3. Para orientações passo a passo sobre as NPUs Ascend, siga as instruções aqui.[1 ][2 ]

2. Desepção de Deepseek-R1

2.1 Modelos Deepseek-R1

Visite a seção de implantação Deepseek-V3 acima para obter mais informações sobre a execução do Deepseek-R1 localmente.

OBSERVAÇÃO

Abraçar os transformadores do rosto ainda não foi diretamente apoiado.

2.2 Modelos Deepseek-R1-Distill

Os modelos Deepseek-R1-Distill podem ser utilizados da mesma maneira que os modelos Qwen ou Llama.

Por exemplo, você pode iniciar um serviço facilmente usando VLLM:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

Você também pode iniciar um serviço facilmente usando o SGLANG:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 Recomendações de uso

Recomendamos aderir às seguintes configurações ao utilizar os modelos da série Deepseek-R1, incluindo o benchmarking, para alcançar o desempenho esperado:

  1. Defina a temperatura dentro da faixa de 0,5-0,7 (é recomendada 0,6) para evitar repetições sem fim ou saídas incoerentes.
  2. Evite adicionar um prompt do sistema; Todas as instruções devem estar contidas no prompt do usuário.
  3. Para problemas matemáticos, é aconselhável incluir uma diretiva em seu aviso, como: 'Por favor, raciocine passo a passo e coloque sua resposta final dentro da caixa'.
  4. Ao avaliar o desempenho do modelo, é recomendável realizar vários testes e calcular os resultados.

Além disso, observamos que os modelos da série DeepSeek-R1 tendem a ignorar o padrão de pensamento (ou seja, a saída <ninink> </nink>) ao responder a certas consultas, que podem afetar adversamente o desempenho do modelo.Para garantir que o modelo se envolva em um raciocínio completo, recomendamos a aplicação do modelo para iniciar sua resposta com <ninink> </nink> no início de todas as saídas.

3. Deseption-V3-0324 Implantação

Deepseek-V3-0324 usa o mesmo modelo básico do Deepseek-V3 anterior, com apenas melhorias nos métodos pós-treinamento. Para implantação privada, você só precisa atualizar o ponto de verificação e o tokenizer_config.json (alterações relacionadas às chamadas de ferramentas).

As opções de implantação e estruturas para DeepSeek-V3-0324 são idênticas às do DeepSeek-V3 descritas na Seção 1. Todos os mesmos kits de ferramentas (SGLANG, LMDEPLOW, TENSORRT-LLM, VLLM) suportam Deepseek-V3-0324 com as mesmas opções de configuração.

Informações de licença

Informações sobre as licenças sob as quais os modelos Deepseek são lançados

Deepseek-V3-0324

MIT Licença

Consistente com o Deepseek-R1, nosso repositório de código aberto (incluindo pesos do modelo) adota uniformemente a licença do MIT e permite que os usuários aproveitem os saídas e métodos de destilação do modelo para treinar outros modelos.

Visualizar licença

Deepseek-V3

MIT Licença

Este repositório de código está licenciado sob a licença do MIT. O uso de modelos de base/bate-papo Deepseek-V3 está sujeito à licença do modelo. A série Deepseek-V3 (incluindo base e bate-papo) suporta uso comercial.

Visualizar licença

Deepseek-r1

MIT Licença

Este repositório de código e os pesos do modelo são licenciados sob a licença do MIT. A série Deepseek-R1 suporta o uso comercial, permite modificações e obras derivadas, incluindo, entre outros, destilação para o treinamento de outros LLMs. Observe que modelos como Deepseek-R1-Distill-Qwen e Deepseek-R1-Distill-Llama são derivados de seus respectivos modelos básicos com suas licenças originais.

Visualizar licença

Isenção de responsabilidade

Os modelos Deepseek são fornecidos "como está" sem garantias expressas ou implícitas. Os usuários devem usar os modelos por seu próprio risco e garantir a conformidade com as leis e regulamentos relevantes. O Deepseek não é responsável por quaisquer danos resultantes do uso desses modelos.