Acesse os modelos de AI de última geração da Deepseek para implantação e integração local em seus aplicativos.
Escolha entre nossa gama de modelos poderosos de IA adaptados para diferentes casos de uso.
A versão mais recente do nosso modelo principal, com recursos aprimorados de raciocínio e suporte multilíngue aprimorado. Lançado em 24 de março de 2025, este modelo representa nosso sistema de IA mais avançado com desempenho superior em uma ampla gama de tarefas.
Modelo | Total Params | Params ativados | Comprimento do contexto | Download |
---|---|---|---|---|
DeepSeek-V3-0324 | 660B | 37B | 128K | Download |
Deepseek-V3-0324 usa o mesmo modelo básico do Deepseek-V3 anterior, com apenas melhorias nos métodos pós-treinamento. Para implantação privada, você só precisa atualizar o ponto de verificação e o tokenizer_config.json (alterações relacionadas às chamadas de ferramentas). O modelo possui aproximadamente 660b parâmetros e a versão de código aberto oferece um comprimento de contexto de 128k (enquanto a Web, o aplicativo e a API fornecem contexto 64K).
Nosso poderoso modelo de IA de uso geral com recursos excepcionais de raciocínio, compreensão e geração. Deepseek-V3 se destaca na solução complexa de problemas e demonstra um forte desempenho em domínios técnicos.
OBSERVAÇÃO
O tamanho total dos modelos DeepSeek-V3 na face abraça é 685b, que inclui 671b dos pesos principais do modelo e 14b da previsão de vários toques (MTP) pesos.
Para garantir o desempenho e a flexibilidade ideais, a DeepSeek fez parceria com comunidades de código aberto e fornecedores de hardware para fornecer várias maneiras de executar o modelo localmente. Para obter orientações passo a passo, consulte a seção "Como executar localmente" abaixo.
Especializado para tarefas avançadas de raciocínio, o Deepseek-R1 oferece excelente desempenho em matemática, codificação e desafios de raciocínio lógico. Construído com técnicas de aprendizado de reforço, oferece habilidades incomparáveis de solução de problemas.
Deepseek-r1-zero
Os modelos Deepseek-R1-Distill são ajustados com base em modelos de código aberto, usando amostras geradas pelo Deepseek-R1. Mudamos ligeiramente suas configurações e tokenizadores. Por favor, use nossa configuração para executar esses modelos.
Modelo | Modelo base | Download |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | Download |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | Download |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | Download |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | Download |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | Download |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | Download |
Os modelos Deepseek podem ser implantados localmente usando vários softwares comunitários de hardware e código aberto.
Deepseek-V3 pode ser implantado localmente usando o seguinte software de hardware e código aberto:
Como o treinamento FP8 é adotado nativamente em nossa estrutura, fornecemos apenas pesos FP8. Se você precisar de pesos BF16 para experimentação, poderá usar o script de conversão fornecido para executar a transformação.
Aqui está um exemplo de conversão de pesos FP8 em BF16:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
OBSERVAÇÃO
Abraçar os transformadores do rosto ainda não foi diretamente apoiado.
OBSERVAÇÃO
Linux apenas com Python 3.10. Mac e Windows não são suportados.
Dependências:
torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
Primeiro, clone o repositório Github Deepseek-V3:
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
Navegue até a pasta `inference` e instale dependências listadas em` requisitos.txt`. A maneira mais fácil é usar um gerenciador de pacotes como `conda` ou` uv` para criar um novo ambiente virtual e instalar as dependências.
cd DeepSeek-V3/inference
pip install -r requirements.txt
Faça o download dos pesos do modelo de Hugging Face e coloque-os na pasta `/Path/para/Deepseek-V3`.
Converta os pesos do modelo de rosto de abraço em um formato específico:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
Então você pode conversar com Deepseek-V3:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200
Ou inferência em lote em um determinado arquivo:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE
SGLang Atualmente, o SGLANG suporta otimizações do MLA, Atenção de DP, FP8 (W8A8), cache FP8 KV e compilação da tocha, oferecendo desempenho de latência e rendimento de última geração entre as estruturas de código aberto.[1 ][2 ][3 ]
Notavelmente, o SGLANG V0.4.1 suporta totalmente a execução do DeepSeek-V3 nas GPUs NVIDIA e AMD, tornando-a uma solução altamente versátil e robusta.[1 ]
O SGLANG também suporta paralelismo de tensor de vários nós, permitindo que você execute esse modelo em várias máquinas conectadas à rede.[1 ]
A previsão de vários toques (MTP) está em desenvolvimento e o progresso pode ser rastreado no plano de otimização.[1 ]
Aqui estão as instruções de lançamento da equipe SGLANG:[1 ]
LMDeploy O LMDeploy, uma estrutura de inferência e serviço flexível e de alto desempenho, adaptada para modelos de idiomas grandes, agora suporta Deepseek-V3. Ele oferece recursos offline de processamento de pipeline e de implantação on-line, integrando-se perfeitamente aos fluxos de trabalho baseados em Pytorch.[1 ]
Para obter instruções passo a passo abrangentes sobre a execução do DeepSeek-V3 com o LMDEPLAPE, consulte aqui:[1 ]
TensorRT-LLM O Tensorrt-llm agora suporta o modelo Deepseek-V3, oferecendo opções de precisão como BF16 e INT4/INT8 somente peso. O suporte ao FP8 está atualmente em andamento e será lançado em breve. Você pode acessar a filial personalizada do TRTLLM especificamente para suporte do Deepseek-V3 através do link a seguir para experimentar os novos recursos diretamente:[1 ][2 ]
vLLM O VLLM v0.6.6 suporta a inferência Deepseek-V3 para os modos FP8 e BF16 nas GPUs NVIDIA e AMD. Além das técnicas padrão, o VLLM oferece o paralelismo do pipeline, permitindo que você execute esse modelo em várias máquinas conectadas pelas redes. Para orientação detalhada, consulte as instruções VLLM. Sinta -se à vontade para seguir o plano de aprimoramento também.[1 ][2 ][3 ]
Em colaboração com a equipe da AMD, a Deepseek alcançou o suporte diurno para as GPUs da AMD usando SGLANG, com total compatibilidade para a precisão FP8 e BF16. Para orientação detalhada, consulte as instruções do SGLANG.[1 ]
A estrutura Mindie da comunidade Huawei Ascend adaptou com sucesso a versão BF16 do Deepseek-V3. Para orientações passo a passo sobre as NPUs Ascend, siga as instruções aqui.[1 ][2 ]
Visite a seção de implantação Deepseek-V3 acima para obter mais informações sobre a execução do Deepseek-R1 localmente.
OBSERVAÇÃO
Abraçar os transformadores do rosto ainda não foi diretamente apoiado.
Os modelos Deepseek-R1-Distill podem ser utilizados da mesma maneira que os modelos Qwen ou Llama.
Por exemplo, você pode iniciar um serviço facilmente usando VLLM:[1 ]
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
Você também pode iniciar um serviço facilmente usando o SGLANG:[1 ]
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
Recomendamos aderir às seguintes configurações ao utilizar os modelos da série Deepseek-R1, incluindo o benchmarking, para alcançar o desempenho esperado:
Além disso, observamos que os modelos da série DeepSeek-R1 tendem a ignorar o padrão de pensamento (ou seja, a saída <ninink> </nink>) ao responder a certas consultas, que podem afetar adversamente o desempenho do modelo.Para garantir que o modelo se envolva em um raciocínio completo, recomendamos a aplicação do modelo para iniciar sua resposta com <ninink> </nink> no início de todas as saídas.
Deepseek-V3-0324 usa o mesmo modelo básico do Deepseek-V3 anterior, com apenas melhorias nos métodos pós-treinamento. Para implantação privada, você só precisa atualizar o ponto de verificação e o tokenizer_config.json (alterações relacionadas às chamadas de ferramentas).
As opções de implantação e estruturas para DeepSeek-V3-0324 são idênticas às do DeepSeek-V3 descritas na Seção 1. Todos os mesmos kits de ferramentas (SGLANG, LMDEPLOW, TENSORRT-LLM, VLLM) suportam Deepseek-V3-0324 com as mesmas opções de configuração.
Informações sobre as licenças sob as quais os modelos Deepseek são lançados
Consistente com o Deepseek-R1, nosso repositório de código aberto (incluindo pesos do modelo) adota uniformemente a licença do MIT e permite que os usuários aproveitem os saídas e métodos de destilação do modelo para treinar outros modelos.
Visualizar licençaEste repositório de código está licenciado sob a licença do MIT. O uso de modelos de base/bate-papo Deepseek-V3 está sujeito à licença do modelo. A série Deepseek-V3 (incluindo base e bate-papo) suporta uso comercial.
Visualizar licençaEste repositório de código e os pesos do modelo são licenciados sob a licença do MIT. A série Deepseek-R1 suporta o uso comercial, permite modificações e obras derivadas, incluindo, entre outros, destilação para o treinamento de outros LLMs. Observe que modelos como Deepseek-R1-Distill-Qwen e Deepseek-R1-Distill-Llama são derivados de seus respectivos modelos básicos com suas licenças originais.
Visualizar licençaOs modelos Deepseek são fornecidos "como está" sem garantias expressas ou implícitas. Os usuários devem usar os modelos por seu próprio risco e garantir a conformidade com as leis e regulamentos relevantes. O Deepseek não é responsável por quaisquer danos resultantes do uso desses modelos.