Accedi ai modelli di intelligenza artificiale all'avanguardia di DeepSeek per l'implementazione e l'integrazione locali nelle applicazioni.
Scegli dalla nostra gamma di potenti modelli AI su misura per diversi casi d'uso.
L'ultima versione del nostro modello di punta, con funzionalità di ragionamento migliorate e un miglioramento del supporto multilingue. Rilasciato il 24 marzo 2025, questo modello rappresenta il nostro sistema AI più avanzato con prestazioni superiori in una vasta gamma di attività.
Modello | Parametri totali | Parametri attivati | Lunghezza del contesto | Scaricamento |
---|---|---|---|---|
DeepSeek-V3-0324 | 660B | 37B | 128K | Download |
DeepSeek-V3-0324 utilizza lo stesso modello di base del precedente DeepSeek-V3, con solo miglioramenti nei metodi di post-formazione. Per la distribuzione privata, è necessario aggiornare solo il checkpoint e Tokenizer_config.json (modifiche relative alle chiamate degli strumenti). Il modello ha circa 660B parametri e la versione open source offre una lunghezza del contesto di 128k (mentre il Web, l'app e l'API forniscono un contesto 64K).
Il nostro potente modello di intelligenza artificiale per scopi generici con ragionamento, comprensione e generazione eccezionali. DeepSeek-V3 eccelle nel complesso risoluzione dei problemi e dimostra forti prestazioni nei settori tecnici.
NOTA
La dimensione totale dei modelli DeepSeek-V3 sulla faccia abbracciata è di 685b, che include 671b dei pesi del modello principale e 14B dei pesi del modulo MTP (Multi-Token Prevision).
Per garantire prestazioni e flessibilità ottimali, DeepSeek ha collaborato con comunità open source e fornitori di hardware per fornire diversi modi per eseguire il modello a livello locale. Per la guida passo-passo, controlla la sezione "Come eseguire localmente" di seguito.
Specializzato per le attività di ragionamento avanzato, DeepSeek-R1 offre prestazioni eccezionali nelle sfide matematiche, codifica e logiche di ragionamento. Costruito con tecniche di apprendimento del rinforzo, offre capacità senza pari della risoluzione dei problemi.
DeepSeek-R1-Zero
I modelli DeepSeek-R1-Distill sono messi a punto in base a modelli open source, utilizzando campioni generati da DeepSeek-R1. Cambiamo leggermente le loro configurazioni e tokenizzatori. Si prega di utilizzare la nostra impostazione per eseguire questi modelli.
Modello | Modello di base | Scaricamento |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | Download |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | Download |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | Download |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | Download |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | Download |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | Download |
I modelli DeepSeek possono essere distribuiti localmente utilizzando vari hardware e software di comunità open source.
DeepSeek-V3 può essere distribuito localmente utilizzando il seguente hardware e software di comunità open source:
Poiché la formazione FP8 è adottata in modo nativo nel nostro framework, forniamo solo pesi FP8. Se hai bisogno di pesi BF16 per la sperimentazione, è possibile utilizzare lo script di conversione fornito per eseguire la trasformazione.
Ecco un esempio di conversione di pesi FP8 in BF16:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
NOTA
Abbracciare i trasformatori di Face non è stato ancora supportato direttamente.
NOTA
Linux con solo Python 3.10. Mac e Windows non sono supportati.
Dipendenza:
torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
Innanzitutto, clona il repository GitHub DeepSeek-V3:
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
Passare alla cartella `Inferenza 'e installare le dipendenze elencate in` Requisiti.txt`. Il modo più semplice è utilizzare un gestore di pacchetti come `conda` o` uv` per creare un nuovo ambiente virtuale e installare le dipendenze.
cd DeepSeek-V3/inference
pip install -r requirements.txt
Scarica i pesi del modello da abbracciare la faccia e metterli nella cartella `/percorso/to/a/deepseek-v3`.
Converti i pesi del modello facciale abbracciato in un formato specifico:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
Quindi puoi chattare con DeepSeek-V3:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200
O l'inferenza batch su un determinato file:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE
SGLang SGLANG attualmente supporta ottimizzazioni MLA, attenzione DP, FP8 (W8A8), cache di KV FP8 e torce, offrendo latenza all'avanguardia e prestazioni di throughput tra quadri open-source.[1 ][2 ][3 ]
In particolare, Sglang V0.4.1 supporta pienamente la gestione di DeepSeek-V3 sia su NVIDIA che su GPU AMD, rendendolo una soluzione altamente versatile e robusta.[1 ]
Sglang supporta anche il parallelismo del tensore multi-nodo, consentendo di eseguire questo modello su più macchine connesse alla rete.[1 ]
La previsione Multi-Token (MTP) è in fase di sviluppo e i progressi possono essere monitorati nel piano di ottimizzazione.[1 ]
Ecco le istruzioni di lancio del team Sglang:[1 ]
LMDeploy LMDeploy, un'inferenza flessibile e ad alte prestazioni e un framework di servizio su misura per modelli di linguaggio di grandi dimensioni, ora supporta DeepSeek-V3. Offre sia l'elaborazione della pipeline offline che le funzionalità di distribuzione online, integrando perfettamente con i flussi di lavoro basati su Pytorch.[1 ]
Per istruzioni dettagliate complete sull'esecuzione di DeepSeek-V3 con LMDeploy, consultare qui:[1 ]
TensorRT-LLM Tensorrt-LM ora supporta il modello DeepSeek-V3, offrendo opzioni di precisione come BF16 e INT4/INT8 solo pesi. Il supporto per FP8 è attualmente in corso e verrà rilasciato presto. È possibile accedere alla filiale personalizzata di TRTLLM specificamente per il supporto DeepSeek-V3 attraverso il seguente link per sperimentare direttamente le nuove funzionalità:[1 ][2 ]
vLLM VLLM V0.6.6 supporta l'inferenza DeepSeek-V3 per le modalità FP8 e BF16 su entrambe le GPU NVIDIA e AMD. Oltre alle tecniche standard, VLLM offre parallelismo della pipeline che consente di eseguire questo modello su più macchine collegate da reti. Per una guida dettagliata, consultare le istruzioni VLLM. Sentiti libero di seguire anche il piano di potenziamento.[1 ][2 ][3 ]
In collaborazione con il team AMD, DeepSeek ha raggiunto il supporto di un giorno per le GPU AMD usando SGLANG, con piena compatibilità per la precisione sia FP8 che BF16. Per una guida dettagliata, consultare le istruzioni Sglang.[1 ]
Il framework Mindie della comunità di Huawei Ascend ha adattato con successo la versione BF16 di DeepSeek-V3. Per una guida passo-passo sulle NPU Ascend, seguire le istruzioni qui.[1 ][2 ]
Visitare la sezione di distribuzione DeepSeek-V3 sopra per ulteriori informazioni sull'esecuzione a livello locale di DeepSeek-R1.
NOTA
Abbracciare i trasformatori di Face non è stato ancora supportato direttamente.
I modelli DeepSeek-R1-Distill possono essere utilizzati allo stesso modo dei modelli Qwen o Llama.
Ad esempio, è possibile avviare facilmente un servizio utilizzando VLLM:[1 ]
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
Puoi anche iniziare facilmente un servizio utilizzando Sglang:[1 ]
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
Si consiglia di aderire alle seguenti configurazioni quando si utilizzano i modelli della serie DeepSeek-R1, incluso il benchmarking, per ottenere le prestazioni previste:
Inoltre, abbiamo osservato che i modelli della serie DeepSeek-R1 tendono a bypassare il modello di pensiero (ovvero, producendo <Think> </ Think>) quando rispondono a determinate query, che possono influenzare negativamente le prestazioni del modello.downloadPage.howToRun.sections.r1.subsections.usageRecommendations.thinkingPatternRecommendation
DeepSeek-V3-0324 utilizza lo stesso modello di base del precedente DeepSeek-V3, con solo miglioramenti nei metodi di post-formazione. Per la distribuzione privata, è necessario aggiornare solo il checkpoint e Tokenizer_config.json (modifiche relative alle chiamate degli strumenti).
Le opzioni di distribuzione e i framework per DeepSeek-V3-0324 sono identici a quelli per DeepSeek-V3 descritti nella Sezione 1. Tutti gli stessi kit di strumenti (SGLANG, LMDEPLARY, TENSORRT-LLM, VLLM) supportano DeepSeek-V3-0324 con le stesse opzioni di configurazione.
Informazioni sulle licenze in base alle quali vengono rilasciati i modelli DeepSeek
Coerentemente con DeepSeek-R1, il nostro repository open source (compresi i pesi del modello) adotta uniformemente la licenza MIT e consente agli utenti di sfruttare gli output dei modelli e i metodi di distillazione per formare altri modelli.
Visualizza la licenzaQuesto repository di codice è concesso in licenza con la licenza MIT. L'uso dei modelli di base/chat di DeepSeek-V3 è soggetto alla licenza modello. La serie DeepSeek-V3 (compresa la base e la chat) supporta l'uso commerciale.
Visualizza la licenzaQuesto repository di codice e i pesi del modello sono autorizzati con la licenza MIT. La serie DeepSeek-R1 supporta l'uso commerciale, consente eventuali modifiche e opere derivate, tra cui, ma non limitato a, distillazione per la formazione di altri LLM. Si prega di notare che modelli come DeepSeek-R1-Distill-Qwen e DeepSeek-R1-Distill-Llama sono derivati dai rispettivi modelli di base con le loro licenze originali.
Visualizza la licenzaI modelli DeepSeek sono forniti "così come sono" senza garanzie espresse o implicite. Gli utenti dovrebbero utilizzare i modelli a proprio rischio e garantire la conformità con le leggi e i regolamenti pertinenti. DeepSeek non è responsabile per eventuali danni derivanti dall'uso di questi modelli.