Scarica i modelli AI DeepSeek

Accedi ai modelli di intelligenza artificiale all'avanguardia di DeepSeek per l'implementazione e l'integrazione locali nelle applicazioni.

Modelli disponibili

Scegli dalla nostra gamma di potenti modelli AI su misura per diversi casi d'uso.

DeepSeek-V3-0324

L'ultima versione del nostro modello di punta, con funzionalità di ragionamento migliorate e un miglioramento del supporto multilingue. Rilasciato il 24 marzo 2025, questo modello rappresenta il nostro sistema AI più avanzato con prestazioni superiori in una vasta gamma di attività.

Modelli DeepSeek-V3-0324

ModelloParametri totaliParametri attivatiLunghezza del contestoScaricamento
DeepSeek-V3-0324660B37B128KDownload

DeepSeek-V3-0324 utilizza lo stesso modello di base del precedente DeepSeek-V3, con solo miglioramenti nei metodi di post-formazione. Per la distribuzione privata, è necessario aggiornare solo il checkpoint e Tokenizer_config.json (modifiche relative alle chiamate degli strumenti). Il modello ha circa 660B parametri e la versione open source offre una lunghezza del contesto di 128k (mentre il Web, l'app e l'API forniscono un contesto 64K).

Come correre a livello locale

I modelli DeepSeek possono essere distribuiti localmente utilizzando vari hardware e software di comunità open source.

1. Deepseek-V3 Distribuzione

DeepSeek-V3 può essere distribuito localmente utilizzando il seguente hardware e software di comunità open source:

  1. Demo di DeepSeek-Infer: DeepSeek fornisce una demo semplice e leggera per l'inferenza FP8 e BF16.
  2. SGLANG: Supporta pienamente il modello DeepSeek-V3 in entrambe le modalità di inferenza BF16 e FP8, con la previsione multi-token in arrivo.[1 ]
  3. LMDEPROPORAGGIO: abilita un'efficace inferenza FP8 e BF16 per la distribuzione locale e cloud.
  4. TENSORRT-LLM: attualmente supporta l'inferenza BF16 e la quantizzazione INT4/8, con il supporto FP8 in arrivo.
  5. VLLM: supportare il modello DeepSeek-V3 con le modalità FP8 e BF16 per il parallelismo tensore e il parallelismo della pipeline.
  6. GPU AMD: abilita l'esecuzione del modello DeepSeek-V3 su GPU AMD tramite SGLANG in entrambe le modalità BF16 e FP8.
  7. Huawei Ascend NPU: supporta la gestione di DeepSeek-V3 sui dispositivi ascendi Huawei.

Poiché la formazione FP8 è adottata in modo nativo nel nostro framework, forniamo solo pesi FP8. Se hai bisogno di pesi BF16 per la sperimentazione, è possibile utilizzare lo script di conversione fornito per eseguire la trasformazione.

Ecco un esempio di conversione di pesi FP8 in BF16:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

NOTA

Abbracciare i trasformatori di Face non è stato ancora supportato direttamente.

1.1 Inferenza con DeepEek-Infer Demo (solo esempio)

Requisiti di sistema

NOTA

Linux con solo Python 3.10. Mac e Windows non sono supportati.

Dipendenza:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
Pesi del modello

Innanzitutto, clona il repository GitHub DeepSeek-V3:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

Passare alla cartella `Inferenza 'e installare le dipendenze elencate in` Requisiti.txt`. Il modo più semplice è utilizzare un gestore di pacchetti come `conda` o` uv` per creare un nuovo ambiente virtuale e installare le dipendenze.

cd DeepSeek-V3/inference
pip install -r requirements.txt

Scarica i pesi del modello da abbracciare la faccia e metterli nella cartella `/percorso/to/a/deepseek-v3`.

Conversione dei pesi del modello

Converti i pesi del modello facciale abbracciato in un formato specifico:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
Correre

Quindi puoi chattare con DeepSeek-V3:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

O l'inferenza batch su un determinato file:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Inferenza con Sglang (raccomandato)

SGLang SGLANG attualmente supporta ottimizzazioni MLA, attenzione DP, FP8 (W8A8), cache di KV FP8 e torce, offrendo latenza all'avanguardia e prestazioni di throughput tra quadri open-source.[1 ][2 ][3 ]

In particolare, Sglang V0.4.1 supporta pienamente la gestione di DeepSeek-V3 sia su NVIDIA che su GPU AMD, rendendolo una soluzione altamente versatile e robusta.[1 ]

Sglang supporta anche il parallelismo del tensore multi-nodo, consentendo di eseguire questo modello su più macchine connesse alla rete.[1 ]

La previsione Multi-Token (MTP) è in fase di sviluppo e i progressi possono essere monitorati nel piano di ottimizzazione.[1 ]

Ecco le istruzioni di lancio del team Sglang:[1 ]

1.3 Inferenza con LMDeploy (consigliato)

LMDeploy LMDeploy, un'inferenza flessibile e ad alte prestazioni e un framework di servizio su misura per modelli di linguaggio di grandi dimensioni, ora supporta DeepSeek-V3. Offre sia l'elaborazione della pipeline offline che le funzionalità di distribuzione online, integrando perfettamente con i flussi di lavoro basati su Pytorch.[1 ]

Per istruzioni dettagliate complete sull'esecuzione di DeepSeek-V3 con LMDeploy, consultare qui:[1 ]

1.4 Inferenza con TRT-LLM (consigliato)

TensorRT-LLM Tensorrt-LM ora supporta il modello DeepSeek-V3, offrendo opzioni di precisione come BF16 e INT4/INT8 solo pesi. Il supporto per FP8 è attualmente in corso e verrà rilasciato presto. È possibile accedere alla filiale personalizzata di TRTLLM specificamente per il supporto DeepSeek-V3 attraverso il seguente link per sperimentare direttamente le nuove funzionalità:[1 ][2 ]

1.5 Inferenza con VLLM (consigliato)

vLLM VLLM V0.6.6 supporta l'inferenza DeepSeek-V3 per le modalità FP8 e BF16 su entrambe le GPU NVIDIA e AMD. Oltre alle tecniche standard, VLLM offre parallelismo della pipeline che consente di eseguire questo modello su più macchine collegate da reti. Per una guida dettagliata, consultare le istruzioni VLLM. Sentiti libero di seguire anche il piano di potenziamento.[1 ][2 ][3 ]

1.6 Funzionalità di inferenza consigliata con GPU AMD

In collaborazione con il team AMD, DeepSeek ha raggiunto il supporto di un giorno per le GPU AMD usando SGLANG, con piena compatibilità per la precisione sia FP8 che BF16. Per una guida dettagliata, consultare le istruzioni Sglang.[1 ]

1.7 Funzionalità di inferenza consigliata con Huawei Ascend NPU

Il framework Mindie della comunità di Huawei Ascend ha adattato con successo la versione BF16 di DeepSeek-V3. Per una guida passo-passo sulle NPU Ascend, seguire le istruzioni qui.[1 ][2 ]

2. Deepseek-R1 Distribuzione

2.1 Modelli DeepSeek-R1

Visitare la sezione di distribuzione DeepSeek-V3 sopra per ulteriori informazioni sull'esecuzione a livello locale di DeepSeek-R1.

NOTA

Abbracciare i trasformatori di Face non è stato ancora supportato direttamente.

2.2 Modelli DeepSeek-R1-Distill

I modelli DeepSeek-R1-Distill possono essere utilizzati allo stesso modo dei modelli Qwen o Llama.

Ad esempio, è possibile avviare facilmente un servizio utilizzando VLLM:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

Puoi anche iniziare facilmente un servizio utilizzando Sglang:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 Raccomandazioni di utilizzo

Si consiglia di aderire alle seguenti configurazioni quando si utilizzano i modelli della serie DeepSeek-R1, incluso il benchmarking, per ottenere le prestazioni previste:

  1. Impostare la temperatura nell'intervallo di 0,5-0,7 (0,6 è raccomandato) per evitare infinite ripetizioni o uscite incoerenti.
  2. Evita di aggiungere un prompt di sistema; Tutte le istruzioni devono essere contenute nel prompt utente.
  3. Per i problemi matematici, è consigliabile includere una direttiva nel prompt come ad ad esempio: "Si prega di motivi passo dopo passo e inserisci la risposta finale in boxed".
  4. Quando si valutano le prestazioni del modello, si consiglia di condurre più test e in media i risultati.

Inoltre, abbiamo osservato che i modelli della serie DeepSeek-R1 tendono a bypassare il modello di pensiero (ovvero, producendo <Think> </ Think>) quando rispondono a determinate query, che possono influenzare negativamente le prestazioni del modello.downloadPage.howToRun.sections.r1.subsections.usageRecommendations.thinkingPatternRecommendation

3. DeepSeek-V3-0324 Distribuzione

DeepSeek-V3-0324 utilizza lo stesso modello di base del precedente DeepSeek-V3, con solo miglioramenti nei metodi di post-formazione. Per la distribuzione privata, è necessario aggiornare solo il checkpoint e Tokenizer_config.json (modifiche relative alle chiamate degli strumenti).

Le opzioni di distribuzione e i framework per DeepSeek-V3-0324 sono identici a quelli per DeepSeek-V3 descritti nella Sezione 1. Tutti gli stessi kit di strumenti (SGLANG, LMDEPLARY, TENSORRT-LLM, VLLM) supportano DeepSeek-V3-0324 con le stesse opzioni di configurazione.

Informazioni sulla licenza

Informazioni sulle licenze in base alle quali vengono rilasciati i modelli DeepSeek

DeepSeek-V3-0324

Licenza MIT

Coerentemente con DeepSeek-R1, il nostro repository open source (compresi i pesi del modello) adotta uniformemente la licenza MIT e consente agli utenti di sfruttare gli output dei modelli e i metodi di distillazione per formare altri modelli.

Visualizza la licenza

DeepSeek-V3

Licenza MIT

Questo repository di codice è concesso in licenza con la licenza MIT. L'uso dei modelli di base/chat di DeepSeek-V3 è soggetto alla licenza modello. La serie DeepSeek-V3 (compresa la base e la chat) supporta l'uso commerciale.

Visualizza la licenza

DeepSeek-R1

Licenza MIT

Questo repository di codice e i pesi del modello sono autorizzati con la licenza MIT. La serie DeepSeek-R1 supporta l'uso commerciale, consente eventuali modifiche e opere derivate, tra cui, ma non limitato a, distillazione per la formazione di altri LLM. Si prega di notare che modelli come DeepSeek-R1-Distill-Qwen e DeepSeek-R1-Distill-Llama sono derivati ​​dai rispettivi modelli di base con le loro licenze originali.

Visualizza la licenza

Disclaimer

I modelli DeepSeek sono forniti "così come sono" senza garanzie espresse o implicite. Gli utenti dovrebbero utilizzare i modelli a proprio rischio e garantire la conformità con le leggi e i regolamenti pertinenti. DeepSeek non è responsabile per eventuali danni derivanti dall'uso di questi modelli.