Scarica i modelli AI DeepSeek

Accedi ai modelli di intelligenza artificiale all'avanguardia di DeepSeek per l'implementazione e l'integrazione locali nelle applicazioni.

Modelli disponibili

Scegli dalla nostra gamma di potenti modelli AI su misura per diversi casi d'uso.

DeepSeek-V3-0324

L'ultima versione del nostro modello di punta, con funzionalità di ragionamento migliorate e un miglioramento del supporto multilingue. Rilasciato il 24 marzo 2025, questo modello rappresenta il nostro sistema AI più avanzato con prestazioni superiori in una vasta gamma di attività.

Scaricamento GitHub

Modelli DeepSeek-V3-0324

Modello	Parametri totali	Parametri attivati	Lunghezza del contesto	Scaricamento
DeepSeek-V3-0324	660B	37B	128K	Download

DeepSeek-V3-0324 utilizza lo stesso modello di base del precedente DeepSeek-V3, con solo miglioramenti nei metodi di post-formazione. Per la distribuzione privata, è necessario aggiornare solo il checkpoint e Tokenizer_config.json (modifiche relative alle chiamate degli strumenti). Il modello ha circa 660B parametri e la versione open source offre una lunghezza del contesto di 128k (mentre il Web, l'app e l'API forniscono un contesto 64K).

DeepSeek-V3

Il nostro potente modello di intelligenza artificiale per scopi generici con ragionamento, comprensione e generazione eccezionali. DeepSeek-V3 eccelle nel complesso risoluzione dei problemi e dimostra forti prestazioni nei settori tecnici.

Scaricamento GitHub

Modelli DeepSeek-V3

Modello	Parametri totali	Parametri attivati	Lunghezza del contesto	Scaricamento
DeepSeek-V3-Base	671B	37B	128K	Download
DeepSeek-V3	671B	37B	128K	Download

NOTA

La dimensione totale dei modelli DeepSeek-V3 sulla faccia abbracciata è di 685b, che include 671b dei pesi del modello principale e 14B dei pesi del modulo MTP (Multi-Token Prevision).

Per garantire prestazioni e flessibilità ottimali, DeepSeek ha collaborato con comunità open source e fornitori di hardware per fornire diversi modi per eseguire il modello a livello locale. Per la guida passo-passo, controlla la sezione "Come eseguire localmente" di seguito.

DeepSeek-R1-0528

Il modello DeepSeek R1 ha subito un aggiornamento della versione minore, con la versione corrente che è DeepSeek-R1-0528. Nell'ultimo aggiornamento, Deepseek R1 ha migliorato significativamente la sua profondità di ragionamento e capacità di inferenza sfruttando un aumento delle risorse computazionali e introducendo meccanismi di ottimizzazione algoritmica durante il post-allenamento. Il modello ha dimostrato prestazioni eccezionali attraverso varie valutazioni di riferimento, tra cui matematica, programmazione e logica generale. Le sue prestazioni complessive si stanno avvicinando a quella dei modelli principali, come O3 e Gemini 2.5 Pro.

Scaricamento GitHub

Modelli DeepSeek-R1-0528

Modello	Parametri totali	Parametri attivati	Lunghezza del contesto	Scaricamento
DeepSeek-R1-0528	685B	37B	128K	Download

Rispetto alla versione precedente, il modello aggiornato mostra miglioramenti significativi nella gestione di compiti di ragionamento complessi. Ad esempio, nel test AIME 2025, l'accuratezza del modello è aumentata dal 70% nella versione precedente all'87,5% nella versione corrente. Questo progresso deriva dalla profondità di pensiero avanzata durante il processo di ragionamento: nel set di test AIME, il modello precedente ha utilizzato una media di token da 12k per domanda, mentre la nuova versione ha una media di token 23k per domanda.

DeepSeek-R1

Specializzato per le attività di ragionamento avanzato, DeepSeek-R1 offre prestazioni eccezionali nelle sfide matematiche, codifica e logiche di ragionamento. Costruito con tecniche di apprendimento del rinforzo, offre capacità senza pari della risoluzione dei problemi.

Scaricamento GitHub

DeepSeek-R1-Zero

Modelli DeepSeek-R1

Modello	Parametri totali	Parametri attivati	Lunghezza del contesto	Scaricamento
DeepSeek-R1-Zero	671B	37B	128K	Download
DeepSeek-R1	671B	37B	128K	Download

I modelli DeepSeek-R1-Distill sono messi a punto in base a modelli open source, utilizzando campioni generati da DeepSeek-R1. Cambiamo leggermente le loro configurazioni e tokenizzatori. Si prega di utilizzare la nostra impostazione per eseguire questi modelli.

Modelli DeepSeek-R1-Distill

Modello	Modello di base	Scaricamento
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	Download
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	Download
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	Download
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	Download
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	Download
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	Download

Come correre a livello locale

I modelli DeepSeek possono essere distribuiti localmente utilizzando vari hardware e software di comunità open source.

1. Deepseek-V3 Distribuzione

DeepSeek-V3 può essere distribuito localmente utilizzando il seguente hardware e software di comunità open source:

Demo di DeepSeek-Infer: DeepSeek fornisce una demo semplice e leggera per l'inferenza FP8 e BF16.
SGLANG: Supporta pienamente il modello DeepSeek-V3 in entrambe le modalità di inferenza BF16 e FP8, con la previsione multi-token in arrivo.[1 ]
LMDEPROPORAGGIO: abilita un'efficace inferenza FP8 e BF16 per la distribuzione locale e cloud.
TENSORRT-LLM: attualmente supporta l'inferenza BF16 e la quantizzazione INT4/8, con il supporto FP8 in arrivo.
VLLM: supportare il modello DeepSeek-V3 con le modalità FP8 e BF16 per il parallelismo tensore e il parallelismo della pipeline.
GPU AMD: abilita l'esecuzione del modello DeepSeek-V3 su GPU AMD tramite SGLANG in entrambe le modalità BF16 e FP8.
Huawei Ascend NPU: supporta la gestione di DeepSeek-V3 sui dispositivi ascendi Huawei.

Poiché la formazione FP8 è adottata in modo nativo nel nostro framework, forniamo solo pesi FP8. Se hai bisogno di pesi BF16 per la sperimentazione, è possibile utilizzare lo script di conversione fornito per eseguire la trasformazione.

Ecco un esempio di conversione di pesi FP8 in BF16:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

NOTA

Abbracciare i trasformatori di Face non è stato ancora supportato direttamente.

1.1 Inferenza con DeepEek-Infer Demo (solo esempio)

Requisiti di sistema

NOTA

Linux con solo Python 3.10. Mac e Windows non sono supportati.

Dipendenza:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5

Pesi del modello

Innanzitutto, clona il repository GitHub DeepSeek-V3:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

Passare alla cartella `Inferenza 'e installare le dipendenze elencate in` Requisiti.txt`. Il modo più semplice è utilizzare un gestore di pacchetti come `conda` o` uv` per creare un nuovo ambiente virtuale e installare le dipendenze.

cd DeepSeek-V3/inference
pip install -r requirements.txt

Scarica i pesi del modello da abbracciare la faccia e metterli nella cartella `/percorso/to/a/deepseek-v3`.

Conversione dei pesi del modello

Converti i pesi del modello facciale abbracciato in un formato specifico:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

Correre

Quindi puoi chattare con DeepSeek-V3:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

O l'inferenza batch su un determinato file:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Inferenza con Sglang (raccomandato)

SGLang SGLANG attualmente supporta ottimizzazioni MLA, attenzione DP, FP8 (W8A8), cache di KV FP8 e torce, offrendo latenza all'avanguardia e prestazioni di throughput tra quadri open-source.[1 ][2 ][3 ]

In particolare, Sglang V0.4.1 supporta pienamente la gestione di DeepSeek-V3 sia su NVIDIA che su GPU AMD, rendendolo una soluzione altamente versatile e robusta.[1 ]

Sglang supporta anche il parallelismo del tensore multi-nodo, consentendo di eseguire questo modello su più macchine connesse alla rete.[1 ]

La previsione Multi-Token (MTP) è in fase di sviluppo e i progressi possono essere monitorati nel piano di ottimizzazione.[1 ]

Ecco le istruzioni di lancio del team Sglang:[1 ]

1.3 Inferenza con LMDeploy (consigliato)

LMDeploy LMDeploy, un'inferenza flessibile e ad alte prestazioni e un framework di servizio su misura per modelli di linguaggio di grandi dimensioni, ora supporta DeepSeek-V3. Offre sia l'elaborazione della pipeline offline che le funzionalità di distribuzione online, integrando perfettamente con i flussi di lavoro basati su Pytorch.[1 ]

Per istruzioni dettagliate complete sull'esecuzione di DeepSeek-V3 con LMDeploy, consultare qui:[1 ]

1.4 Inferenza con TRT-LLM (consigliato)

TensorRT-LLM Tensorrt-LM ora supporta il modello DeepSeek-V3, offrendo opzioni di precisione come BF16 e INT4/INT8 solo pesi. Il supporto per FP8 è attualmente in corso e verrà rilasciato presto. È possibile accedere alla filiale personalizzata di TRTLLM specificamente per il supporto DeepSeek-V3 attraverso il seguente link per sperimentare direttamente le nuove funzionalità:[1 ][2 ]

1.5 Inferenza con VLLM (consigliato)

vLLM VLLM V0.6.6 supporta l'inferenza DeepSeek-V3 per le modalità FP8 e BF16 su entrambe le GPU NVIDIA e AMD. Oltre alle tecniche standard, VLLM offre parallelismo della pipeline che consente di eseguire questo modello su più macchine collegate da reti. Per una guida dettagliata, consultare le istruzioni VLLM. Sentiti libero di seguire anche il piano di potenziamento.[1 ][2 ][3 ]

1.6 Funzionalità di inferenza consigliata con GPU AMD

In collaborazione con il team AMD, DeepSeek ha raggiunto il supporto di un giorno per le GPU AMD usando SGLANG, con piena compatibilità per la precisione sia FP8 che BF16. Per una guida dettagliata, consultare le istruzioni Sglang.[1 ]

1.7 Funzionalità di inferenza consigliata con Huawei Ascend NPU

Il framework Mindie della comunità di Huawei Ascend ha adattato con successo la versione BF16 di DeepSeek-V3. Per una guida passo-passo sulle NPU Ascend, seguire le istruzioni qui.[1 ][2 ]

2. Deepseek-R1 Distribuzione

2.1 Modelli DeepSeek-R1

Visitare la sezione di distribuzione DeepSeek-V3 sopra per ulteriori informazioni sull'esecuzione a livello locale di DeepSeek-R1.

NOTA

Abbracciare i trasformatori di Face non è stato ancora supportato direttamente.

2.2 Modelli DeepSeek-R1-Distill

I modelli DeepSeek-R1-Distill possono essere utilizzati allo stesso modo dei modelli Qwen o Llama.

Ad esempio, è possibile avviare facilmente un servizio utilizzando VLLM:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

Puoi anche iniziare facilmente un servizio utilizzando Sglang:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 Raccomandazioni di utilizzo

Si consiglia di aderire alle seguenti configurazioni quando si utilizzano i modelli della serie DeepSeek-R1, incluso il benchmarking, per ottenere le prestazioni previste:

Impostare la temperatura nell'intervallo di 0,5-0,7 (0,6 è raccomandato) per evitare infinite ripetizioni o uscite incoerenti.
Evita di aggiungere un prompt di sistema; Tutte le istruzioni devono essere contenute nel prompt utente.
Per i problemi matematici, è consigliabile includere una direttiva nel prompt come ad ad esempio: "Si prega di motivi passo dopo passo e inserisci la risposta finale in boxed".
Quando si valutano le prestazioni del modello, si consiglia di condurre più test e in media i risultati.

Inoltre, abbiamo osservato che i modelli della serie DeepSeek-R1 tendono a bypassare il modello di pensiero (ovvero, producendo <think> </think>) quando rispondono a determinate query, che possono influenzare negativamente le prestazioni del modello.Per garantire che il modello si impegna in ragionamento approfondito, consigliamo di far rispettare il modello per iniziare la sua risposta con <think> </think> all'inizio di ogni output.

3. DeepSeek-V3-0324 Distribuzione

DeepSeek-V3-0324 utilizza lo stesso modello di base del precedente DeepSeek-V3, con solo miglioramenti nei metodi di post-formazione. Per la distribuzione privata, è necessario aggiornare solo il checkpoint e Tokenizer_config.json (modifiche relative alle chiamate degli strumenti).

Le opzioni di distribuzione e i framework per DeepSeek-V3-0324 sono identici a quelli per DeepSeek-V3 descritti nella Sezione 1. Tutti gli stessi kit di strumenti (SGLANG, LMDEPLARY, TENSORRT-LLM, VLLM) supportano DeepSeek-V3-0324 con le stesse opzioni di configurazione.

Informazioni sulla licenza

Informazioni sulle licenze in base alle quali vengono rilasciati i modelli DeepSeek

DeepSeek-V3-0324

Licenza MIT

Coerentemente con DeepSeek-R1, il nostro repository open source (compresi i pesi del modello) adotta uniformemente la licenza MIT e consente agli utenti di sfruttare gli output dei modelli e i metodi di distillazione per formare altri modelli.

Visualizza la licenza

DeepSeek-V3

Licenza MIT

Questo repository di codice è concesso in licenza con la licenza MIT. L'uso dei modelli di base/chat di DeepSeek-V3 è soggetto alla licenza modello. La serie DeepSeek-V3 (compresa la base e la chat) supporta l'uso commerciale.

Visualizza la licenza

DeepSeek-R1

Licenza MIT

Questo repository di codice e i pesi del modello sono autorizzati con la licenza MIT. La serie DeepSeek-R1 supporta l'uso commerciale, consente eventuali modifiche e opere derivate, tra cui, ma non limitato a, distillazione per la formazione di altri LLM. Si prega di notare che modelli come DeepSeek-R1-Distill-Qwen e DeepSeek-R1-Distill-Llama sono derivati dai rispettivi modelli di base con le loro licenze originali.

Visualizza la licenza

Disclaimer

I modelli DeepSeek sono forniti "così come sono" senza garanzie espresse o implicite. Gli utenti dovrebbero utilizzare i modelli a proprio rischio e garantire la conformità con le leggi e i regolamenti pertinenti. DeepSeek non è responsabile per eventuali danni derivanti dall'uso di questi modelli.