Unduh model AI Deepseek

Akses model AI canggih Deepseek untuk penyebaran dan integrasi lokal ke dalam aplikasi Anda.

Model yang tersedia

Pilih dari berbagai model AI kami yang dirancang untuk kasus penggunaan yang berbeda.

DeepSeek-V3-0324

Versi terbaru dari model andalan kami, menampilkan kemampuan penalaran yang ditingkatkan dan meningkatkan dukungan multibahasa. Dirilis pada 24 Maret 2025, model ini mewakili sistem AI kami yang paling canggih dengan kinerja superior di berbagai tugas.

Model Deepseek-V3-0324

ModelParam totalParam yang diaktifkanPanjang konteksUnduh
DeepSeek-V3-0324660B37B128KDownload

Deepseek-V3-0324 menggunakan model dasar yang sama dengan Deepseek-V3 sebelumnya, dengan hanya peningkatan dalam metode pasca-pelatihan. Untuk penyebaran pribadi, Anda hanya perlu memperbarui pos pemeriksaan dan tokenizer_config.json (alat panggilan terkait panggilan). Model ini memiliki sekitar 660B parameter, dan versi open-source menawarkan panjang konteks 128k (sementara Web, App, dan API menyediakan konteks 64K).

Cara Berlari Secara Lokal

Model Deepseek dapat digunakan secara lokal menggunakan berbagai perangkat keras dan perangkat lunak komunitas open-source.

1. Deepseek-V3 Deployment

Deepseek-V3 dapat digunakan secara lokal menggunakan perangkat keras dan perangkat lunak komunitas open-source berikut:

  1. Deepseek-Infer Demo: Deepseek menyediakan demo sederhana dan ringan untuk inferensi FP8 dan BF16.
  2. SGLANG: sepenuhnya mendukung model Deepseek-V3 dalam mode inferensi BF16 dan FP8, dengan prediksi multi-token segera hadir.[1 ]
  3. LMDeploy: Mengaktifkan inferensi FP8 dan BF16 yang efisien untuk penyebaran lokal dan cloud.
  4. Tensorrt-llm: Saat ini mendukung inferensi BF16 dan kuantisasi int4/8, dengan dukungan FP8 segera hadir.
  5. VLLM: Mendukung model Deepseek-V3 dengan mode FP8 dan BF16 untuk paralelisme tensor dan paralelisme pipa.
  6. AMD GPU: Memungkinkan menjalankan model Deepseek-V3 pada AMD GPU melalui SGLang dalam mode BF16 dan FP8.
  7. Huawei Ascend NPU: Mendukung menjalankan Deepseek-V3 di perangkat Huawei Ascend.

Karena pelatihan FP8 diadopsi secara asli dalam kerangka kerja kami, kami hanya menyediakan bobot FP8. Jika Anda memerlukan bobot BF16 untuk eksperimen, Anda dapat menggunakan skrip konversi yang disediakan untuk melakukan transformasi.

Berikut adalah contoh mengubah bobot FP8 menjadi BF16:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

CATATAN

Transformer Face Memeluk belum didukung secara langsung.

1.1 Inferensi dengan demo Deepseek-Infer (hanya contoh)

Persyaratan sistem

CATATAN

Linux dengan Python 3.10 saja. Mac dan Windows tidak didukung.

Ketergantungan:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
Bobot model

Pertama, klon The Deepseek-V3 Github Repository:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

Arahkan ke folder `inferensi` dan instal dependensi yang tercantum dalam` persyaratan.txt`. Cara termudah adalah dengan menggunakan manajer paket seperti `conda` atau` uv` untuk membuat lingkungan virtual baru dan menginstal dependensi.

cd DeepSeek-V3/inference
pip install -r requirements.txt

Unduh bobot model dari wajah memeluk, dan masukkan ke dalam folder `/Path/to/Deepseek-V3`.

Konversi Bobot Model

Konversi bobot model wajah pelukan ke format tertentu:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
Berlari

Kemudian Anda dapat mengobrol dengan Deepseek-V3:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

Atau inferensi batch pada file yang diberikan:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Inferensi dengan SGLANG (Direkomendasikan)

SGLang SGLANG saat ini mendukung optimisasi MLA, perhatian DP, FP8 (W8A8), cache FP8 KV, dan kompilasi obor, memberikan kinerja latensi dan throughput yang canggih di antara kerangka kerja sumber terbuka.[1 ][2 ][3 ]

Khususnya, SGLang V0.4.1 sepenuhnya mendukung menjalankan Deepseek-V3 pada NVIDIA dan AMD GPU, menjadikannya solusi yang sangat fleksibel dan kuat.[1 ]

SGLang juga mendukung paralelisme tensor multi-node, memungkinkan Anda untuk menjalankan model ini pada beberapa mesin yang terhubung dengan jaringan.[1 ]

Multi-Token Prediction (MTP) sedang dalam pengembangan, dan kemajuan dapat dilacak dalam rencana optimasi.[1 ]

Berikut adalah instruksi peluncuran dari tim SGLANG:[1 ]

1.3 Inferensi dengan LMDeploy (Direkomendasikan)

LMDeploy LMDeploy, inferensi yang fleksibel dan berkinerja tinggi dan kerangka kerja melayani yang dirancang untuk model bahasa besar, sekarang mendukung Deepseek-V3. Ini menawarkan pemrosesan pipa offline dan kemampuan penyebaran online, dengan mulus berintegrasi dengan alur kerja berbasis Pytorch.[1 ]

Untuk instruksi langkah demi langkah komprehensif tentang menjalankan Deepseek-V3 dengan LMDeploy, silakan merujuk di sini:[1 ]

1.4 Inferensi dengan TRT-LLM (Direkomendasikan)

TensorRT-LLM Tensorrt-llm sekarang mendukung model Deepseek-V3, menawarkan opsi presisi seperti bf16 dan int4/int8-only. Dukungan untuk FP8 saat ini sedang berlangsung dan akan segera dirilis. Anda dapat mengakses cabang khusus TRTLLM khusus untuk dukungan Deepseek-V3 melalui tautan berikut untuk mengalami fitur baru secara langsung:[1 ][2 ]

1.5 Inferensi dengan VLLM (Direkomendasikan)

vLLM VLLM V0.6.6 Mendukung inferensi Deepseek-V3 untuk mode FP8 dan BF16 pada NVIDIA dan AMD GPU. Selain teknik standar, VLLM menawarkan paralelisme pipa yang memungkinkan Anda menjalankan model ini pada beberapa mesin yang dihubungkan oleh jaringan. Untuk panduan terperinci, silakan merujuk ke instruksi VLLM. Silakan mengikuti rencana peningkatan juga.[1 ][2 ][3 ]

1.6 Fungsionalitas inferensi yang disarankan dengan AMD GPU

Bekerja sama dengan tim AMD, Deepseek telah mencapai dukungan sehari-hari untuk AMD GPU menggunakan SGLang, dengan kompatibilitas penuh untuk presisi FP8 dan BF16. Untuk panduan terperinci, silakan merujuk pada instruksi SGLANG.[1 ]

1.7 Fungsionalitas inferensi yang direkomendasikan dengan Huawei Ascend NPU

Kerangka kerja Mindie dari komunitas Huawei Ascend telah berhasil mengadaptasi versi BF16 dari Deepseek-V3. Untuk panduan langkah demi langkah tentang Ascend NPU, silakan ikuti instruksi di sini.[1 ][2 ]

2. Deepseek-R1 Penyebaran

2.1 Model Deepseek-R1

Silakan kunjungi bagian penyebaran Deepseek-V3 di atas untuk informasi lebih lanjut tentang menjalankan Deepseek-R1 secara lokal.

CATATAN

Transformer Face Memeluk belum didukung secara langsung.

2.2 Model Deepseek-R1-Distill

Model Deepseek-R1-Distill dapat digunakan dengan cara yang sama seperti model QWEN atau LLAMA.

Misalnya, Anda dapat dengan mudah memulai layanan menggunakan VLLM:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

Anda juga dapat dengan mudah memulai layanan menggunakan SGLANG:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 Rekomendasi Penggunaan

Kami merekomendasikan untuk mematuhi konfigurasi berikut saat menggunakan model seri Deepseek-R1, termasuk benchmarking, untuk mencapai kinerja yang diharapkan:

  1. Atur suhu dalam kisaran 0,5-0,7 (0,6 disarankan) untuk mencegah pengulangan tanpa akhir atau output yang tidak koheren.
  2. Hindari menambahkan prompt sistem; Semua instruksi harus terkandung dalam prompt pengguna.
  3. Untuk masalah matematika, disarankan untuk memasukkan arahan dalam prompt Anda seperti: 'Harap alasan langkah demi langkah, dan letakkan jawaban akhir Anda dalam kotak.'
  4. Saat mengevaluasi kinerja model, disarankan untuk melakukan beberapa tes dan rata -rata hasilnya.

Selain itu, kami telah mengamati bahwa model seri Deepseek-R1 cenderung mem-bypass pola berpikir (mis., Output <think> </think>) ketika menanggapi pertanyaan tertentu, yang dapat mempengaruhi kinerja model.Untuk memastikan bahwa model terlibat dalam penalaran menyeluruh, kami merekomendasikan menegakkan model untuk memulai responsnya dengan <think> </think> di awal setiap output.

3. Deepseek-V3-0324 Penyebaran

Deepseek-V3-0324 menggunakan model dasar yang sama dengan Deepseek-V3 sebelumnya, dengan hanya peningkatan dalam metode pasca-pelatihan. Untuk penyebaran pribadi, Anda hanya perlu memperbarui pos pemeriksaan dan tokenizer_config.json (alat panggilan terkait panggilan).

Opsi dan kerangka kerja penyebaran untuk Deepseek-V3-0324 identik dengan yang untuk Deepseek-V3 yang dijelaskan dalam Bagian 1. Semua toolkit yang sama (SGLang, LMDeploy, TensorRt-LLM, VLLM) mendukung Deepseek-V3-0324 dengan opsi konfigurasi yang sama.

Informasi lisensi

Informasi tentang lisensi di mana model Deepseek dirilis

Deepseek-V3-0324

Lisensi MIT

Konsisten dengan Deepseek-R1, repositori sumber terbuka kami (termasuk bobot model) secara seragam mengadopsi lisensi MIT, dan memungkinkan pengguna untuk memanfaatkan output model dan metode distilasi untuk melatih model lain.

Lihat lisensi

Deepseek-V3

Lisensi MIT

Repositori kode ini dilisensikan di bawah lisensi MIT. Penggunaan model pangkalan/obrolan Deepseek-V3 tunduk pada lisensi model. Deepseek-V3 Series (termasuk Base and Chat) mendukung penggunaan komersial.

Lihat lisensi

Deepseek-R1

Lisensi MIT

Repositori kode ini dan bobot model dilisensikan di bawah lisensi MIT. Deepseek-R1 mendukung penggunaan komersial, memungkinkan untuk modifikasi dan karya turunan apa pun, termasuk, tetapi tidak terbatas pada, distilasi untuk melatih LLM lainnya. Harap dicatat bahwa model seperti Deepseek-R1-Distill-Qwen dan Deepseek-R1-Distill-Llama berasal dari model dasar masing-masing dengan lisensi aslinya.

Lihat lisensi

Penafian

Model Deepseek disediakan "sebagaimana adanya" tanpa jaminan tersurat atau tersirat. Pengguna harus menggunakan model dengan risiko sendiri dan memastikan kepatuhan terhadap undang -undang dan peraturan yang relevan. Deepseek tidak bertanggung jawab atas segala kerusakan yang dihasilkan dari penggunaan model -model ini.