Akses model AI canggih Deepseek untuk penyebaran dan integrasi lokal ke dalam aplikasi Anda.
Pilih dari berbagai model AI kami yang dirancang untuk kasus penggunaan yang berbeda.
Versi terbaru dari model andalan kami, menampilkan kemampuan penalaran yang ditingkatkan dan meningkatkan dukungan multibahasa. Dirilis pada 24 Maret 2025, model ini mewakili sistem AI kami yang paling canggih dengan kinerja superior di berbagai tugas.
Model | Param total | Param yang diaktifkan | Panjang konteks | Unduh |
---|---|---|---|---|
DeepSeek-V3-0324 | 660B | 37B | 128K | Download |
Deepseek-V3-0324 menggunakan model dasar yang sama dengan Deepseek-V3 sebelumnya, dengan hanya peningkatan dalam metode pasca-pelatihan. Untuk penyebaran pribadi, Anda hanya perlu memperbarui pos pemeriksaan dan tokenizer_config.json (alat panggilan terkait panggilan). Model ini memiliki sekitar 660B parameter, dan versi open-source menawarkan panjang konteks 128k (sementara Web, App, dan API menyediakan konteks 64K).
Model AI tujuan umum kami yang kuat dengan penalaran, pemahaman, dan kemampuan generasi yang luar biasa. Deepseek-V3 unggul pada pemecahan masalah yang kompleks dan menunjukkan kinerja yang kuat dalam domain teknis.
CATATAN
Ukuran total model Deepseek-V3 pada wajah peluk adalah 685B, yang mencakup 671b bobot model utama dan 14b bobot modul prediksi multi-token (MTP).
Untuk memastikan kinerja dan fleksibilitas yang optimal, Deepseek telah bermitra dengan komunitas open-source dan vendor perangkat keras untuk menyediakan banyak cara untuk menjalankan model secara lokal. Untuk panduan langkah demi langkah, lihat bagian "Cara menjalankan secara lokal" di bawah ini.
Khusus untuk tugas penalaran lanjutan, Deepseek-R1 memberikan kinerja luar biasa dalam matematika, pengkodean, dan tantangan penalaran logis. Dibangun dengan teknik pembelajaran penguatan, ia menawarkan kemampuan pemecahan masalah yang tak tertandingi.
Deepseek-R1-Zero
Model Deepseek-R1-Distill disesuaikan berdasarkan model open-source, menggunakan sampel yang dihasilkan oleh Deepseek-R1. Kami sedikit mengubah konfigurasi dan token. Harap gunakan pengaturan kami untuk menjalankan model ini.
Model | Model dasar | Unduh |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | Download |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | Download |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | Download |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | Download |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | Download |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | Download |
Model Deepseek dapat digunakan secara lokal menggunakan berbagai perangkat keras dan perangkat lunak komunitas open-source.
Deepseek-V3 dapat digunakan secara lokal menggunakan perangkat keras dan perangkat lunak komunitas open-source berikut:
Karena pelatihan FP8 diadopsi secara asli dalam kerangka kerja kami, kami hanya menyediakan bobot FP8. Jika Anda memerlukan bobot BF16 untuk eksperimen, Anda dapat menggunakan skrip konversi yang disediakan untuk melakukan transformasi.
Berikut adalah contoh mengubah bobot FP8 menjadi BF16:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
CATATAN
Transformer Face Memeluk belum didukung secara langsung.
CATATAN
Linux dengan Python 3.10 saja. Mac dan Windows tidak didukung.
Ketergantungan:
torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
Pertama, klon The Deepseek-V3 Github Repository:
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
Arahkan ke folder `inferensi` dan instal dependensi yang tercantum dalam` persyaratan.txt`. Cara termudah adalah dengan menggunakan manajer paket seperti `conda` atau` uv` untuk membuat lingkungan virtual baru dan menginstal dependensi.
cd DeepSeek-V3/inference
pip install -r requirements.txt
Unduh bobot model dari wajah memeluk, dan masukkan ke dalam folder `/Path/to/Deepseek-V3`.
Konversi bobot model wajah pelukan ke format tertentu:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
Kemudian Anda dapat mengobrol dengan Deepseek-V3:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200
Atau inferensi batch pada file yang diberikan:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE
SGLang SGLANG saat ini mendukung optimisasi MLA, perhatian DP, FP8 (W8A8), cache FP8 KV, dan kompilasi obor, memberikan kinerja latensi dan throughput yang canggih di antara kerangka kerja sumber terbuka.[1 ][2 ][3 ]
Khususnya, SGLang V0.4.1 sepenuhnya mendukung menjalankan Deepseek-V3 pada NVIDIA dan AMD GPU, menjadikannya solusi yang sangat fleksibel dan kuat.[1 ]
SGLang juga mendukung paralelisme tensor multi-node, memungkinkan Anda untuk menjalankan model ini pada beberapa mesin yang terhubung dengan jaringan.[1 ]
Multi-Token Prediction (MTP) sedang dalam pengembangan, dan kemajuan dapat dilacak dalam rencana optimasi.[1 ]
Berikut adalah instruksi peluncuran dari tim SGLANG:[1 ]
LMDeploy LMDeploy, inferensi yang fleksibel dan berkinerja tinggi dan kerangka kerja melayani yang dirancang untuk model bahasa besar, sekarang mendukung Deepseek-V3. Ini menawarkan pemrosesan pipa offline dan kemampuan penyebaran online, dengan mulus berintegrasi dengan alur kerja berbasis Pytorch.[1 ]
Untuk instruksi langkah demi langkah komprehensif tentang menjalankan Deepseek-V3 dengan LMDeploy, silakan merujuk di sini:[1 ]
TensorRT-LLM Tensorrt-llm sekarang mendukung model Deepseek-V3, menawarkan opsi presisi seperti bf16 dan int4/int8-only. Dukungan untuk FP8 saat ini sedang berlangsung dan akan segera dirilis. Anda dapat mengakses cabang khusus TRTLLM khusus untuk dukungan Deepseek-V3 melalui tautan berikut untuk mengalami fitur baru secara langsung:[1 ][2 ]
vLLM VLLM V0.6.6 Mendukung inferensi Deepseek-V3 untuk mode FP8 dan BF16 pada NVIDIA dan AMD GPU. Selain teknik standar, VLLM menawarkan paralelisme pipa yang memungkinkan Anda menjalankan model ini pada beberapa mesin yang dihubungkan oleh jaringan. Untuk panduan terperinci, silakan merujuk ke instruksi VLLM. Silakan mengikuti rencana peningkatan juga.[1 ][2 ][3 ]
Bekerja sama dengan tim AMD, Deepseek telah mencapai dukungan sehari-hari untuk AMD GPU menggunakan SGLang, dengan kompatibilitas penuh untuk presisi FP8 dan BF16. Untuk panduan terperinci, silakan merujuk pada instruksi SGLANG.[1 ]
Kerangka kerja Mindie dari komunitas Huawei Ascend telah berhasil mengadaptasi versi BF16 dari Deepseek-V3. Untuk panduan langkah demi langkah tentang Ascend NPU, silakan ikuti instruksi di sini.[1 ][2 ]
Silakan kunjungi bagian penyebaran Deepseek-V3 di atas untuk informasi lebih lanjut tentang menjalankan Deepseek-R1 secara lokal.
CATATAN
Transformer Face Memeluk belum didukung secara langsung.
Model Deepseek-R1-Distill dapat digunakan dengan cara yang sama seperti model QWEN atau LLAMA.
Misalnya, Anda dapat dengan mudah memulai layanan menggunakan VLLM:[1 ]
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
Anda juga dapat dengan mudah memulai layanan menggunakan SGLANG:[1 ]
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
Kami merekomendasikan untuk mematuhi konfigurasi berikut saat menggunakan model seri Deepseek-R1, termasuk benchmarking, untuk mencapai kinerja yang diharapkan:
Selain itu, kami telah mengamati bahwa model seri Deepseek-R1 cenderung mem-bypass pola berpikir (mis., Output <think> </think>) ketika menanggapi pertanyaan tertentu, yang dapat mempengaruhi kinerja model.Untuk memastikan bahwa model terlibat dalam penalaran menyeluruh, kami merekomendasikan menegakkan model untuk memulai responsnya dengan <think> </think> di awal setiap output.
Deepseek-V3-0324 menggunakan model dasar yang sama dengan Deepseek-V3 sebelumnya, dengan hanya peningkatan dalam metode pasca-pelatihan. Untuk penyebaran pribadi, Anda hanya perlu memperbarui pos pemeriksaan dan tokenizer_config.json (alat panggilan terkait panggilan).
Opsi dan kerangka kerja penyebaran untuk Deepseek-V3-0324 identik dengan yang untuk Deepseek-V3 yang dijelaskan dalam Bagian 1. Semua toolkit yang sama (SGLang, LMDeploy, TensorRt-LLM, VLLM) mendukung Deepseek-V3-0324 dengan opsi konfigurasi yang sama.
Informasi tentang lisensi di mana model Deepseek dirilis
Konsisten dengan Deepseek-R1, repositori sumber terbuka kami (termasuk bobot model) secara seragam mengadopsi lisensi MIT, dan memungkinkan pengguna untuk memanfaatkan output model dan metode distilasi untuk melatih model lain.
Lihat lisensiRepositori kode ini dilisensikan di bawah lisensi MIT. Penggunaan model pangkalan/obrolan Deepseek-V3 tunduk pada lisensi model. Deepseek-V3 Series (termasuk Base and Chat) mendukung penggunaan komersial.
Lihat lisensiRepositori kode ini dan bobot model dilisensikan di bawah lisensi MIT. Deepseek-R1 mendukung penggunaan komersial, memungkinkan untuk modifikasi dan karya turunan apa pun, termasuk, tetapi tidak terbatas pada, distilasi untuk melatih LLM lainnya. Harap dicatat bahwa model seperti Deepseek-R1-Distill-Qwen dan Deepseek-R1-Distill-Llama berasal dari model dasar masing-masing dengan lisensi aslinya.
Lihat lisensiModel Deepseek disediakan "sebagaimana adanya" tanpa jaminan tersurat atau tersirat. Pengguna harus menggunakan model dengan risiko sendiri dan memastikan kepatuhan terhadap undang -undang dan peraturan yang relevan. Deepseek tidak bertanggung jawab atas segala kerusakan yang dihasilkan dari penggunaan model -model ini.