Unduh model AI Deepseek

Akses model AI canggih Deepseek untuk penyebaran dan integrasi lokal ke dalam aplikasi Anda.

Model yang tersedia

Pilih dari berbagai model AI kami yang dirancang untuk kasus penggunaan yang berbeda.

DeepSeek-V3.1

DeepSeek-V3.1 adalah model AI revolusioner dengan peningkatan penting berdasarkan V3 asli. Memiliki 671B parameter total, 37B parameter yang diaktifkan per token, mendukung panjang konteks 128K dan mengintegrasikan kemampuan penalaran mendalam langsung ke dalam model utama.

Unduh GitHub

Model DeepSeek-V3.1

Model	Param total	Param yang diaktifkan	Panjang konteks	Unduh
DeepSeek-V3.1-Base	671B	37B	128K	Download

DeepSeek-V3.1 adalah peningkatan bertahap berdasarkan V3 asli, ditandai dengan jendela konteks yang diperluas dan kemampuan penalaran yang ditingkatkan.

DeepSeek-V3-0324

Versi terbaru dari model andalan kami, menampilkan kemampuan penalaran yang ditingkatkan dan meningkatkan dukungan multibahasa. Dirilis pada 24 Maret 2025, model ini mewakili sistem AI kami yang paling canggih dengan kinerja superior di berbagai tugas.

Unduh GitHub

Model Deepseek-V3-0324

Model	Param total	Param yang diaktifkan	Panjang konteks	Unduh
DeepSeek-V3-0324	660B	37B	128K	Download

Deepseek-V3-0324 menggunakan model dasar yang sama dengan Deepseek-V3 sebelumnya, dengan hanya peningkatan dalam metode pasca-pelatihan. Untuk penyebaran pribadi, Anda hanya perlu memperbarui pos pemeriksaan dan tokenizer_config.json (alat panggilan terkait panggilan). Model ini memiliki sekitar 660B parameter, dan versi open-source menawarkan panjang konteks 128k (sementara Web, App, dan API menyediakan konteks 64K).

DeepSeek-V3

Model AI tujuan umum kami yang kuat dengan penalaran, pemahaman, dan kemampuan generasi yang luar biasa. Deepseek-V3 unggul pada pemecahan masalah yang kompleks dan menunjukkan kinerja yang kuat dalam domain teknis.

Unduh GitHub

Model Deepseek-V3

Model	Param total	Param yang diaktifkan	Panjang konteks	Unduh
DeepSeek-V3-Base	671B	37B	128K	Download
DeepSeek-V3	671B	37B	128K	Download

CATATAN

Ukuran total model Deepseek-V3 pada wajah peluk adalah 685B, yang mencakup 671b bobot model utama dan 14b bobot modul prediksi multi-token (MTP).

Untuk memastikan kinerja dan fleksibilitas yang optimal, Deepseek telah bermitra dengan komunitas open-source dan vendor perangkat keras untuk menyediakan banyak cara untuk menjalankan model secara lokal. Untuk panduan langkah demi langkah, lihat bagian "Cara menjalankan secara lokal" di bawah ini.

DeepSeek-R1-0528

Model Deepseek R1 telah mengalami peningkatan versi minor, dengan versi saat ini adalah Deepseek-R1-0528. Dalam pembaruan terbaru, Deepseek R1 telah secara signifikan meningkatkan kedalaman penalaran dan kemampuan inferensi dengan memanfaatkan peningkatan sumber daya komputasi dan memperkenalkan mekanisme optimasi algoritmik selama pasca-pelatihan. Model ini telah menunjukkan kinerja luar biasa di berbagai evaluasi benchmark, termasuk matematika, pemrograman, dan logika umum. Kinerja keseluruhannya sekarang mendekati model terkemuka, seperti O3 dan Gemini 2.5 Pro.

Unduh GitHub

Model Deepseek-R1-0528

Model	Param total	Param yang diaktifkan	Panjang konteks	Unduh
DeepSeek-R1-0528	685B	37B	128K	Download

Dibandingkan dengan versi sebelumnya, model yang ditingkatkan menunjukkan peningkatan yang signifikan dalam menangani tugas penalaran yang kompleks. Misalnya, dalam tes AIME 2025, akurasi model telah meningkat dari 70% pada versi sebelumnya menjadi 87,5% dalam versi saat ini. Kemajuan ini berasal dari peningkatan kedalaman berpikir selama proses penalaran: di set tes AIME, model sebelumnya menggunakan rata -rata 12k token per pertanyaan, sedangkan versi baru rata -rata 23K token per pertanyaan.

DeepSeek-R1

Khusus untuk tugas penalaran lanjutan, Deepseek-R1 memberikan kinerja luar biasa dalam matematika, pengkodean, dan tantangan penalaran logis. Dibangun dengan teknik pembelajaran penguatan, ia menawarkan kemampuan pemecahan masalah yang tak tertandingi.

Unduh GitHub

Deepseek-R1-Zero

Model Deepseek-R1

Model	Param total	Param yang diaktifkan	Panjang konteks	Unduh
DeepSeek-R1-Zero	671B	37B	128K	Download
DeepSeek-R1	671B	37B	128K	Download

Model Deepseek-R1-Distill disesuaikan berdasarkan model open-source, menggunakan sampel yang dihasilkan oleh Deepseek-R1. Kami sedikit mengubah konfigurasi dan token. Harap gunakan pengaturan kami untuk menjalankan model ini.

Model Deepseek-R1-Distill

Model	Model dasar	Unduh
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	Download
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	Download
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	Download
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	Download
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	Download
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	Download

Cara Berlari Secara Lokal

Model Deepseek dapat digunakan secara lokal menggunakan berbagai perangkat keras dan perangkat lunak komunitas open-source.

1. Deepseek-V3 Deployment

Deepseek-V3 dapat digunakan secara lokal menggunakan perangkat keras dan perangkat lunak komunitas open-source berikut:

Deepseek-Infer Demo: Deepseek menyediakan demo sederhana dan ringan untuk inferensi FP8 dan BF16.
SGLANG: sepenuhnya mendukung model Deepseek-V3 dalam mode inferensi BF16 dan FP8, dengan prediksi multi-token segera hadir.[1 ]
LMDeploy: Mengaktifkan inferensi FP8 dan BF16 yang efisien untuk penyebaran lokal dan cloud.
Tensorrt-llm: Saat ini mendukung inferensi BF16 dan kuantisasi int4/8, dengan dukungan FP8 segera hadir.
VLLM: Mendukung model Deepseek-V3 dengan mode FP8 dan BF16 untuk paralelisme tensor dan paralelisme pipa.
AMD GPU: Memungkinkan menjalankan model Deepseek-V3 pada AMD GPU melalui SGLang dalam mode BF16 dan FP8.
Huawei Ascend NPU: Mendukung menjalankan Deepseek-V3 di perangkat Huawei Ascend.

Karena pelatihan FP8 diadopsi secara asli dalam kerangka kerja kami, kami hanya menyediakan bobot FP8. Jika Anda memerlukan bobot BF16 untuk eksperimen, Anda dapat menggunakan skrip konversi yang disediakan untuk melakukan transformasi.

Berikut adalah contoh mengubah bobot FP8 menjadi BF16:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

CATATAN

Transformer Face Memeluk belum didukung secara langsung.

1.1 Inferensi dengan demo Deepseek-Infer (hanya contoh)

Persyaratan sistem

CATATAN

Linux dengan Python 3.10 saja. Mac dan Windows tidak didukung.

Ketergantungan:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5

Bobot model

Pertama, klon The Deepseek-V3 Github Repository:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

Arahkan ke folder `inferensi` dan instal dependensi yang tercantum dalam` persyaratan.txt`. Cara termudah adalah dengan menggunakan manajer paket seperti `conda` atau` uv` untuk membuat lingkungan virtual baru dan menginstal dependensi.

cd DeepSeek-V3/inference
pip install -r requirements.txt

Unduh bobot model dari wajah memeluk, dan masukkan ke dalam folder `/Path/to/Deepseek-V3`.

Konversi Bobot Model

Konversi bobot model wajah pelukan ke format tertentu:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

Berlari

Kemudian Anda dapat mengobrol dengan Deepseek-V3:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

Atau inferensi batch pada file yang diberikan:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Inferensi dengan SGLANG (Direkomendasikan)

SGLang SGLANG saat ini mendukung optimisasi MLA, perhatian DP, FP8 (W8A8), cache FP8 KV, dan kompilasi obor, memberikan kinerja latensi dan throughput yang canggih di antara kerangka kerja sumber terbuka.[1 ][2 ][3 ]

Khususnya, SGLang V0.4.1 sepenuhnya mendukung menjalankan Deepseek-V3 pada NVIDIA dan AMD GPU, menjadikannya solusi yang sangat fleksibel dan kuat.[1 ]

SGLang juga mendukung paralelisme tensor multi-node, memungkinkan Anda untuk menjalankan model ini pada beberapa mesin yang terhubung dengan jaringan.[1 ]

Multi-Token Prediction (MTP) sedang dalam pengembangan, dan kemajuan dapat dilacak dalam rencana optimasi.[1 ]

Berikut adalah instruksi peluncuran dari tim SGLANG:[1 ]

1.3 Inferensi dengan LMDeploy (Direkomendasikan)

LMDeploy LMDeploy, inferensi yang fleksibel dan berkinerja tinggi dan kerangka kerja melayani yang dirancang untuk model bahasa besar, sekarang mendukung Deepseek-V3. Ini menawarkan pemrosesan pipa offline dan kemampuan penyebaran online, dengan mulus berintegrasi dengan alur kerja berbasis Pytorch.[1 ]

Untuk instruksi langkah demi langkah komprehensif tentang menjalankan Deepseek-V3 dengan LMDeploy, silakan merujuk di sini:[1 ]

1.4 Inferensi dengan TRT-LLM (Direkomendasikan)

TensorRT-LLM Tensorrt-llm sekarang mendukung model Deepseek-V3, menawarkan opsi presisi seperti bf16 dan int4/int8-only. Dukungan untuk FP8 saat ini sedang berlangsung dan akan segera dirilis. Anda dapat mengakses cabang khusus TRTLLM khusus untuk dukungan Deepseek-V3 melalui tautan berikut untuk mengalami fitur baru secara langsung:[1 ][2 ]

1.5 Inferensi dengan VLLM (Direkomendasikan)

vLLM VLLM V0.6.6 Mendukung inferensi Deepseek-V3 untuk mode FP8 dan BF16 pada NVIDIA dan AMD GPU. Selain teknik standar, VLLM menawarkan paralelisme pipa yang memungkinkan Anda menjalankan model ini pada beberapa mesin yang dihubungkan oleh jaringan. Untuk panduan terperinci, silakan merujuk ke instruksi VLLM. Silakan mengikuti rencana peningkatan juga.[1 ][2 ][3 ]

1.6 Fungsionalitas inferensi yang disarankan dengan AMD GPU

Bekerja sama dengan tim AMD, Deepseek telah mencapai dukungan sehari-hari untuk AMD GPU menggunakan SGLang, dengan kompatibilitas penuh untuk presisi FP8 dan BF16. Untuk panduan terperinci, silakan merujuk pada instruksi SGLANG.[1 ]

1.7 Fungsionalitas inferensi yang direkomendasikan dengan Huawei Ascend NPU

Kerangka kerja Mindie dari komunitas Huawei Ascend telah berhasil mengadaptasi versi BF16 dari Deepseek-V3. Untuk panduan langkah demi langkah tentang Ascend NPU, silakan ikuti instruksi di sini.[1 ][2 ]

2. Deepseek-R1 Penyebaran

2.1 Model Deepseek-R1

Silakan kunjungi bagian penyebaran Deepseek-V3 di atas untuk informasi lebih lanjut tentang menjalankan Deepseek-R1 secara lokal.

CATATAN

Transformer Face Memeluk belum didukung secara langsung.

2.2 Model Deepseek-R1-Distill

Model Deepseek-R1-Distill dapat digunakan dengan cara yang sama seperti model QWEN atau LLAMA.

Misalnya, Anda dapat dengan mudah memulai layanan menggunakan VLLM:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

Anda juga dapat dengan mudah memulai layanan menggunakan SGLANG:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 Rekomendasi Penggunaan

Kami merekomendasikan untuk mematuhi konfigurasi berikut saat menggunakan model seri Deepseek-R1, termasuk benchmarking, untuk mencapai kinerja yang diharapkan:

Atur suhu dalam kisaran 0,5-0,7 (0,6 disarankan) untuk mencegah pengulangan tanpa akhir atau output yang tidak koheren.
Hindari menambahkan prompt sistem; Semua instruksi harus terkandung dalam prompt pengguna.
Untuk masalah matematika, disarankan untuk memasukkan arahan dalam prompt Anda seperti: 'Harap alasan langkah demi langkah, dan letakkan jawaban akhir Anda dalam kotak.'
Saat mengevaluasi kinerja model, disarankan untuk melakukan beberapa tes dan rata -rata hasilnya.

Selain itu, kami telah mengamati bahwa model seri Deepseek-R1 cenderung mem-bypass pola berpikir (mis., Output <think> </think>) ketika menanggapi pertanyaan tertentu, yang dapat mempengaruhi kinerja model.Untuk memastikan bahwa model terlibat dalam penalaran menyeluruh, kami merekomendasikan menegakkan model untuk memulai responsnya dengan <think> </think> di awal setiap output.

3. Deepseek-V3-0324 Penyebaran

Deepseek-V3-0324 menggunakan model dasar yang sama dengan Deepseek-V3 sebelumnya, dengan hanya peningkatan dalam metode pasca-pelatihan. Untuk penyebaran pribadi, Anda hanya perlu memperbarui pos pemeriksaan dan tokenizer_config.json (alat panggilan terkait panggilan).

Opsi dan kerangka kerja penyebaran untuk Deepseek-V3-0324 identik dengan yang untuk Deepseek-V3 yang dijelaskan dalam Bagian 1. Semua toolkit yang sama (SGLang, LMDeploy, TensorRt-LLM, VLLM) mendukung Deepseek-V3-0324 dengan opsi konfigurasi yang sama.

Informasi lisensi

Informasi tentang lisensi di mana model Deepseek dirilis

Deepseek-V3-0324

Lisensi MIT

Konsisten dengan Deepseek-R1, repositori sumber terbuka kami (termasuk bobot model) secara seragam mengadopsi lisensi MIT, dan memungkinkan pengguna untuk memanfaatkan output model dan metode distilasi untuk melatih model lain.

Lihat lisensi

Deepseek-V3

Lisensi MIT

Repositori kode ini dilisensikan di bawah lisensi MIT. Penggunaan model pangkalan/obrolan Deepseek-V3 tunduk pada lisensi model. Deepseek-V3 Series (termasuk Base and Chat) mendukung penggunaan komersial.

Lihat lisensi

Deepseek-R1

Lisensi MIT

Repositori kode ini dan bobot model dilisensikan di bawah lisensi MIT. Deepseek-R1 mendukung penggunaan komersial, memungkinkan untuk modifikasi dan karya turunan apa pun, termasuk, tetapi tidak terbatas pada, distilasi untuk melatih LLM lainnya. Harap dicatat bahwa model seperti Deepseek-R1-Distill-Qwen dan Deepseek-R1-Distill-Llama berasal dari model dasar masing-masing dengan lisensi aslinya.

Lihat lisensi

Penafian

Model Deepseek disediakan "sebagaimana adanya" tanpa jaminan tersurat atau tersirat. Pengguna harus menggunakan model dengan risiko sendiri dan memastikan kepatuhan terhadap undang -undang dan peraturan yang relevan. Deepseek tidak bertanggung jawab atas segala kerusakan yang dihasilkan dari penggunaan model -model ini.