डीपसेक एआई मॉडल डाउनलोड करें

अपने अनुप्रयोगों में स्थानीय तैनाती और एकीकरण के लिए डीपसेक के अत्याधुनिक एआई मॉडल का उपयोग करें।

उपलब्ध मॉडल

अलग -अलग उपयोग के मामलों के लिए सिलवाया शक्तिशाली एआई मॉडल की हमारी सीमा से चुनें।

DeepSeek-V3-0324

हमारे प्रमुख मॉडल का नवीनतम संस्करण, जिसमें बढ़ी हुई तर्क क्षमताओं और बेहतर बहुभाषी समर्थन की विशेषता है। 24 मार्च, 2025 को जारी, यह मॉडल कार्यों की एक विस्तृत श्रृंखला में बेहतर प्रदर्शन के साथ हमारे सबसे उन्नत एआई प्रणाली का प्रतिनिधित्व करता है।

दीपसेक-वी 3-0324 मॉडल

नमूनाकुल परमसक्रिय परमसंदर्भ लंबाईडाउनलोड करना
DeepSeek-V3-0324660B37B128KDownload

दीपसेक-वी 3-0324 पिछले डीपसेक-वी 3 के समान बेस मॉडल का उपयोग करता है, जिसमें केवल प्रशिक्षण के बाद के तरीकों में सुधार होता है। निजी तैनाती के लिए, आपको केवल चेकपॉइंट और tokenizer_config.json (टूल कॉल संबंधित परिवर्तन) को अपडेट करना होगा। मॉडल में लगभग 660B पैरामीटर हैं, और ओपन-सोर्स संस्करण 128K संदर्भ लंबाई प्रदान करता है (जबकि वेब, ऐप और एपीआई 64K संदर्भ प्रदान करते हैं)।

स्थानीय स्तर पर कैसे चलाएं

डीपसेक मॉडल को विभिन्न हार्डवेयर और ओपन-सोर्स सामुदायिक सॉफ्टवेयर का उपयोग करके स्थानीय रूप से तैनात किया जा सकता है।

1। दीपसेक-वी 3 परिनियोजन

डीपसेक-वी 3 को निम्नलिखित हार्डवेयर और ओपन-सोर्स सामुदायिक सॉफ्टवेयर का उपयोग करके स्थानीय रूप से तैनात किया जा सकता है:

  1. डीपसेक-इन्फर डेमो: डीपसेक FP8 और BF16 Inference के लिए एक सरल और हल्का डेमो प्रदान करता है।
  2. SGLANG: BF16 और FP8 Inference Modes दोनों में DEEPSEEK-V3 मॉडल का पूरी तरह से समर्थन करें, जिसमें बहु-टोकन भविष्यवाणी जल्द ही आ रही है।[1 ]
  3. LMDEPLOY: स्थानीय और क्लाउड परिनियोजन के लिए कुशल FP8 और BF16 अनुमान को सक्षम करता है।
  4. Tensorrt-LLM: वर्तमान में BF16 Inference और Int4/8 परिमाणीकरण का समर्थन करता है, जिसमें FP8 समर्थन जल्द ही आ रहा है।
  5. VLLM: Tensor समानांतरवाद और पाइपलाइन समानांतरवाद के लिए FP8 और BF16 मोड के साथ डीपसेक-वी 3 मॉडल का समर्थन करें।
  6. AMD GPU: BF16 और FP8 मोड दोनों में SGLANG के माध्यम से AMD GPU पर DEEPSEEK-V3 मॉडल चलाने में सक्षम बनाता है।
  7. Huawei Ascend NPU: Huawei Ascend डिवाइस पर DeepSeek-V3 चलाने का समर्थन करता है।

चूंकि FP8 प्रशिक्षण मूल रूप से हमारे ढांचे में अपनाया जाता है, इसलिए हम केवल FP8 वेट प्रदान करते हैं। यदि आपको प्रयोग के लिए BF16 वेट की आवश्यकता है, तो आप परिवर्तन करने के लिए प्रदान किए गए रूपांतरण स्क्रिप्ट का उपयोग कर सकते हैं।

यहाँ FP8 वेट को BF16 में परिवर्तित करने का एक उदाहरण है:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

टिप्पणी

हगिंग फेस के ट्रांसफॉर्मर को अभी तक सीधे समर्थन नहीं किया गया है।

1.1 डीपसेक-इनर डेमो के साथ अनुमान (केवल उदाहरण)

सिस्टम आवश्यकताएं

टिप्पणी

केवल पायथन 3.10 के साथ लिनक्स। मैक और विंडोज समर्थित नहीं हैं।

निर्भरता:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
मॉडल भार

सबसे पहले, डीपसेक-वी 3 जीथब रिपॉजिटरी क्लोन:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

`Inference` फ़ोल्डर पर नेविगेट करें और` आवश्यकताओं में सूचीबद्ध निर्भरताएं स्थापित करें। सबसे आसान तरीका एक नया आभासी वातावरण बनाने और निर्भरता को स्थापित करने के लिए `conda` या` uv` जैसे पैकेज मैनेजर का उपयोग करना है।

cd DeepSeek-V3/inference
pip install -r requirements.txt

गले लगाने वाले चेहरे से मॉडल वेट डाउनलोड करें, और उन्हें `/पथ//डीपसेक-वी 3` फ़ोल्डर में डालें।

मॉडल भार रूपांतरण

एक विशिष्ट प्रारूप में गले लगाने वाले चेहरे मॉडल वेट कन्वर्ट करें:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
दौड़ना

तब आप डीपसेक-वी 3 के साथ चैट कर सकते हैं:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

या किसी दिए गए फ़ाइल पर बैच का अनुमान:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 sglang के साथ अनुमान (अनुशंसित)

SGLang SGLANG वर्तमान में MLA अनुकूलन, DP ध्यान, FP8 (W8A8), FP8 KV कैश, और मशाल संकलन का समर्थन करता है, जो कि ओपन-सोर्स फ्रेमवर्क के बीच अत्याधुनिक विलंबता और थ्रूपुट प्रदर्शन प्रदान करता है।[1 ][2 ][3 ]

विशेष रूप से, SGLANG V0.4.1 NVIDIA और AMD GPUs दोनों पर डीपसेक-वी 3 चलाने का पूरी तरह से समर्थन करता है, जिससे यह एक अत्यधिक बहुमुखी और मजबूत समाधान बन जाता है।[1 ]

SGLANG मल्टी-नोड टेंसर समानता का भी समर्थन करता है, जिससे आप इस मॉडल को कई नेटवर्क-कनेक्टेड मशीनों पर चलाने में सक्षम बनाते हैं।[1 ]

मल्टी-टोकन भविष्यवाणी (एमटीपी) विकास में है, और अनुकूलन योजना में प्रगति को ट्रैक किया जा सकता है।[1 ]

यहाँ SGLANG टीम से लॉन्च निर्देश दिए गए हैं:[1 ]

1.3 lmdeploy के साथ अनुमान (अनुशंसित)

LMDeploy LMDeploy, एक लचीला और उच्च-प्रदर्शन निष्कर्ष और बड़े भाषा मॉडल के लिए सिलवाया सेवारत रूपरेखा, अब डीपसेक-वी 3 का समर्थन करता है। यह ऑफ़लाइन पाइपलाइन प्रसंस्करण और ऑनलाइन परिनियोजन क्षमताओं दोनों प्रदान करता है, जो मूल रूप से पाइटोर्च-आधारित वर्कफ़्लो के साथ एकीकृत करता है।[1 ]

LMDEPLOY के साथ डीपसेक-वी 3 चलाने पर व्यापक चरण-दर-चरण निर्देशों के लिए, कृपया यहां देखें:[1 ]

1.4 TRT-LLM (अनुशंसित) के साथ अनुमान

TensorRT-LLM Tensorrt-LLM अब BF16 और INT4/INT8 वेट-ओनली जैसे सटीक विकल्पों की पेशकश करते हुए, डीपसेक-वी 3 मॉडल का समर्थन करता है। FP8 के लिए समर्थन वर्तमान में प्रगति पर है और जल्द ही जारी किया जाएगा। आप सीधे नई सुविधाओं का अनुभव करने के लिए निम्नलिखित लिंक के माध्यम से DEEPSEEK-V3 समर्थन के लिए विशेष रूप से TRTLLM की कस्टम शाखा का उपयोग कर सकते हैं:[1 ][2 ]

वीएलएलएम के साथ 1.5 अनुमान (अनुशंसित)

vLLM VLLM V0.6.6 NVIDIA और AMD GPUs दोनों पर FP8 और BF16 मोड के लिए डीपसेक-वी 3 का समर्थन करता है। मानक तकनीकों के अलावा, VLLM पाइपलाइन समानता प्रदान करता है जो आपको नेटवर्क द्वारा जुड़ी कई मशीनों पर इस मॉडल को चलाने की अनुमति देता है। विस्तृत मार्गदर्शन के लिए, कृपया VLLM निर्देशों को देखें। कृपया संवर्द्धन योजना का पालन करने के लिए स्वतंत्र महसूस करें।[1 ][2 ][3 ]

1.6 एएमडी जीपीयू के साथ अनुशंसित निष्कर्ष कार्यक्षमता

एएमडी टीम के सहयोग से, डीपसेक ने एफपी 8 और बीएफ 16 सटीकता दोनों के लिए पूर्ण संगतता के साथ, एसजीएलंग का उपयोग करके एएमडी जीपीयू के लिए दिन-एक समर्थन हासिल किया है। विस्तृत मार्गदर्शन के लिए, कृपया SGLANG निर्देशों को देखें।[1 ]

1.7 Huawei Ascend NPU के साथ अनुशंसित निष्कर्ष कार्यक्षमता

Huawei Ascend समुदाय के Mindie फ्रेमवर्क ने DeepSeek-V3 के BF16 संस्करण को सफलतापूर्वक अनुकूलित किया है। आरोही एनपीयू पर चरण-दर-चरण मार्गदर्शन के लिए, कृपया यहां निर्देशों का पालन करें।[1 ][2 ]

2। डीपसेक-आर 1 परिनियोजन

2.1 डीपसेक-आर 1 मॉडल

कृपया स्थानीय स्तर पर दीपसेक-आर 1 चलाने के बारे में अधिक जानकारी के लिए ऊपर दीपसेक-वी 3 परिनियोजन अनुभाग पर जाएं।

टिप्पणी

हगिंग फेस के ट्रांसफॉर्मर को अभी तक सीधे समर्थन नहीं किया गया है।

2.2 दीपसेक-आर 1-डिस्टिल मॉडल

दीपसेक-आर 1-डिस्टिल मॉडल का उपयोग उसी तरह से किया जा सकता है जैसे कि क्यूवेन या लामा मॉडल।

उदाहरण के लिए, आप आसानी से VLLM का उपयोग करके एक सेवा शुरू कर सकते हैं:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

आप आसानी से SGLANG का उपयोग करके एक सेवा शुरू कर सकते हैं:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 उपयोग की सिफारिशें

हम अपेक्षित प्रदर्शन को प्राप्त करने के लिए बेंचमार्किंग सहित डीपसेक-आर 1 श्रृंखला मॉडल का उपयोग करते समय निम्नलिखित कॉन्फ़िगरेशन का पालन करने की सलाह देते हैं:

  1. अंतहीन पुनरावृत्ति या असंगत आउटपुट को रोकने के लिए 0.5-0.7 (0.6 की सिफारिश की जाती है) की सीमा के भीतर तापमान सेट करें।
  2. सिस्टम प्रॉम्प्ट जोड़ने से बचें; सभी निर्देशों को उपयोगकर्ता प्रॉम्प्ट के भीतर समाहित किया जाना चाहिए।
  3. गणितीय समस्याओं के लिए, आपके संकेत में एक निर्देश को शामिल करना सलाह दी जाती है जैसे: 'कृपया कदम दर कदम, और अपने अंतिम उत्तर को बॉक्सिंग के भीतर रखें।'
  4. मॉडल प्रदर्शन का मूल्यांकन करते समय, कई परीक्षणों का संचालन करने और परिणामों को औसत करने की सिफारिश की जाती है।

इसके अतिरिक्त, हमने देखा है कि डीपसेक-आर 1 श्रृंखला मॉडल कुछ प्रश्नों का जवाब देते समय सोच पैटर्न (यानी, आउटपुट <थिंक> </थिंक>) को बायपास करते हैं, जो मॉडल के प्रदर्शन को प्रतिकूल रूप से प्रभावित कर सकते हैं।यह सुनिश्चित करने के लिए कि मॉडल पूरी तरह से तर्क में संलग्न है, हम हर आउटपुट की शुरुआत में <थिंक> </थिंक> के साथ अपनी प्रतिक्रिया शुरू करने के लिए मॉडल को लागू करने की सलाह देते हैं।

3। दीपसेक-वी 3-0324 परिनियोजन

दीपसेक-वी 3-0324 पिछले डीपसेक-वी 3 के समान बेस मॉडल का उपयोग करता है, जिसमें केवल प्रशिक्षण के बाद के तरीकों में सुधार होता है। निजी तैनाती के लिए, आपको केवल चेकपॉइंट और tokenizer_config.json (टूल कॉल संबंधित परिवर्तन) को अपडेट करना होगा।

डीपसेक-वी 3-0324 के लिए परिनियोजन विकल्प और फ्रेमवर्क धारा 1 में वर्णित डीपसेक-वी 3 के लिए समान हैं। सभी समान टूलकिट (SGLANG, LMDEPLOY, TENSORRT-LLM, VLLM) समान कॉन्फ़िगरेशन विकल्पों के साथ डीपसेक-वी 3-0324 का समर्थन करते हैं।

लाइसेंस जानकारी

उन लाइसेंसों के बारे में जानकारी जिसके तहत दीपसेक मॉडल जारी किए जाते हैं

दीपसेक-वी 3-0324

एमआईटी लाइसेंस

डीपसेक-आर 1 के अनुरूप, हमारे ओपन-सोर्स रिपॉजिटरी (मॉडल वेट सहित) समान रूप से एमआईटी लाइसेंस को अपनाता है, और उपयोगकर्ताओं को अन्य मॉडलों को प्रशिक्षित करने के लिए मॉडल आउटपुट और आसवन के तरीकों का लाभ उठाने की अनुमति देता है।

लाइसेंस -लाइसेंस

दीपसेक-वी 3

एमआईटी लाइसेंस

यह कोड रिपॉजिटरी MIT लाइसेंस के तहत लाइसेंस प्राप्त है। डीपसेक-वी 3 बेस/चैट मॉडल का उपयोग मॉडल लाइसेंस के अधीन है। दीपसेक-वी 3 श्रृंखला (बेस और चैट सहित) व्यावसायिक उपयोग का समर्थन करती है।

लाइसेंस -लाइसेंस

दीपसेक-आर 1

एमआईटी लाइसेंस

यह कोड रिपॉजिटरी और मॉडल वेट MIT लाइसेंस के तहत लाइसेंस प्राप्त है। दीपसेक-आर 1 श्रृंखला वाणिज्यिक उपयोग का समर्थन करती है, किसी भी संशोधन और व्युत्पन्न कार्यों के लिए अनुमति देती है, जिसमें शामिल हैं, लेकिन अन्य एलएलएम के प्रशिक्षण के लिए आसवन तक सीमित नहीं है। कृपया ध्यान दें कि डीपसेक-आर 1-डिस्टिल-क्वेन और डीपसेक-आर 1-डिस्टिल-लामा जैसे मॉडल अपने मूल लाइसेंस के साथ अपने संबंधित बेस मॉडल से प्राप्त होते हैं।

लाइसेंस -लाइसेंस

अस्वीकरण

डीपसेक मॉडल किसी भी एक्सप्रेस या निहित वारंटी के बिना "जैसा है" प्रदान किया जाता है। उपयोगकर्ताओं को अपने जोखिम पर मॉडल का उपयोग करना चाहिए और प्रासंगिक कानूनों और नियमों का अनुपालन सुनिश्चित करना चाहिए। इन मॉडलों के उपयोग से होने वाले किसी भी नुकसान के लिए दीपसेक उत्तरदायी नहीं है।