قم بتنزيل نماذج Deepseek AI

Access Deepseek على أحدث طرازات الذكاء الاصطناعي للنشر المحلي والتكامل في تطبيقاتك.

النماذج المتاحة

اختر من بين مجموعة من نماذج الذكاء الاصطناعى القوية المصممة خصيصًا لحالات الاستخدام المختلفة.

DeepSeek-V3-0324

أحدث إصدار من نموذجنا الرئيسي ، والذي يتميز بإمكانيات التفكير المعززة والدعم متعدد اللغات المحسّن. تم إصدار هذا النموذج في 24 مارس 2025 ، ويمثل نظام الذكاء الاصطناعي الأكثر تقدماً مع أداء فائق عبر مجموعة واسعة من المهام.

تحميل GitHub

نماذج Deepseek-V3-0324

نموذج	إجمالي المعاملات	params المنشط	طول السياق	تحميل
DeepSeek-V3-0324	660B	37B	128K	Download

يستخدم Deepseek-V3-0324 نفس النموذج الأساسي مثل Deepseek-V3 السابق ، مع تحسينات فقط في طرق ما بعد التدريب. للنشر الخاص ، تحتاج فقط إلى تحديث نقطة التفتيش و tokenizer_config.json (أدوات مكالمات التغييرات المتعلقة). يحتوي النموذج على ما يقرب من 660B معلمات ، ويوفر الإصدار المفتوح المصدر طول سياق 128K (بينما يوفر الويب والتطبيق و API سياق 64K).

DeepSeek-V3

نموذجنا القوي للأغراض العامة مع استثنائي التفكير والفهم وقدرات التوليد. يتفوق Deepseek-V3 في حل المشكلات المعقدة ويوضح أداءً قويًا في المجالات الفنية.

تحميل GitHub

نماذج Deepseek-V3

نموذج	إجمالي المعاملات	params المنشط	طول السياق	تحميل
DeepSeek-V3-Base	671B	37B	128K	Download
DeepSeek-V3	671B	37B	128K	Download

ملحوظة

يبلغ الحجم الإجمالي لنماذج Deepseek-V3 على وجه العناق 685B ، والذي يتضمن 671B من أوزان النموذج الرئيسية و 14B من أوزان وحدة التنبؤ متعددة التنبؤ (MTP).

لضمان الأداء الأمثل والمرونة ، عقدت Deepseek شراكة مع مجتمعات مفتوحة المصدر وبائعي الأجهزة لتوفير طرق متعددة لتشغيل النموذج محليًا. للحصول على إرشادات خطوة بخطوة ، تحقق من قسم "كيفية التشغيل محليًا" أدناه.

DeepSeek-R1-0528

خضع طراز Deepseek R1 لترقية إصدار ثانوي ، حيث كان الإصدار الحالي Deepseek-R1-0528. في آخر تحديث ، قام Deepseek R1 بتحسين عمق قدرات التفكير والاستدلال بشكل كبير من خلال الاستفادة من موارد حسابية متزايدة وإدخال آليات التحسين الخوارزمية أثناء التدريب. أظهر النموذج أداءً متميزاً عبر مختلف التقييمات القياسية ، بما في ذلك الرياضيات والبرمجة والمنطق العام. يقترب أدائها العام الآن من نماذج الرائدة ، مثل O3 و Gemini 2.5 Pro.

تحميل GitHub

نماذج Deepseek-R1-0528

نموذج	إجمالي المعاملات	params المنشط	طول السياق	تحميل
DeepSeek-R1-0528	685B	37B	128K	Download

بالمقارنة مع الإصدار السابق ، يُظهر النموذج الذي تمت ترقيته تحسينات كبيرة في التعامل مع مهام التفكير المعقدة. على سبيل المثال ، في اختبار AIME 2025 ، زادت دقة النموذج من 70 ٪ في الإصدار السابق إلى 87.5 ٪ في الإصدار الحالي. ينبع هذا التقدم من عمق التفكير المحسّن أثناء عملية التفكير: في مجموعة اختبار AIME ، استخدم النموذج السابق في المتوسط 12 ألف رمز لكل سؤال ، في حين أن الإصدار الجديد يبلغ متوسطه 23 كيلو رموز لكل سؤال.

DeepSeek-R1

من المتخصص في مهام التفكير المتقدم ، يقدم Deepseek-R1 أداءً متميزًا في الرياضيات والترميز والتحديات المنطقية للتفكير. تم تصميمه بتقنيات التعلم التعزيز ، ويوفر قدرات لا مثيل لها لحل المشكلات.

تحميل GitHub

Deepseek-R1-Zero

نماذج Deepseek-R1

نموذج	إجمالي المعاملات	params المنشط	طول السياق	تحميل
DeepSeek-R1-Zero	671B	37B	128K	Download
DeepSeek-R1	671B	37B	128K	Download

يتم ضبط نماذج Deepseek-R1-Distill على أساس نماذج مفتوحة المصدر ، باستخدام العينات التي تم إنشاؤها بواسطة DeepSeek-R1. نحن نغير قليلا التكوينات والرمز المميزات. يرجى استخدام الإعداد لدينا لتشغيل هذه النماذج.

نماذج Deepseek-R1-Distill

نموذج	نموذج قاعدة	تحميل
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	Download
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	Download
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	Download
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	Download
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	Download
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	Download

كيفية الجري محليا

يمكن نشر نماذج Deepseek محليًا باستخدام مختلف الأجهزة ومجتمع المصدر المفتوح.

1. Deepseek-V3 النشر

يمكن نشر Deepseek-V3 محليًا باستخدام الأجهزة التالية وبرامج المجتمع المفتوح المصدر:

Deepseek-Infer Demo: يوفر Deepseek عرضًا بسيطًا وخفيف الوزن لاستنتاج FP8 و BF16.
SGLANG: دعم تمامًا نموذج Deepseek-V3 في كل من أوضاع الاستدلال BF16 و FP8 ، مع تنبؤ متعدد الأجزاء قريبًا.[1 ]
LMDeploy: يتيح استنتاج FP8 و BF16 الفعال للنشر المحلي والسحابي.
Tensorrt-LLM: يدعم حاليًا الاستدلال BF16 وقياس int4/8 ، مع دعم FP8 قريبًا.
VLLM: دعم نموذج Deepseek-V3 مع أوضاع FP8 و BF16 للتوازي الموتر وتوازي خط الأنابيب.
AMD GPU: يتيح تشغيل نموذج Deepseek-V3 على AMD GPU عبر SGLANG في كل من أوضاع BF16 و FP8.
Huawei Ascend NPU: يدعم تشغيل Deepseek-V3 على أجهزة Huawei Ascend.

نظرًا لأن تدريب FP8 تم اعتماده أصليًا في إطار عملنا ، فإننا نقدم فقط أوزان FP8. إذا كنت بحاجة إلى أوزان BF16 للتجربة ، فيمكنك استخدام البرنامج النصي للتحويل المقدم لأداء التحول.

فيما يلي مثال على تحويل أوزان FP8 إلى BF16:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

ملحوظة

لم يتم دعم محولات Face's Transformers مباشرة بعد.

1.1 الاستدلال مع Deepseek-Infer العرض (مثال فقط)

متطلبات النظام

ملحوظة

Linux مع Python 3.10 فقط. لا يتم دعم MAC و Windows.

التبعيات:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5

الأوزان النموذجية

أولاً ، استنساخ مستودع Deepseek-V3 github:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

انتقل إلى مجلد "الاستدلال" وتثبيت التبعيات المدرجة في "المتطلبات. txt`. أسهل طريقة هي استخدام مدير الحزمة مثل "كوندا" أو "UV" لإنشاء بيئة افتراضية جديدة وتثبيت التبعيات.

cd DeepSeek-V3/inference
pip install -r requirements.txt

قم بتنزيل الأوزان النموذجية من Face Face ، ووضعها في مجلد `/to/deepseek-v3`.

نموذج تحويل الأوزان

تحويل أوزان نموذج الوجه المعانقة إلى تنسيق محدد:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

يجري

ثم يمكنك الدردشة مع Deepseek-V3:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

أو استنتاج الدُفعات على ملف معين:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 الاستدلال مع SGLANG (موصى به)

SGLang يدعم SGLANG حاليًا تحسينات MLA ، واهتمام DP ، و FP8 (W8A8) ، و FP8 KV ذاكرة التخزين المؤقت ، وتجميع الشعلة ، مما يوفر أداء الكمون الحديث وأداء الإنتاجية بين أطر العمل المفتوح.[1 ][2 ][3 ]

والجدير بالذكر أن SGLANG V0.4.1 يدعم تمامًا تشغيل Deepseek-V3 على كل من NVIDIA و AMD GPUS ، مما يجعله حلاً متعدد الاستخدامات وقوي للغاية.[1 ]

يدعم SGLANG أيضًا موازاة الموتر متعدد العقدة ، مما يتيح لك تشغيل هذا النموذج على آلات متعددة متصلة بالشبكة.[1 ]

التنبؤ المتعدد (MTP) قيد التطوير ، ويمكن تتبع التقدم في خطة التحسين.[1 ]

فيما يلي تعليمات الإطلاق من فريق SGLANG:[1 ]

1.3 الاستدلال مع LMDeploy (موصى به)

LMDeploy LMDeploy ، وهو استدلال مرن وعالي الأداء وإطار عمل مصمم خصيصًا لنماذج اللغة الكبيرة ، يدعم الآن Deepseek-V3. إنه يوفر كل من معالجة خطوط الأنابيب في وضع عدم الاتصال وإمكانيات النشر عبر الإنترنت ، مع الاندماج بسلاسة مع سير العمل المستندة إلى Pytorch.[1 ]

للحصول على تعليمات شاملة خطوة بخطوة حول تشغيل Deepseek-V3 مع LMDeploy ، يرجى الرجوع إلى هنا:[1 ]

1.4 الاستدلال مع TRT-LLM (موصى به)

TensorRT-LLM يدعم Tensorrt-Llm الآن نموذج Deepseek-V3 ، حيث يقدم خيارات دقيقة مثل BF16 و Int4/Int8 فقط. الدعم لـ FP8 قيد التقدم حاليًا وسيتم إصداره قريبًا. يمكنك الوصول إلى الفرع المخصص لـ TRTLLM خصيصًا لدعم Deepseek-V3 من خلال الرابط التالي لتجربة الميزات الجديدة مباشرة:[1 ][2 ]

1.5 الاستدلال مع VLLM (موصى به)

vLLM يدعم VLLM V0.6.6 الاستدلال Deepseek-V3 لأوضاع FP8 و BF16 على كل من NVIDIA و AMD GPUs. بصرف النظر عن التقنيات القياسية ، يوفر VLLM موازية لخط الأنابيب مما يتيح لك تشغيل هذا النموذج على أجهزة متعددة متصلة بالشبكات. للحصول على إرشادات مفصلة ، يرجى الرجوع إلى تعليمات VLLM. لا تتردد في متابعة خطة التحسين أيضًا.[1 ][2 ][3 ]

1.6 وظيفة الاستدلال الموصى بها مع AMD GPUS

بالتعاون مع فريق AMD ، حقق Deepseek دعمًا لـ AMD GPU باستخدام SGLANG ، مع توافق كامل لكل من دقة FP8 و BF16. للحصول على إرشادات مفصلة ، يرجى الرجوع إلى تعليمات SGLANG.[1 ]

1.7 وظيفة الاستدلال الموصى بها مع Huawei Ascend NPUS

قام إطار Mindie من مجتمع Huawei Ascend بتكييف إصدار BF16 من Deepseek-V3 بنجاح. للحصول على إرشادات خطوة بخطوة على Ascend NPU ، يرجى اتباع التعليمات هنا.[1 ][2 ]

2. ديبسيك-R1 النشر

2.1 نماذج Deepseek-R1

يرجى زيارة قسم نشر Deepseek-V3 أعلاه لمزيد من المعلومات حول تشغيل DeepSeek-R1 محليًا.

ملحوظة

لم يتم دعم محولات Face's Transformers مباشرة بعد.

2.2 نماذج Deepseek-R1-Distill

يمكن استخدام نماذج Deepseek-R1-Distill بنفس الطريقة التي يتم بها نماذج Qwen أو Llama.

على سبيل المثال ، يمكنك بسهولة بدء خدمة باستخدام VLLM:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

يمكنك أيضًا بدء خدمة باستخدام SGLANG:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 توصيات الاستخدام

نوصي بالالتزام بالتكوينات التالية عند استخدام نماذج سلسلة DeepSeek-R1 ، بما في ذلك القياس ، لتحقيق الأداء المتوقع:

اضبط درجة الحرارة في حدود 0.5-0.7 (0.6) لمنع التكرار الذي لا نهاية له أو المخرجات غير المترابطة.
تجنب إضافة موجه النظام ؛ يجب احتواء جميع الإرشادات داخل موجه المستخدم.
بالنسبة للمشاكل الرياضية ، يُنصح بتضمين توجيه في مطالبك مثل: "يرجى العقل خطوة بخطوة ، ووضع إجابتك النهائية داخل المعبأة".
عند تقييم أداء النموذج ، يوصى بإجراء اختبارات متعددة ومتوسط النتائج.

بالإضافة إلى ذلك ، لاحظنا أن نماذج سلسلة DeepSeek-R1 تميل إلى تجاوز نمط التفكير (أي إخراج <think> </think>) عند الاستجابة لبعض الاستعلامات ، والتي يمكن أن تؤثر سلبًا على أداء النموذج.للتأكد من أن النموذج يشارك في التفكير الشامل ، نوصي بتطبيق النموذج لبدء استجابته بـ <think> </think> في بداية كل مخرج.

3. DEEPSEEK-V3-0324 النشر

يستخدم Deepseek-V3-0324 نفس النموذج الأساسي مثل Deepseek-V3 السابق ، مع تحسينات فقط في طرق ما بعد التدريب. للنشر الخاص ، تحتاج فقط إلى تحديث نقطة التفتيش و tokenizer_config.json (أدوات مكالمات التغييرات المتعلقة).

تتطابق خيارات النشر وأطر العمل لـ DEEPSEEK-V3-0324 لتلك الخاصة بـ DEEPSEEK-V3 الموضحة في القسم 1. جميع مجموعات الأدوات نفسها (SGLANG ، LMDEPLOY ، TENSORRT-LLM ، VLLM) تدعم Deepseek-V3-0324 مع نفس خيارات التكوين.

معلومات الترخيص

معلومات حول التراخيص التي يتم بموجبها إصدار نماذج Deepseek

Deepseek-V3-0324

رخصة معهد ماساتشوستس للتكنولوجيا

تمشيا مع DeepSeek-R1 ، يعتمد مستودعنا مفتوح المصدر (بما في ذلك الأوزان النموذجية) بشكل موحد ترخيص معهد ماساتشوستس للتكنولوجيا ، ويسمح للمستخدمين بالاستفادة من مخرجات النماذج وطرق التقطير لتدريب النماذج الأخرى.

عرض الترخيص

Deepseek-V3

رخصة معهد ماساتشوستس للتكنولوجيا

تم ترخيص مستودع الرمز هذا بموجب ترخيص معهد ماساتشوستس للتكنولوجيا. يخضع استخدام طرز قاعدة DeepSeek-V3/الدردشة لترخيص النموذج. تدعم سلسلة Deepseek-V3 (بما في ذلك القاعدة والدردشة) الاستخدام التجاري.

عرض الترخيص

Deepseek-R1

رخصة معهد ماساتشوستس للتكنولوجيا

يتم ترخيص مستودع الرمز هذا والأوزان النموذجية بموجب ترخيص معهد ماساتشوستس للتكنولوجيا. تدعم سلسلة DeepSeek-R1 الاستخدام التجاري ، والسماح بأي تعديلات وأعمال مشتقة ، بما في ذلك ، على سبيل المثال لا الحصر ، التقطير لتدريب LLMs الأخرى. يرجى ملاحظة أن نماذج مثل Deepseek-R1-Distill-Qwen و Deepseek-R1-Distill-llama مشتقة من نماذج القاعدة الخاصة بها مع تراخيصهم الأصلية.

عرض الترخيص

تنصل

يتم توفير نماذج Deepseek "كما هي" دون أي ضمانات صريحة أو ضمنية. يجب على المستخدمين استخدام النماذج على مسؤوليتهم الخاصة وضمان الامتثال للقوانين واللوائح ذات الصلة. Deepseek غير مسؤول عن أي أضرار ناتجة عن استخدام هذه النماذج.