Скачать модели DeepSeek AI

Обратитесь к современным моделям искусственного интеллекта Deepseek для локального развертывания и интеграции в ваши приложения.

Доступные модели

Выберите из нашего ассортимента мощных моделей ИИ, адаптированных для различных вариантов использования.

DeepSeek-V3-0324

Последняя версия нашей флагманской модели с расширенными возможностями рассуждений и улучшенной многоязычной поддержкой. Выпущенная 24 марта 2025 года, эта модель представляет нашу самую передовую систему ИИ с превосходной производительностью в широком спектре задач.

Скачать GitHub

DeepSeek-V3-0324 модели

Модель	Общий параметры	Активированные параметры	Контекст длины	Скачать
DeepSeek-V3-0324	660B	37B	128K	Download

DeepSeek-V3-0324 использует ту же базовую модель, что и предыдущая DeepSeek-V3, с только улучшениями в методах после тренировки. Для частного развертывания вам нужно только обновить контрольную точку и tokenizer_config.json (связанные с инструментами изменения). Модель имеет приблизительно 660b параметры, а версия с открытым исходным кодом предлагает длину контекста 128 тыс. (В то время как веб-сайт, приложение и API предоставляют 64K контекст).

DeepSeek-V3

Наша мощная модель ИИ общего назначения с исключительными рассуждениями, пониманием и возможностями генерации. DeepSeek-V3 превосходит сложное решение проблем и демонстрирует сильную производительность в технических областях.

Скачать GitHub

DeepSeek-V3 модели

Модель	Общий параметры	Активированные параметры	Контекст длины	Скачать
DeepSeek-V3-Base	671B	37B	128K	Download
DeepSeek-V3	671B	37B	128K	Download

ПРИМЕЧАНИЕ

Общий размер моделей DeepSeek-V3 на обнимающемся лице составляет 685b, что включает 671b от веса основной модели и 14b веса модуля многоцветного прогнозирования (MTP).

Чтобы обеспечить оптимальную производительность и гибкость, DeepSeek сотрудничает с сообществами с открытым исходным кодом и поставщиками оборудования, чтобы обеспечить несколько способов запуска модели локально. Для пошагового руководства, ознакомьтесь с разделом «Как работать локально» ниже.

DeepSeek-R1-0528

Модель DeepSeek R1 прошла незначительное обновление версии, а текущая версия-DeepSeek-R1-0528. В последнем обновлении DeepSeek R1 значительно улучшил свои возможности рассуждения и вывода, используя повышенные вычислительные ресурсы и внедряя механизмы алгоритмической оптимизации во время после тренировки. Модель продемонстрировала выдающуюся производительность в различных эталонных оценках, включая математику, программирование и общую логику. Его общая производительность в настоящее время приближается к производительности ведущих моделей, таких как O3 и Gemini 2.5 Pro.

Скачать GitHub

DeepSeek-R1-0528 модели

Модель	Общий параметры	Активированные параметры	Контекст длины	Скачать
DeepSeek-R1-0528	685B	37B	128K	Download

По сравнению с предыдущей версией, модернизированная модель показывает значительные улучшения в обработке сложных задач. Например, в тесте AIME 2025 точность модели увеличилась с 70% в предыдущей версии до 87,5% в текущей версии. Это продвижение связано с расширенной глубиной мышления в процессе рассуждения: в наборе испытаний AIME в предыдущей модели использовались в среднем 12 тысяч токенов за вопрос, тогда как в новой версии в среднем 23K токены за вопрос.

DeepSeek-R1

DeepSeek-R1, специализирующийся на передовых рассуждениях, обеспечивает выдающуюся производительность по математике, кодированию и логическим рассуждениям. Построенный из методов обучения подкрепления, он предлагает непревзойденные способности решать проблемы.

Скачать GitHub

DeepSeek-R1-Zero

Модели DeepSeek-R1

Модель	Общий параметры	Активированные параметры	Контекст длины	Скачать
DeepSeek-R1-Zero	671B	37B	128K	Download
DeepSeek-R1	671B	37B	128K	Download

Модели DeepSeek-R1-Distill хорошо настроены на основе моделей с открытым исходным кодом, используя образцы, генерируемые DeepSeek-R1. Мы немного изменили их конфигурации и токенизаторы. Пожалуйста, используйте наши настройки для запуска этих моделей.

DeepSeek-R1-Distill Models

Модель	Базовая модель	Скачать
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	Download
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	Download
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	Download
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	Download
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	Download
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	Download

Как бежать локально

Модели DeepSeek могут быть развернуты локально с использованием различных аппаратных и открытых программных программ.

1. Развертывание DeepSeek-V3

DeepSeek-V3 может быть развернут локально, используя следующее программное обеспечение для оборудования и сообщества с открытым исходным кодом:

DeepSeek-Infer Demo: DeepSeek предоставляет простую и легкую демонстрацию для вывода FP8 и BF16.
SGLANG: Полностью поддерживайте модель DeepSeek-V3 в режимах вывода BF16 и FP8, при этом в ближайшее время появится предсказание с несколькими точками.[1 ]
LMDEPLOY: позволяет эффективно вывести вывод FP8 и BF16 для локального и облачного развертывания.
Tensorrt-LLM: в настоящее время поддерживает вывод BF16 и квантование INT4/8, причем в ближайшее время появится поддержка FP8.
VLLM: поддержка модели DeepSeek-V3 с режимами FP8 и BF16 для тензора параллелизма и параллелизма трубопровода.
GPU AMD: позволяет запускать модель DeepSeek-V3 на графических процессорах AMD через SGLANG в режимах BF16 и FP8.
Huawei Ascend NPU: поддерживает работу DeepSeek-V3 на устройствах Huawei Ascend.

Поскольку обучение FP8 изначально принято в нашей структуре, мы предоставляем только веса FP8. Если вам требуются веса BF16 для экспериментов, вы можете использовать предоставленный скрипт преобразования для выполнения преобразования.

Вот пример преобразования весов FP8 в BF16:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

ПРИМЕЧАНИЕ

Трансформеры обнимающего лица еще не поддерживались напрямую.

1.1 Вывод с демонстрацией DeepSeek-Infer (только пример)

Системные требования

ПРИМЕЧАНИЕ

Linux только с Python 3.10. Mac и Windows не поддерживаются.

Зависимости:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5

Веса модели

Во-первых, клонировать репозиторий GitHube GitHub DeepSeek-V3:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

Перейдите в папку «Вывод» и установите зависимости, перечисленные в `teding.txt`. Самый простой способ - использовать диспетчер пакетов, такой как `conda` или` uv`, чтобы создать новую виртуальную среду и установить зависимости.

cd DeepSeek-V3/inference
pip install -r requirements.txt

Загрузите веса модели от обнимающего лица и поместите их в папку «/path/to/deepseek-v3».

Модели веса конверсии

Преобразовать веса модели обнимающего лица в определенный формат:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

Бегать

Тогда вы можете пообщаться с DeepSeek-V3:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

Или пакетный вывод на данном файле:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Вывод с Sglang (рекомендуется)

SGLang В настоящее время SGLANG поддерживает оптимизации MLA, внимание DP, FP8 (W8A8), кэш FP8 кВ и компиляцию горелки, обеспечение современной задержки и производительности пропускной способности среди рамках с открытым исходным кодом.[1 ][2 ][3 ]

Примечательно, что SGLANG V0.4.1 полностью поддерживает работу DeepSeek-V3 как на графических процессорах NVIDIA, так и на AMD, что делает его очень универсальным и надежным решением.[1 ]

SGLANG также поддерживает параллелизм с несколькими узлами, что позволяет вам запустить эту модель на нескольких сетевых машинах.[1 ]

Multi-Token Prediction (MTP) находится в разработке, и прогресс можно отслеживать в плане оптимизации.[1 ]

Вот инструкции по запуску команды SGLANG:[1 ]

1.3 Вывод с LMDEPLOY (рекомендуется)

LMDeploy LMDeploy, гибкий и высокопроизводительный вывод и рамка обслуживания, адаптированные для крупных языковых моделей, теперь поддерживает DeepSeek-V3. Он предлагает как автономный трубопровод, так и возможности развертывания онлайн, беспрепятственно интегрируясь с рабочими процессами на основе Pytorch.[1 ]

Для получения полных пошаговых инструкций по запуску DeepSeek-V3 с LMDeploy, пожалуйста, см. Здесь:[1 ]

1.4 Вывод с TRT-LLM (рекомендуется)

TensorRT-LLM Tensorrt-LLM теперь поддерживает модель DeepSeek-V3, предлагая опции точности, такие как BF16 и Int4/Int8 только для веса. Поддержка FP8 в настоящее время ведется и скоро будет выпущена. Вы можете получить доступ к пользовательской ветви TRTLLM специально для поддержки DeepSeek-V3 по следующей ссылке, чтобы напрямую испытать новые функции:[1 ][2 ]

1.5 Вывод с VLLM (рекомендуется)

vLLM VLLM V0.6.6 поддерживает вывод DeepSeek-V3 для режимов FP8 и BF16 как на графических процессорах NVIDIA, так и на AMD. Помимо стандартных методов, VLLM предлагает параллелизм трубопровода, позволяющий запустить эту модель на нескольких машинах, соединенных сетями. Для получения подробного руководства, пожалуйста, обратитесь к инструкциям VLLM. Пожалуйста, не стесняйтесь следовать плану улучшения.[1 ][2 ][3 ]

1.6 Рекомендованная функциональность вывода с помощью графических процессоров AMD

В сотрудничестве с командой AMD, DeepSeek достиг поддержки дневного одного для графических процессоров AMD с использованием SGLANG, с полной совместимостью как для FP8, так и для точности BF16. Для получения подробного руководства, пожалуйста, обратитесь к инструкциям SGLANG.[1 ]

1.7 Рекомендованная функциональность вывода с Huawei Ascend NPUS

Рамки Mindie от сообщества Ascend Huawei успешно адаптировали версию DeepSeek-V3 BF16. Для пошагового руководства по ASCEND NPU, пожалуйста, следуйте инструкциям здесь.[1 ][2 ]

2. Развертывание DeepSeek-R1

2.1 Модели DeepSeek-R1

Пожалуйста, посетите раздел развертывания DeepSeek-V3 выше для получения дополнительной информации о запуске DeepSeek-R1 на местном уровне.

ПРИМЕЧАНИЕ

Трансформеры обнимающего лица еще не поддерживались напрямую.

2.2 Модели DeepSeek-R1-Distill

Модели DeepSeek-R1-Distill можно использовать так же, как и модели QWEN или Llama.

Например, вы можете легко запустить службу с помощью VLLM:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

Вы также можете легко запустить службу с помощью SGLANG:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 Рекомендации по использованию

Мы рекомендуем придерживаться следующих конфигураций при использовании моделей серии DeepSeek-R1, включая сравнительный анализ, для достижения ожидаемой производительности:

Установите температуру в диапазоне 0,5-0,7 (рекомендуется 0,6), чтобы предотвратить бесконечные повторения или бессвязные выходы.
Избегайте добавления системной подсказки; Все инструкции должны содержаться в приглашении пользователя.
Для математических задач желательно включить директиву в вашу подсказку, такую как: «Пожалуйста, разумно по шагам и поместите свой окончательный ответ в Boxed».
При оценке производительности модели рекомендуется провести несколько тестов и среднего значения результатов.

Кроме того, мы заметили, что модели серии DeepSeek-R1, как правило, обходятся шаблоном мышления (то есть, вывод <Think> </think>) при реагировании на определенные запросы, которые могут отрицательно повлиять на производительность модели.Чтобы гарантировать, что модель участвует в тщательном рассуждении, мы рекомендуем обеспечить соблюдение модели, чтобы инициировать его ответ с помощью <lame> </think> в начале каждого вывода.

3. DeepSeek-V3-0324 развертывание

DeepSeek-V3-0324 использует ту же базовую модель, что и предыдущая DeepSeek-V3, с только улучшениями в методах после тренировки. Для частного развертывания вам нужно только обновить контрольную точку и tokenizer_config.json (связанные с инструментами изменения).

Варианты развертывания и структуры для DeepSeek-V3-0324 идентичны вариантам для DeepSeek-V3, описанных в разделе 1. Все те же инструментарии (SGLANG, LMDEPLOY, Tensorrt-LLM, VLLM) поддерживают DeepSeek-V3-0324 с одинаковыми вариантами конфигурации.

Информация о лицензии

Информация о лицензиях, по которым выпускаются модели DeepSeek

DeepSeek-V3-0324

MIT Лицензия

В соответствии с DeepSeek-R1, наш репозиторий с открытым исходным кодом (включая веса модели) равномерно принимает лицензию MIT и позволяет пользователям использовать выходы модели и методы дистилляции для обучения других моделей.

Просмотреть лицензию

DeepSeek-V3

MIT Лицензия

Этот репозиторий кода лицензирован по лицензии MIT. Использование моделей DeepSeek-V3 базовых/чата подлежит лицензии на модель. Серия DeepSeek-V3 (включая базовый и чат) поддерживает коммерческое использование.

Просмотреть лицензию

DeepSeek-R1

MIT Лицензия

Этот хранилище кода и веса модели лицензированы по лицензии MIT. DeepSeek-R1 Series поддерживает коммерческое использование, позволяет использовать любые модификации и производные работы, включая, помимо прочего, дистилляцию для обучения других LLMS. Обратите внимание, что такие модели, как DeepSeek-R1-Distill-Qwen и Deepseek-R1-Distill-Llama, получены из их соответствующих базовых моделей с их первоначальными лицензиями.

Просмотреть лицензию

Отказ от ответственности

Модели DeepSeek предоставляются «как есть» без каких -либо явных или подразумеваемых гарантий. Пользователи должны использовать модели на свой собственный риск и обеспечивать соблюдение соответствующих законов и правил. DeepSeek не несет ответственности за любые убытки, вызванные использованием этих моделей.