Скачать модели DeepSeek AI

Обратитесь к современным моделям искусственного интеллекта Deepseek для локального развертывания и интеграции в ваши приложения.

Доступные модели

Выберите из нашего ассортимента мощных моделей ИИ, адаптированных для различных вариантов использования.

DeepSeek-V3-0324

Последняя версия нашей флагманской модели с расширенными возможностями рассуждений и улучшенной многоязычной поддержкой. Выпущенная 24 марта 2025 года, эта модель представляет нашу самую передовую систему ИИ с превосходной производительностью в широком спектре задач.

DeepSeek-V3-0324 модели

МодельОбщий параметрыАктивированные параметрыКонтекст длиныСкачать
DeepSeek-V3-0324660B37B128KDownload

DeepSeek-V3-0324 использует ту же базовую модель, что и предыдущая DeepSeek-V3, с только улучшениями в методах после тренировки. Для частного развертывания вам нужно только обновить контрольную точку и tokenizer_config.json (связанные с инструментами изменения). Модель имеет приблизительно 660b параметры, а версия с открытым исходным кодом предлагает длину контекста 128 тыс. (В то время как веб-сайт, приложение и API предоставляют 64K контекст).

Как бежать локально

Модели DeepSeek могут быть развернуты локально с использованием различных аппаратных и открытых программных программ.

1. Развертывание DeepSeek-V3

DeepSeek-V3 может быть развернут локально, используя следующее программное обеспечение для оборудования и сообщества с открытым исходным кодом:

  1. DeepSeek-Infer Demo: DeepSeek предоставляет простую и легкую демонстрацию для вывода FP8 и BF16.
  2. SGLANG: Полностью поддерживайте модель DeepSeek-V3 в режимах вывода BF16 и FP8, при этом в ближайшее время появится предсказание с несколькими точками.[1 ]
  3. LMDEPLOY: позволяет эффективно вывести вывод FP8 и BF16 для локального и облачного развертывания.
  4. Tensorrt-LLM: в настоящее время поддерживает вывод BF16 и квантование INT4/8, причем в ближайшее время появится поддержка FP8.
  5. VLLM: поддержка модели DeepSeek-V3 с режимами FP8 и BF16 для тензора параллелизма и параллелизма трубопровода.
  6. GPU AMD: позволяет запускать модель DeepSeek-V3 на графических процессорах AMD через SGLANG в режимах BF16 и FP8.
  7. Huawei Ascend NPU: поддерживает работу DeepSeek-V3 на устройствах Huawei Ascend.

Поскольку обучение FP8 изначально принято в нашей структуре, мы предоставляем только веса FP8. Если вам требуются веса BF16 для экспериментов, вы можете использовать предоставленный скрипт преобразования для выполнения преобразования.

Вот пример преобразования весов FP8 в BF16:

cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

ПРИМЕЧАНИЕ

Трансформеры обнимающего лица еще не поддерживались напрямую.

1.1 Вывод с демонстрацией DeepSeek-Infer (только пример)

Системные требования

ПРИМЕЧАНИЕ

Linux только с Python 3.10. Mac и Windows не поддерживаются.

Зависимости:

torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
Веса модели

Во-первых, клонировать репозиторий GitHube GitHub DeepSeek-V3:

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

Перейдите в папку «Вывод» и установите зависимости, перечисленные в `teding.txt`. Самый простой способ - использовать диспетчер пакетов, такой как `conda` или` uv`, чтобы создать новую виртуальную среду и установить зависимости.

cd DeepSeek-V3/inference
pip install -r requirements.txt

Загрузите веса модели от обнимающего лица и поместите их в папку «/path/to/deepseek-v3».

Модели веса конверсии

Преобразовать веса модели обнимающего лица в определенный формат:

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
Бегать

Тогда вы можете пообщаться с DeepSeek-V3:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

Или пакетный вывод на данном файле:

torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE

1.2 Вывод с Sglang (рекомендуется)

SGLang В настоящее время SGLANG поддерживает оптимизации MLA, внимание DP, FP8 (W8A8), кэш FP8 кВ и компиляцию горелки, обеспечение современной задержки и производительности пропускной способности среди рамках с открытым исходным кодом.[1 ][2 ][3 ]

Примечательно, что SGLANG V0.4.1 полностью поддерживает работу DeepSeek-V3 как на графических процессорах NVIDIA, так и на AMD, что делает его очень универсальным и надежным решением.[1 ]

SGLANG также поддерживает параллелизм с несколькими узлами, что позволяет вам запустить эту модель на нескольких сетевых машинах.[1 ]

Multi-Token Prediction (MTP) находится в разработке, и прогресс можно отслеживать в плане оптимизации.[1 ]

Вот инструкции по запуску команды SGLANG:[1 ]

1.3 Вывод с LMDEPLOY (рекомендуется)

LMDeploy LMDeploy, гибкий и высокопроизводительный вывод и рамка обслуживания, адаптированные для крупных языковых моделей, теперь поддерживает DeepSeek-V3. Он предлагает как автономный трубопровод, так и возможности развертывания онлайн, беспрепятственно интегрируясь с рабочими процессами на основе Pytorch.[1 ]

Для получения полных пошаговых инструкций по запуску DeepSeek-V3 с LMDeploy, пожалуйста, см. Здесь:[1 ]

1.4 Вывод с TRT-LLM (рекомендуется)

TensorRT-LLM Tensorrt-LLM теперь поддерживает модель DeepSeek-V3, предлагая опции точности, такие как BF16 и Int4/Int8 только для веса. Поддержка FP8 в настоящее время ведется и скоро будет выпущена. Вы можете получить доступ к пользовательской ветви TRTLLM специально для поддержки DeepSeek-V3 по следующей ссылке, чтобы напрямую испытать новые функции:[1 ][2 ]

1.5 Вывод с VLLM (рекомендуется)

vLLM VLLM V0.6.6 поддерживает вывод DeepSeek-V3 для режимов FP8 и BF16 как на графических процессорах NVIDIA, так и на AMD. Помимо стандартных методов, VLLM предлагает параллелизм трубопровода, позволяющий запустить эту модель на нескольких машинах, соединенных сетями. Для получения подробного руководства, пожалуйста, обратитесь к инструкциям VLLM. Пожалуйста, не стесняйтесь следовать плану улучшения.[1 ][2 ][3 ]

1.6 Рекомендованная функциональность вывода с помощью графических процессоров AMD

В сотрудничестве с командой AMD, DeepSeek достиг поддержки дневного одного для графических процессоров AMD с использованием SGLANG, с полной совместимостью как для FP8, так и для точности BF16. Для получения подробного руководства, пожалуйста, обратитесь к инструкциям SGLANG.[1 ]

1.7 Рекомендованная функциональность вывода с Huawei Ascend NPUS

Рамки Mindie от сообщества Ascend Huawei успешно адаптировали версию DeepSeek-V3 BF16. Для пошагового руководства по ASCEND NPU, пожалуйста, следуйте инструкциям здесь.[1 ][2 ]

2. Развертывание DeepSeek-R1

2.1 Модели DeepSeek-R1

Пожалуйста, посетите раздел развертывания DeepSeek-V3 выше для получения дополнительной информации о запуске DeepSeek-R1 на местном уровне.

ПРИМЕЧАНИЕ

Трансформеры обнимающего лица еще не поддерживались напрямую.

2.2 Модели DeepSeek-R1-Distill

Модели DeepSeek-R1-Distill можно использовать так же, как и модели QWEN или Llama.

Например, вы можете легко запустить службу с помощью VLLM:[1 ]

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

Вы также можете легко запустить службу с помощью SGLANG:[1 ]

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

2.3 Рекомендации по использованию

Мы рекомендуем придерживаться следующих конфигураций при использовании моделей серии DeepSeek-R1, включая сравнительный анализ, для достижения ожидаемой производительности:

  1. Установите температуру в диапазоне 0,5-0,7 (рекомендуется 0,6), чтобы предотвратить бесконечные повторения или бессвязные выходы.
  2. Избегайте добавления системной подсказки; Все инструкции должны содержаться в приглашении пользователя.
  3. Для математических задач желательно включить директиву в вашу подсказку, такую ​​как: «Пожалуйста, разумно по шагам и поместите свой окончательный ответ в Boxed».
  4. При оценке производительности модели рекомендуется провести несколько тестов и среднего значения результатов.

Кроме того, мы заметили, что модели серии DeepSeek-R1, как правило, обходятся шаблоном мышления (то есть, вывод <Think> </think>) при реагировании на определенные запросы, которые могут отрицательно повлиять на производительность модели.Чтобы гарантировать, что модель участвует в тщательном рассуждении, мы рекомендуем обеспечить соблюдение модели, чтобы инициировать его ответ с помощью <lame> </think> в начале каждого вывода.

3. DeepSeek-V3-0324 развертывание

DeepSeek-V3-0324 использует ту же базовую модель, что и предыдущая DeepSeek-V3, с только улучшениями в методах после тренировки. Для частного развертывания вам нужно только обновить контрольную точку и tokenizer_config.json (связанные с инструментами изменения).

Варианты развертывания и структуры для DeepSeek-V3-0324 идентичны вариантам для DeepSeek-V3, описанных в разделе 1. Все те же инструментарии (SGLANG, LMDEPLOY, Tensorrt-LLM, VLLM) поддерживают DeepSeek-V3-0324 с одинаковыми вариантами конфигурации.

Информация о лицензии

Информация о лицензиях, по которым выпускаются модели DeepSeek

DeepSeek-V3-0324

MIT Лицензия

В соответствии с DeepSeek-R1, наш репозиторий с открытым исходным кодом (включая веса модели) равномерно принимает лицензию MIT и позволяет пользователям использовать выходы модели и методы дистилляции для обучения других моделей.

Просмотреть лицензию

DeepSeek-V3

MIT Лицензия

Этот репозиторий кода лицензирован по лицензии MIT. Использование моделей DeepSeek-V3 базовых/чата подлежит лицензии на модель. Серия DeepSeek-V3 (включая базовый и чат) поддерживает коммерческое использование.

Просмотреть лицензию

DeepSeek-R1

MIT Лицензия

Этот хранилище кода и веса модели лицензированы по лицензии MIT. DeepSeek-R1 Series поддерживает коммерческое использование, позволяет использовать любые модификации и производные работы, включая, помимо прочего, дистилляцию для обучения других LLMS. Обратите внимание, что такие модели, как DeepSeek-R1-Distill-Qwen и Deepseek-R1-Distill-Llama, получены из их соответствующих базовых моделей с их первоначальными лицензиями.

Просмотреть лицензию

Отказ от ответственности

Модели DeepSeek предоставляются «как есть» без каких -либо явных или подразумеваемых гарантий. Пользователи должны использовать модели на свой собственный риск и обеспечивать соблюдение соответствующих законов и правил. DeepSeek не несет ответственности за любые убытки, вызванные использованием этих моделей.