Обратитесь к современным моделям искусственного интеллекта Deepseek для локального развертывания и интеграции в ваши приложения.
Выберите из нашего ассортимента мощных моделей ИИ, адаптированных для различных вариантов использования.
Последняя версия нашей флагманской модели с расширенными возможностями рассуждений и улучшенной многоязычной поддержкой. Выпущенная 24 марта 2025 года, эта модель представляет нашу самую передовую систему ИИ с превосходной производительностью в широком спектре задач.
Модель | Общий параметры | Активированные параметры | Контекст длины | Скачать |
---|---|---|---|---|
DeepSeek-V3-0324 | 660B | 37B | 128K | Download |
DeepSeek-V3-0324 использует ту же базовую модель, что и предыдущая DeepSeek-V3, с только улучшениями в методах после тренировки. Для частного развертывания вам нужно только обновить контрольную точку и tokenizer_config.json (связанные с инструментами изменения). Модель имеет приблизительно 660b параметры, а версия с открытым исходным кодом предлагает длину контекста 128 тыс. (В то время как веб-сайт, приложение и API предоставляют 64K контекст).
Наша мощная модель ИИ общего назначения с исключительными рассуждениями, пониманием и возможностями генерации. DeepSeek-V3 превосходит сложное решение проблем и демонстрирует сильную производительность в технических областях.
ПРИМЕЧАНИЕ
Общий размер моделей DeepSeek-V3 на обнимающемся лице составляет 685b, что включает 671b от веса основной модели и 14b веса модуля многоцветного прогнозирования (MTP).
Чтобы обеспечить оптимальную производительность и гибкость, DeepSeek сотрудничает с сообществами с открытым исходным кодом и поставщиками оборудования, чтобы обеспечить несколько способов запуска модели локально. Для пошагового руководства, ознакомьтесь с разделом «Как работать локально» ниже.
DeepSeek-R1, специализирующийся на передовых рассуждениях, обеспечивает выдающуюся производительность по математике, кодированию и логическим рассуждениям. Построенный из методов обучения подкрепления, он предлагает непревзойденные способности решать проблемы.
DeepSeek-R1-Zero
Модели DeepSeek-R1-Distill хорошо настроены на основе моделей с открытым исходным кодом, используя образцы, генерируемые DeepSeek-R1. Мы немного изменили их конфигурации и токенизаторы. Пожалуйста, используйте наши настройки для запуска этих моделей.
Модель | Базовая модель | Скачать |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | Download |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | Download |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | Download |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | Download |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | Download |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | Download |
Модели DeepSeek могут быть развернуты локально с использованием различных аппаратных и открытых программных программ.
DeepSeek-V3 может быть развернут локально, используя следующее программное обеспечение для оборудования и сообщества с открытым исходным кодом:
Поскольку обучение FP8 изначально принято в нашей структуре, мы предоставляем только веса FP8. Если вам требуются веса BF16 для экспериментов, вы можете использовать предоставленный скрипт преобразования для выполнения преобразования.
Вот пример преобразования весов FP8 в BF16:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
ПРИМЕЧАНИЕ
Трансформеры обнимающего лица еще не поддерживались напрямую.
ПРИМЕЧАНИЕ
Linux только с Python 3.10. Mac и Windows не поддерживаются.
Зависимости:
torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
Во-первых, клонировать репозиторий GitHube GitHub DeepSeek-V3:
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
Перейдите в папку «Вывод» и установите зависимости, перечисленные в `teding.txt`. Самый простой способ - использовать диспетчер пакетов, такой как `conda` или` uv`, чтобы создать новую виртуальную среду и установить зависимости.
cd DeepSeek-V3/inference
pip install -r requirements.txt
Загрузите веса модели от обнимающего лица и поместите их в папку «/path/to/deepseek-v3».
Преобразовать веса модели обнимающего лица в определенный формат:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
Тогда вы можете пообщаться с DeepSeek-V3:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200
Или пакетный вывод на данном файле:
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE
SGLang В настоящее время SGLANG поддерживает оптимизации MLA, внимание DP, FP8 (W8A8), кэш FP8 кВ и компиляцию горелки, обеспечение современной задержки и производительности пропускной способности среди рамках с открытым исходным кодом.[1 ][2 ][3 ]
Примечательно, что SGLANG V0.4.1 полностью поддерживает работу DeepSeek-V3 как на графических процессорах NVIDIA, так и на AMD, что делает его очень универсальным и надежным решением.[1 ]
SGLANG также поддерживает параллелизм с несколькими узлами, что позволяет вам запустить эту модель на нескольких сетевых машинах.[1 ]
Multi-Token Prediction (MTP) находится в разработке, и прогресс можно отслеживать в плане оптимизации.[1 ]
Вот инструкции по запуску команды SGLANG:[1 ]
LMDeploy LMDeploy, гибкий и высокопроизводительный вывод и рамка обслуживания, адаптированные для крупных языковых моделей, теперь поддерживает DeepSeek-V3. Он предлагает как автономный трубопровод, так и возможности развертывания онлайн, беспрепятственно интегрируясь с рабочими процессами на основе Pytorch.[1 ]
Для получения полных пошаговых инструкций по запуску DeepSeek-V3 с LMDeploy, пожалуйста, см. Здесь:[1 ]
TensorRT-LLM Tensorrt-LLM теперь поддерживает модель DeepSeek-V3, предлагая опции точности, такие как BF16 и Int4/Int8 только для веса. Поддержка FP8 в настоящее время ведется и скоро будет выпущена. Вы можете получить доступ к пользовательской ветви TRTLLM специально для поддержки DeepSeek-V3 по следующей ссылке, чтобы напрямую испытать новые функции:[1 ][2 ]
vLLM VLLM V0.6.6 поддерживает вывод DeepSeek-V3 для режимов FP8 и BF16 как на графических процессорах NVIDIA, так и на AMD. Помимо стандартных методов, VLLM предлагает параллелизм трубопровода, позволяющий запустить эту модель на нескольких машинах, соединенных сетями. Для получения подробного руководства, пожалуйста, обратитесь к инструкциям VLLM. Пожалуйста, не стесняйтесь следовать плану улучшения.[1 ][2 ][3 ]
В сотрудничестве с командой AMD, DeepSeek достиг поддержки дневного одного для графических процессоров AMD с использованием SGLANG, с полной совместимостью как для FP8, так и для точности BF16. Для получения подробного руководства, пожалуйста, обратитесь к инструкциям SGLANG.[1 ]
Рамки Mindie от сообщества Ascend Huawei успешно адаптировали версию DeepSeek-V3 BF16. Для пошагового руководства по ASCEND NPU, пожалуйста, следуйте инструкциям здесь.[1 ][2 ]
Пожалуйста, посетите раздел развертывания DeepSeek-V3 выше для получения дополнительной информации о запуске DeepSeek-R1 на местном уровне.
ПРИМЕЧАНИЕ
Трансформеры обнимающего лица еще не поддерживались напрямую.
Модели DeepSeek-R1-Distill можно использовать так же, как и модели QWEN или Llama.
Например, вы можете легко запустить службу с помощью VLLM:[1 ]
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
Вы также можете легко запустить службу с помощью SGLANG:[1 ]
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
Мы рекомендуем придерживаться следующих конфигураций при использовании моделей серии DeepSeek-R1, включая сравнительный анализ, для достижения ожидаемой производительности:
Кроме того, мы заметили, что модели серии DeepSeek-R1, как правило, обходятся шаблоном мышления (то есть, вывод <Think> </think>) при реагировании на определенные запросы, которые могут отрицательно повлиять на производительность модели.Чтобы гарантировать, что модель участвует в тщательном рассуждении, мы рекомендуем обеспечить соблюдение модели, чтобы инициировать его ответ с помощью <lame> </think> в начале каждого вывода.
DeepSeek-V3-0324 использует ту же базовую модель, что и предыдущая DeepSeek-V3, с только улучшениями в методах после тренировки. Для частного развертывания вам нужно только обновить контрольную точку и tokenizer_config.json (связанные с инструментами изменения).
Варианты развертывания и структуры для DeepSeek-V3-0324 идентичны вариантам для DeepSeek-V3, описанных в разделе 1. Все те же инструментарии (SGLANG, LMDEPLOY, Tensorrt-LLM, VLLM) поддерживают DeepSeek-V3-0324 с одинаковыми вариантами конфигурации.
Информация о лицензиях, по которым выпускаются модели DeepSeek
В соответствии с DeepSeek-R1, наш репозиторий с открытым исходным кодом (включая веса модели) равномерно принимает лицензию MIT и позволяет пользователям использовать выходы модели и методы дистилляции для обучения других моделей.
Просмотреть лицензиюЭтот репозиторий кода лицензирован по лицензии MIT. Использование моделей DeepSeek-V3 базовых/чата подлежит лицензии на модель. Серия DeepSeek-V3 (включая базовый и чат) поддерживает коммерческое использование.
Просмотреть лицензиюЭтот хранилище кода и веса модели лицензированы по лицензии MIT. DeepSeek-R1 Series поддерживает коммерческое использование, позволяет использовать любые модификации и производные работы, включая, помимо прочего, дистилляцию для обучения других LLMS. Обратите внимание, что такие модели, как DeepSeek-R1-Distill-Qwen и Deepseek-R1-Distill-Llama, получены из их соответствующих базовых моделей с их первоначальными лицензиями.
Просмотреть лицензиюМодели DeepSeek предоставляются «как есть» без каких -либо явных или подразумеваемых гарантий. Пользователи должны использовать модели на свой собственный риск и обеспечивать соблюдение соответствующих законов и правил. DeepSeek не несет ответственности за любые убытки, вызванные использованием этих моделей.