지역 배치 및 애플리케이션에 통합을위한 DeepSeek의 최신 AI 모델에 액세스하십시오.
다양한 사용 사례에 맞게 조정 된 강력한 AI 모델 범위 중에서 선택하십시오.
향상된 추론 기능과 개선 된 다국어 지원을 특징으로하는 최신 플래그십 모델. 2025 년 3 월 24 일에 출시 된이 모델은 광범위한 작업에서 우수한 성능을 가진 가장 진보 된 AI 시스템을 나타냅니다.
모델 | 총 매개 변수 | 활성화 된 매개 변수 | 컨텍스트 길이 | 다운로드 |
---|---|---|---|---|
DeepSeek-V3-0324 | 660B | 37B | 128K | Download |
DeepSeek-V3-0324는 이전 DeepSeek-V3과 동일한 기본 모델을 사용하며, 후 훈련 방법이 개선됩니다. 개인 배포의 경우 Checkpoint 및 Tokenizer_config.json (도구 호출 관련 변경 사항) 만 업데이트하면됩니다. 이 모델에는 약 660b 매개 변수가 있으며 오픈 소스 버전은 128K 컨텍스트 길이를 제공합니다 (웹, 앱 및 API는 64K 컨텍스트를 제공합니다).
탁월한 추론, 이해력 및 세대 기능을 갖춘 강력한 일반 목적 AI 모델. DeepSeek-V3는 복잡한 문제 해결에서 탁월하며 기술 영역에서 강력한 성능을 보여줍니다.
메모
포옹 페이스에서 Deepseek-V3 모델의 총 크기는 685b이며, 여기에는 671b의 주요 모델 가중치와 MTP (Multi-Token Prediction) 모듈 가중치 14b가 포함됩니다.
최적의 성능과 유연성을 보장하기 위해 DeepSeek은 오픈 소스 커뮤니티 및 하드웨어 공급 업체와 파트너 관계를 맺어 여러 가지 방법을 현지에서 실행할 수있는 방법을 제공했습니다. 단계별 지침은 아래의 "로컬 실행 방법"섹션을 확인하십시오.
고급 추론 작업을 전문으로하는 DeepSeek-R1은 수학, 코딩 및 논리적 추론 과제에서 뛰어난 성능을 제공합니다. 강화 학습 기술로 제작 된이 제품은 비교할 수없는 문제 해결 능력을 제공합니다.
Deepseek-R1-Zero
DeepSeek-Distill 모델은 DeepSeek-R1에 의해 생성 된 샘플을 사용하여 오픈 소스 모델을 기반으로 미세 조정됩니다. 우리는 그들의 구성과 토큰 화제를 약간 변경합니다. 설정을 사용 하여이 모델을 실행하십시오.
모델 | 기본 모델 | 다운로드 |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | Download |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | Download |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | Download |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | Download |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | Download |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | Download |
DeepSeek 모델은 다양한 하드웨어 및 오픈 소스 커뮤니티 소프트웨어를 사용하여 로컬로 배포 할 수 있습니다.
DeepSeek-V3은 다음 하드웨어 및 오픈 소스 커뮤니티 소프트웨어를 사용하여 로컬로 배포 할 수 있습니다.
FP8 교육은 프레임 워크에서 기본적으로 채택되므로 FP8 가중치 만 제공합니다. 실험을 위해 BF16 가중치가 필요한 경우 제공된 변환 스크립트를 사용하여 변환을 수행 할 수 있습니다.
다음은 FP8 가중치를 BF16으로 변환하는 예입니다.
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
메모
Hugging Face의 변압기는 아직 직접 지원되지 않았습니다.
메모
Python 3.10 만있는 Linux. Mac 및 Windows는 지원되지 않습니다.
종속성 :
torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
먼저 DeepSeek-V3 Github 저장소를 복제하십시오.
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
`추론 '폴더로 이동하고`re impretment.txt`에 나열된 종속성을 설치하십시오. 가장 쉬운 방법은`Conda` 또는`UV`와 같은 패키지 관리자를 사용하여 새로운 가상 환경을 만들고 종속성을 설치하는 것입니다.
cd DeepSeek-V3/inference
pip install -r requirements.txt
Hugging Face에서 모델 가중치를 다운로드하여`/path/to/deepseek-v3` 폴더에 넣습니다.
포옹 얼굴 모델 가중치를 특정 형식으로 변환합니다.
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
그런 다음 DeepSeek-v3과 채팅 할 수 있습니다.
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200
또는 주어진 파일의 배치 추론 :
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE
SGLang SGLANG은 현재 MLA 최적화, DP주의, FP8 (W8A8), FP8 KV 캐시 및 토치 컴파일을 지원하여 오픈 소스 프레임 워크간에 최첨단 대기 시간 및 처리량 성능을 제공합니다.[1 ][2 ][3 ]
특히 Sglang V0.4.1은 NVIDIA 및 AMD GPU 모두에서 DeepSeek-V3을 실행하는 것을 완전히 지원하므로 다재다능하고 강력한 솔루션이됩니다.[1 ]
SGLANG은 또한 다중 노드 텐서 병렬 처리를 지원하므로 여러 네트워크 연결 시스템 에서이 모델을 실행할 수 있습니다.[1 ]
MTP (Multi-Token Prediction)가 개발 중이며 최적화 계획에서 진행될 수 있습니다.[1 ]
Sglang 팀의 런칭 지침은 다음과 같습니다.[1 ]
LMDeploy LMDEPLOY, 유연하고 고성능 추론 및 대형 언어 모델에 맞게 조정 된 서빙 프레임 워크 인 LMDEPLOY는 이제 DeepSeek-V3을 지원합니다. 오프라인 파이프 라인 처리 및 온라인 배포 기능을 모두 제공하며 Pytorch 기반 워크 플로와 완벽하게 통합됩니다.[1 ]
LMDEPLOY로 DeepSeek-V3를 실행하는 것에 대한 포괄적 인 단계별 지침은 여기를 참조하십시오.[1 ]
TensorRT-LLM Tensorrt-LLM은 이제 DeepSeek-V3 모델을 지원하여 BF16 및 INT4/Int8 Weight 전용과 같은 정밀 옵션을 제공합니다. FP8에 대한 지원이 현재 진행 중이며 곧 출시 될 예정입니다. 다음 링크를 통해 DeepSeek-V3 지원을 위해 특별히 TRTLLM의 사용자 정의 지점에 액세스하여 새로운 기능을 직접 경험할 수 있습니다.[1 ][2 ]
vLLM VLLM V0.6.6은 NVIDIA 및 AMD GPU의 FP8 및 BF16 모드에 대한 DeepSeek-V3 추론을 지원합니다. 표준 기술 외에도 VLLM은 파이프 라인 병렬 처리를 제공하여 네트워크로 연결된 여러 시스템 에서이 모델을 실행할 수 있습니다. 자세한 지침은 VLLM 지침을 참조하십시오. 향상 계획도 자유롭게 따르십시오.[1 ][2 ][3 ]
AMD 팀과 협력하여 DeepSeek은 SGLANG을 사용하여 AMD GPU에 대한 일대일 지원을 달성했으며 FP8 및 BF16 Precision 모두에 대한 전체 호환성을 달성했습니다. 자세한 지침은 Sglang 지침을 참조하십시오.[1 ]
Huawei Ascend 커뮤니티의 Mindie 프레임 워크는 Deepseek-V3의 BF16 버전을 성공적으로 조정했습니다. Ascend NPU에 대한 단계별 지침은 여기에서 지침을 따르십시오.[1 ][2 ]
현지에서 DeepSeek-R1을 실행하는 것에 대한 자세한 내용은 위의 DeepSeek-V3 배포 섹션을 방문하십시오.
메모
Hugging Face의 변압기는 아직 직접 지원되지 않았습니다.
DeepSeek-R1-Distill 모델은 Qwen 또는 LLAMA 모델과 동일한 방식으로 사용될 수 있습니다.
예를 들어 VLLM을 사용하여 서비스를 쉽게 시작할 수 있습니다.[1 ]
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
sglang을 사용하여 서비스를 쉽게 시작할 수도 있습니다.[1 ]
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
벤치마킹을 포함한 DeepSeek-R1 시리즈 모델을 사용하여 예상 성능을 달성 할 때 다음 구성을 고수하는 것이 좋습니다.
또한 DeepSeek-R1 시리즈 모델은 특정 쿼리에 응답 할 때 사고 패턴을 우회하는 경향이 있음을 관찰했습니다. 이는 모델의 성능에 악영향을 줄 수 있습니다.모델이 철저한 추론에 참여하도록하려면 모든 출력의 시작 부분에서 <Think> </Think>로 응답을 시작하도록 모델을 시행하는 것이 좋습니다.
DeepSeek-V3-0324는 이전 DeepSeek-V3과 동일한 기본 모델을 사용하며, 후 훈련 방법이 개선됩니다. 개인 배포의 경우 Checkpoint 및 Tokenizer_config.json (도구 호출 관련 변경 사항) 만 업데이트하면됩니다.
DeepSeek-V3-0324의 배포 옵션 및 프레임 워크는 섹션 1에 설명 된 DeepSeek-V3의 것과 동일합니다. 동일한 툴킷 (sglang, lmdeploy, tensorrt-llm, vllm)은 동일한 구성 옵션으로 deepseek-v3-0324를 지원합니다.
DeepSeek 모델이 출시되는 라이센스에 대한 정보
DeepSeek-R1과 일치하여 Open-Source Repository (모델 가중치 포함)는 MIT 라이센스를 균일하게 채택하고 사용자가 모델 출력 및 증류 방법을 다른 모델을 훈련시킬 수 있도록합니다.
라이센스보기이 코드 저장소는 MIT 라이센스에 따라 라이센스가 부여됩니다. DeepSeek-V3 Base/Chat 모델 사용은 모델 라이센스의 적용을받습니다. DeepSeek-V3 시리즈 (기본 및 채팅 포함)는 상업용 사용을 지원합니다.
라이센스보기이 코드 저장소 및 모델 가중치는 MIT 라이센스에 따라 라이센스가 부여됩니다. DeepSeek-R1 시리즈는 상업용 사용을 지원하며 다른 LLM을 훈련하기위한 증류를 포함하되 이에 국한되지 않는 수정 및 파생 작업을 허용합니다. DeepSeek-R1-Distill-Qwen 및 DeepSeek-R1-Distill-Llama와 같은 모델은 원래 라이센스가있는 각각의 기본 모델에서 파생됩니다.
라이센스보기DeepSeek 모델은 명시 적 또는 묵시적 보증없이 "있는 그대로"제공됩니다. 사용자는 자신의 위험으로 모델을 사용하고 관련 법률 및 규정을 준수해야합니다. DeepSeek은 이러한 모델 사용으로 인한 손해에 대해 책임을지지 않습니다.