지역 배치 및 애플리케이션에 통합을위한 DeepSeek의 최신 AI 모델에 액세스하십시오.
다양한 사용 사례에 맞게 조정 된 강력한 AI 모델 범위 중에서 선택하십시오.
향상된 추론 기능과 개선 된 다국어 지원을 특징으로하는 최신 플래그십 모델. 2025 년 3 월 24 일에 출시 된이 모델은 광범위한 작업에서 우수한 성능을 가진 가장 진보 된 AI 시스템을 나타냅니다.
모델 | 총 매개 변수 | 활성화 된 매개 변수 | 컨텍스트 길이 | 다운로드 |
---|---|---|---|---|
DeepSeek-V3-0324 | 660B | 37B | 128K | Download |
DeepSeek-V3-0324는 이전 DeepSeek-V3과 동일한 기본 모델을 사용하며, 후 훈련 방법이 개선됩니다. 개인 배포의 경우 Checkpoint 및 Tokenizer_config.json (도구 호출 관련 변경 사항) 만 업데이트하면됩니다. 이 모델에는 약 660b 매개 변수가 있으며 오픈 소스 버전은 128K 컨텍스트 길이를 제공합니다 (웹, 앱 및 API는 64K 컨텍스트를 제공합니다).
탁월한 추론, 이해력 및 세대 기능을 갖춘 강력한 일반 목적 AI 모델. DeepSeek-V3는 복잡한 문제 해결에서 탁월하며 기술 영역에서 강력한 성능을 보여줍니다.
메모
포옹 페이스에서 Deepseek-V3 모델의 총 크기는 685b이며, 여기에는 671b의 주요 모델 가중치와 MTP (Multi-Token Prediction) 모듈 가중치 14b가 포함됩니다.
최적의 성능과 유연성을 보장하기 위해 DeepSeek은 오픈 소스 커뮤니티 및 하드웨어 공급 업체와 파트너 관계를 맺어 여러 가지 방법을 현지에서 실행할 수있는 방법을 제공했습니다. 단계별 지침은 아래의 "로컬 실행 방법"섹션을 확인하십시오.
DeepSeek R1 모델은 사소한 버전 업그레이드를 거쳤으며 현재 버전은 DeepSeek-R1-0528입니다. 최신 업데이트에서 DeepSeek R1은 증가 된 계산 리소스를 활용하고 사후 훈련 중에 알고리즘 최적화 메커니즘을 도입하여 추론 및 추론 기능의 깊이를 크게 향상 시켰습니다. 이 모델은 수학, 프로그래밍 및 일반 논리를 포함한 다양한 벤치 마크 평가에서 뛰어난 성능을 보여주었습니다. 전반적인 성능은 이제 O3 및 Gemini 2.5 Pro와 같은 주요 모델의 성능에 접근하고 있습니다.
모델 | 총 매개 변수 | 활성화 된 매개 변수 | 컨텍스트 길이 | 다운로드 |
---|---|---|---|---|
DeepSeek-R1-0528 | 685B | 37B | 128K | Download |
이전 버전과 비교하여 업그레이드 된 모델은 복잡한 추론 작업을 처리하는 데 상당한 개선이 나타납니다. 예를 들어, AIME 2025 테스트에서 모델의 정확도는 이전 버전의 70%에서 현재 버전의 87.5%로 증가했습니다. 이 발전은 추론 과정에서 향상된 사고 깊이에서 비롯됩니다. AIME 테스트 세트에서 이전 모델은 질문 당 평균 12K 토큰을 사용했지만 새로운 버전은 질문 당 평균 23K 토큰을 사용했습니다.
고급 추론 작업을 전문으로하는 DeepSeek-R1은 수학, 코딩 및 논리적 추론 과제에서 뛰어난 성능을 제공합니다. 강화 학습 기술로 제작 된이 제품은 비교할 수없는 문제 해결 능력을 제공합니다.
Deepseek-R1-Zero
DeepSeek-Distill 모델은 DeepSeek-R1에 의해 생성 된 샘플을 사용하여 오픈 소스 모델을 기반으로 미세 조정됩니다. 우리는 그들의 구성과 토큰 화제를 약간 변경합니다. 설정을 사용 하여이 모델을 실행하십시오.
모델 | 기본 모델 | 다운로드 |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | Download |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | Download |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | Download |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | Download |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | Download |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | Download |
DeepSeek 모델은 다양한 하드웨어 및 오픈 소스 커뮤니티 소프트웨어를 사용하여 로컬로 배포 할 수 있습니다.
DeepSeek-V3은 다음 하드웨어 및 오픈 소스 커뮤니티 소프트웨어를 사용하여 로컬로 배포 할 수 있습니다.
FP8 교육은 프레임 워크에서 기본적으로 채택되므로 FP8 가중치 만 제공합니다. 실험을 위해 BF16 가중치가 필요한 경우 제공된 변환 스크립트를 사용하여 변환을 수행 할 수 있습니다.
다음은 FP8 가중치를 BF16으로 변환하는 예입니다.
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
메모
Hugging Face의 변압기는 아직 직접 지원되지 않았습니다.
메모
Python 3.10 만있는 Linux. Mac 및 Windows는 지원되지 않습니다.
종속성 :
torch==2.4.1
triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
먼저 DeepSeek-V3 Github 저장소를 복제하십시오.
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
`추론 '폴더로 이동하고`re impretment.txt`에 나열된 종속성을 설치하십시오. 가장 쉬운 방법은`Conda` 또는`UV`와 같은 패키지 관리자를 사용하여 새로운 가상 환경을 만들고 종속성을 설치하는 것입니다.
cd DeepSeek-V3/inference
pip install -r requirements.txt
Hugging Face에서 모델 가중치를 다운로드하여`/path/to/deepseek-v3` 폴더에 넣습니다.
포옹 얼굴 모델 가중치를 특정 형식으로 변환합니다.
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16
그런 다음 DeepSeek-v3과 채팅 할 수 있습니다.
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200
또는 주어진 파일의 배치 추론 :
torchrun --nnodes 2 --nproc-per-node 8 --node-rank $RANK --master-addr $ADDR generate.py --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --input-file $FILE
SGLang SGLANG은 현재 MLA 최적화, DP주의, FP8 (W8A8), FP8 KV 캐시 및 토치 컴파일을 지원하여 오픈 소스 프레임 워크간에 최첨단 대기 시간 및 처리량 성능을 제공합니다.[1 ][2 ][3 ]
특히 Sglang V0.4.1은 NVIDIA 및 AMD GPU 모두에서 DeepSeek-V3을 실행하는 것을 완전히 지원하므로 다재다능하고 강력한 솔루션이됩니다.[1 ]
SGLANG은 또한 다중 노드 텐서 병렬 처리를 지원하므로 여러 네트워크 연결 시스템 에서이 모델을 실행할 수 있습니다.[1 ]
MTP (Multi-Token Prediction)가 개발 중이며 최적화 계획에서 진행될 수 있습니다.[1 ]
Sglang 팀의 런칭 지침은 다음과 같습니다.[1 ]
LMDeploy LMDEPLOY, 유연하고 고성능 추론 및 대형 언어 모델에 맞게 조정 된 서빙 프레임 워크 인 LMDEPLOY는 이제 DeepSeek-V3을 지원합니다. 오프라인 파이프 라인 처리 및 온라인 배포 기능을 모두 제공하며 Pytorch 기반 워크 플로와 완벽하게 통합됩니다.[1 ]
LMDEPLOY로 DeepSeek-V3를 실행하는 것에 대한 포괄적 인 단계별 지침은 여기를 참조하십시오.[1 ]
TensorRT-LLM Tensorrt-LLM은 이제 DeepSeek-V3 모델을 지원하여 BF16 및 INT4/Int8 Weight 전용과 같은 정밀 옵션을 제공합니다. FP8에 대한 지원이 현재 진행 중이며 곧 출시 될 예정입니다. 다음 링크를 통해 DeepSeek-V3 지원을 위해 특별히 TRTLLM의 사용자 정의 지점에 액세스하여 새로운 기능을 직접 경험할 수 있습니다.[1 ][2 ]
vLLM VLLM V0.6.6은 NVIDIA 및 AMD GPU의 FP8 및 BF16 모드에 대한 DeepSeek-V3 추론을 지원합니다. 표준 기술 외에도 VLLM은 파이프 라인 병렬 처리를 제공하여 네트워크로 연결된 여러 시스템 에서이 모델을 실행할 수 있습니다. 자세한 지침은 VLLM 지침을 참조하십시오. 향상 계획도 자유롭게 따르십시오.[1 ][2 ][3 ]
AMD 팀과 협력하여 DeepSeek은 SGLANG을 사용하여 AMD GPU에 대한 일대일 지원을 달성했으며 FP8 및 BF16 Precision 모두에 대한 전체 호환성을 달성했습니다. 자세한 지침은 Sglang 지침을 참조하십시오.[1 ]
Huawei Ascend 커뮤니티의 Mindie 프레임 워크는 Deepseek-V3의 BF16 버전을 성공적으로 조정했습니다. Ascend NPU에 대한 단계별 지침은 여기에서 지침을 따르십시오.[1 ][2 ]
현지에서 DeepSeek-R1을 실행하는 것에 대한 자세한 내용은 위의 DeepSeek-V3 배포 섹션을 방문하십시오.
메모
Hugging Face의 변압기는 아직 직접 지원되지 않았습니다.
DeepSeek-R1-Distill 모델은 Qwen 또는 LLAMA 모델과 동일한 방식으로 사용될 수 있습니다.
예를 들어 VLLM을 사용하여 서비스를 쉽게 시작할 수 있습니다.[1 ]
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
sglang을 사용하여 서비스를 쉽게 시작할 수도 있습니다.[1 ]
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
벤치마킹을 포함한 DeepSeek-R1 시리즈 모델을 사용하여 예상 성능을 달성 할 때 다음 구성을 고수하는 것이 좋습니다.
또한 DeepSeek-R1 시리즈 모델은 특정 쿼리에 응답 할 때 사고 패턴을 우회하는 경향이 있음을 관찰했습니다. 이는 모델의 성능에 악영향을 줄 수 있습니다.모델이 철저한 추론에 참여하도록하려면 모든 출력의 시작 부분에서 <Think> </Think>로 응답을 시작하도록 모델을 시행하는 것이 좋습니다.
DeepSeek-V3-0324는 이전 DeepSeek-V3과 동일한 기본 모델을 사용하며, 후 훈련 방법이 개선됩니다. 개인 배포의 경우 Checkpoint 및 Tokenizer_config.json (도구 호출 관련 변경 사항) 만 업데이트하면됩니다.
DeepSeek-V3-0324의 배포 옵션 및 프레임 워크는 섹션 1에 설명 된 DeepSeek-V3의 것과 동일합니다. 동일한 툴킷 (sglang, lmdeploy, tensorrt-llm, vllm)은 동일한 구성 옵션으로 deepseek-v3-0324를 지원합니다.
DeepSeek 모델이 출시되는 라이센스에 대한 정보
DeepSeek-R1과 일치하여 Open-Source Repository (모델 가중치 포함)는 MIT 라이센스를 균일하게 채택하고 사용자가 모델 출력 및 증류 방법을 다른 모델을 훈련시킬 수 있도록합니다.
라이센스보기이 코드 저장소는 MIT 라이센스에 따라 라이센스가 부여됩니다. DeepSeek-V3 Base/Chat 모델 사용은 모델 라이센스의 적용을받습니다. DeepSeek-V3 시리즈 (기본 및 채팅 포함)는 상업용 사용을 지원합니다.
라이센스보기이 코드 저장소 및 모델 가중치는 MIT 라이센스에 따라 라이센스가 부여됩니다. DeepSeek-R1 시리즈는 상업용 사용을 지원하며 다른 LLM을 훈련하기위한 증류를 포함하되 이에 국한되지 않는 수정 및 파생 작업을 허용합니다. DeepSeek-R1-Distill-Qwen 및 DeepSeek-R1-Distill-Llama와 같은 모델은 원래 라이센스가있는 각각의 기본 모델에서 파생됩니다.
라이센스보기DeepSeek 모델은 명시 적 또는 묵시적 보증없이 "있는 그대로"제공됩니다. 사용자는 자신의 위험으로 모델을 사용하고 관련 법률 및 규정을 준수해야합니다. DeepSeek은 이러한 모델 사용으로 인한 손해에 대해 책임을지지 않습니다.