DeepSeek-R1의 모델 사양은 무엇인가요?

DeepSeek-R1은 총 671B의 매개변수를 가지고 있으며, 37B의 활성화된 매개변수를 가지고 있습니다. MoE(전문가 혼합) 아키텍처를 사용하며, 컨텍스트 길이는 128K 토큰입니다.

DeepSeek-R1은 오픈 소스인가요? 그리고 라이선스는 무엇인가요?

네, DeepSeek-R1은 완전히 오픈 소스이며 MIT 라이선스 하에 라이선스가 부여됩니다. 상업적 사용을 지원하며, 다른 LLM을 훈련하기 위한 증류를 포함하여 모든 수정 및 파생 작업을 허용합니다.

DeepSeek-R1을 어떻게 사용할 수 있나요?

DeepSeek-R1은 여러 채널을 통해 사용할 수 있습니다: 1) 공식 웹사이트 chat.deepseek.com에서 채팅하기 2) platform.deepseek.com에서 OpenAI 호환 API 사용하기 3) DeepSeek-V3 저장소의 지침을 따라 로컬에서 실행하기.

DeepSeek-R1을 사용할 때 추천 설정은 무엇인가요?

추천 설정은 다음과 같습니다: 1) 온도를 0.5-0.7 사이로 설정하기(0.6 추천) 2) 시스템 프롬프트를 피하고 모든 지침을 사용자 프롬프트에 포함하기 3) 수학 문제의 경우 '\boxed{}' 지시어 포함하기 4) 성능 평가 시 여러 테스트 수행하기.

DeepSeek-R1을 독특하게 만드는 것은 무엇인가요?

DeepSeek-R1은 LLM의 추론 능력이 감독된 미세 조정 없이 순수하게 강화 학습을 통해 유도될 수 있음을 검증한 최초의 오픈 연구로 주목받고 있습니다. 자기 검증, 반성 및 긴 사고의 연쇄 생성과 같은 능력을 보여줍니다.

DeepSeek-R1

WebsiteFreeLarge Language Models (LLMs)Research Tools

DeepSeek-R1은 수학, 코드 및 추론 작업에서 OpenAI의 o1과 유사한 성능을 달성하는 고급 오픈 소스 AI 추론 모델로, 혁신적인 강화 학습 기술과 더 넓은 접근성을 위한 여러 증류 버전을 특징으로 합니다.

소셜 및 이메일:

웹사이트 방문

이 도구 광고하기

https://chat.deepseek.com/coder?ref=aipure&utm_source=aipure

개요
분석
공식 게시물
동영상
기사
대안

제품 정보

업데이트됨:Jul 16, 2025

DeepSeek-R1 월간 트래픽 동향

DeepSeek-R1은 11.9%의 트래픽 감소를 겪었는데, 이는 주로 유럽연합에서의 규제적 어려움과 중국으로의 데이터 전송과 관련된 개인정보 보호 우려 때문인 것으로 보입니다. 베를린 데이터 보호 위원회는 DeepSeek이 GDPR을 위반했다고 비난했으며, 이로 인해 사용자들이 꺼리게 되었을 수 있습니다.

과거 트래픽 보기

DeepSeek-R1이란?

DeepSeek-R1은 DeepSeek AI가 개발한 1세대 추론 모델로, 두 가지 주요 변형인 DeepSeek-R1-Zero와 DeepSeek-R1이 있습니다. 671B의 총 매개변수와 37B의 활성화된 매개변수를 가진 전문가 혼합(MoE) 아키텍처를 기반으로 하여 AI 추론 능력에서 중요한 돌파구를 나타냅니다. 이 모델은 사고의 연쇄 과정을 통해 복잡한 추론 작업을 처리하도록 설계되었으며, 128K 토큰의 컨텍스트 길이로 작업할 수 있습니다. DeepSeek의 채팅 플랫폼과 오픈 소스 모델로 모두 사용 가능하며, Llama 및 Qwen 아키텍처를 기반으로 한 1.5B에서 70B 매개변수의 여러 증류된 버전이 있습니다.

DeepSeek-R1의 주요 기능

DeepSeek-R1은 수학, 코드 및 추론 작업에서 OpenAI의 o1 모델과 유사한 성능을 달성하는 고급 오픈 소스 AI 추론 모델입니다. 대규모 강화 학습을 통해 훈련되었으며 단계별 추론, 자기 검증 및 반영 기능을 가능하게 하는 독특한 아키텍처를 특징으로 합니다. 이 모델은 Llama와 Qwen을 기반으로 더 작은 버전으로 증류되어 강력한 성능을 유지하면서 더 접근 가능하게 되었습니다.

고급 추론 기능: 자기 검증 및 반영 패턴을 가진 사고의 연쇄 추론을 사용하여 투명한 단계별 문제 해결을 가능하게 합니다.

대규모 RL 훈련: 추론 능력이 감독된 미세 조정 없이 순수하게 강화 학습을 통해 개발될 수 있음을 검증한 최초의 오픈 연구입니다.

유연한 모델 옵션: 증류를 통해 여러 크기로 제공되며(1.5B에서 70B 매개변수까지) 강력한 성능을 유지하면서 다양한 계산 요구 사항에 대한 옵션을 제공합니다.

확장된 컨텍스트 길이: 최대 128K 토큰의 컨텍스트 길이를 지원하여 더 긴 입력을 처리하고 더 자세한 응답을 생성할 수 있습니다.

DeepSeek-R1의 사용 사례

고급 수학 문제 해결: 단계별 추론을 통해 AIME 및 MATH-500 벤치마크를 포함한 복잡한 수학 문제 해결에 뛰어납니다.

소프트웨어 개발 및 코딩: 강력한 정확도로 고급 코딩 작업, 경쟁 프로그래밍 문제 및 소프트웨어 공학 과제를 수행합니다.

교육 지원: 다양한 과목에 걸쳐 자세한 설명과 단계별 문제 해결 접근 방식을 제공하여 학생과 교육자를 돕습니다.

다국어 추론 작업: 영어와 중국어 모두에서 복잡한 추론 작업을 처리하여 국제적인 응용 프로그램에 유용합니다.

장점

MIT 라이센스 하에 오픈 소스이며 상업적으로 사용 가능합니다.

OpenAI의 o1과 같은 독점 모델과 유사한 성능을 제공합니다.

다양한 계산 요구에 맞춰 여러 크기로 제공됩니다.

단점

더 큰 모델에 대해 상당한 계산 자원이 필요합니다.

온도 설정은 반복을 방지하기 위해 신중하게 조정해야 합니다.

시스템 프롬프트는 지원되지 않으며 모든 지침은 사용자 프롬프트에 있어야 합니다.

DeepSeek-R1 사용 방법

접근 방법 선택: DeepSeek-R1에 접근하기 위한 세 가지 옵션이 있습니다: 웹 인터페이스, API 또는 로컬 설치

웹 인터페이스 접근: chat.deepseek.com을 방문하여 로그인한 후 'DeepThink' 버튼을 활성화하여 DeepSeek-R1과 상호작용합니다. 참고: 고급 모드에서 하루 50개의 메시지로 제한됩니다

API 접근: 1. platform.deepseek.com에서 가입하여 API 키를 받습니다 2. model='deepseek-reasoner'를 지정하여 OpenAI 호환 API를 사용합니다 3. base_url을 https://api.deepseek.com/v1로 설정합니다

로컬 설치 (증류된 모델): vLLM 또는 SGLang을 설치하여 더 작은 증류 버전을 로컬에서 실행합니다. vLLM을 사용할 경우: 'vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager'

사용 설정 구성: 온도를 0.5-0.7(0.6 추천)로 설정하고 시스템 프롬프트를 피하며 사용자 프롬프트에 지침을 포함하고 수학 문제의 경우 '\boxed{}' 지시어를 추가합니다

모델 버전 선택: 계산 자원에 따라 DeepSeek-R1-Zero(순수 RL 모델), DeepSeek-R1(전체 모델) 또는 증류된 버전(Qwen/Llama 기반) 중에서 선택합니다

프롬프트 형식 지정: 시스템 프롬프트 없이 사용자 프롬프트에 모든 지침을 포함합니다. 수학 문제의 경우 최종 답변을 \boxed{} 내에 요청합니다

다중 응답 생성: 최상의 결과를 위해 여러 응답을 생성하고 모델 성능을 평가할 때 결과를 평균합니다

DeepSeek-R1 자주 묻는 질문

DeepSeek-R1은 DeepSeek-AI에 의해 개발된 1세대 추론 모델로, 수학, 코드 및 추론 작업에서 OpenAI-o1과 유사한 성능을 달성합니다. 대규모 강화 학습을 사용하여 훈련되었으며, 두 가지 버전이 포함되어 있습니다: DeepSeek-R1-Zero와 DeepSeek-R1.