
QwQ-32B
QwQ-32B는 기존의 지침 조정 모델에 비해 향상된 사고 및 추론 능력을 통해 복잡한 문제 해결에 탁월한 Qwen 시리즈의 325억 파라미터 추론 중심 언어 모델입니다.
https://huggingface.co/Qwen/QwQ-32B?ref=aipure&utm_source=aipure

제품 정보
업데이트됨:Mar 11, 2025
QwQ-32B이란?
QwQ-32B는 Qwen 팀이 Qwen2.5 모델 제품군의 일부로 개발한 Qwen 시리즈의 중간 규모 추론 모델입니다. 325억 개의 파라미터를 가진 인과 언어 모델로, 사전 훈련과 사후 훈련(감독된 미세 조정 및 강화 학습 포함)을 모두 거쳤습니다. 이 모델은 RoPE, SwiGLU, RMSNorm 및 Attention QKV 바이어스를 갖춘 트랜스포머 아키텍처를 특징으로 하며, Q에 대한 40개의 어텐션 헤드와 KV에 대한 8개의 어텐션 헤드를 가진 64개의 레이어를 포함합니다. 131,072 토큰의 전체 컨텍스트 길이를 지원하며 DeepSeek-R1 및 o1-mini와 같은 다른 최첨단 추론 모델에 비해 경쟁력 있는 성능을 달성하도록 설계되었습니다.
QwQ-32B의 주요 기능
QwQ-32B는 325억 개의 파라미터를 가진 Qwen 시리즈의 중간 규모 추론 모델로, 복잡한 추론 작업에서 성능을 향상시키기 위해 설계되었습니다. RoPE, SwiGLU, RMSNorm, Attention QKV 바이어스를 갖춘 트랜스포머를 포함한 고급 아키텍처를 특징으로 하며, 131,072 토큰의 컨텍스트 길이를 지원합니다. 이 모델은 기존의 명령어 튜닝 모델에 비해 뛰어난 추론 능력을 보여주며, DeepSeek-R1 및 o1-mini와 같은 최첨단 추론 모델에 필적하는 성능을 달성합니다.
고급 추론 아키텍처: RoPE, SwiGLU, RMSNorm, Attention QKV 바이어스와 같은 특수 구성 요소를 64개 레이어와 Q 및 KV에 대한 40/8 어텐션 헤드와 통합합니다.
확장된 컨텍스트 처리: 향상된 긴 시퀀스 정보 처리를 위해 YaRN 스케일링 지원으로 최대 131,072개의 토큰을 처리할 수 있습니다.
사려 깊은 출력 생성: 고품질의 논리적인 응답을 보장하기 위해 <think> 태그로 표시된 고유한 사고 과정을 특징으로 합니다.
유연한 배포 옵션: vLLM 및 다양한 양자화 형식(GGUF, 4비트 bnb, 16비트)을 포함한 여러 배포 프레임워크를 지원합니다.
QwQ-32B의 사용 사례
수학 문제 해결: 단계별 추론과 표준화된 답변 형식으로 복잡한 수학 문제 해결에 탁월합니다.
코드 분석 및 생성: 코딩 작업 및 기술적 추론에서 강력한 기능을 보여줍니다.
객관식 평가: 표준화된 응답 형식과 자세한 추론을 통해 구조화된 질의 응답을 처리합니다.
장점
복잡한 추론 작업에서 강력한 성능을 보입니다.
광범위한 컨텍스트 길이 지원을 제공합니다.
다양한 배포 및 양자화 옵션을 제공합니다.
단점
최적의 성능을 위해 특정 프롬프트 형식이 필요합니다.
예상치 않게 언어를 혼합하거나 전환할 수 있습니다.
상식 추론 및 미묘한 언어 이해에 대한 성능 제한이 있습니다.
QwQ-32B 사용 방법
필수 종속성 설치: 호환성 문제를 피하려면 최신 버전의 Hugging Face transformers 라이브러리(버전 4.37.0 이상)가 설치되어 있는지 확인하십시오.
필수 라이브러리 가져오기: transformers 라이브러리에서 AutoModelForCausalLM 및 AutoTokenizer 가져오기
모델 및 토크나이저 로드: 자동 장치 매핑 및 dtype을 사용하여 model_name='Qwen/QwQ-32B'로 모델을 초기화합니다. 해당 토크나이저를 로드합니다.
입력 준비: 'role' 및 'content' 키가 있는 메시지 사전 목록으로 입력을 포맷합니다. 채팅 템플릿 형식을 사용합니다.
응답 생성: 최적의 결과를 위해 권장 파라미터(Temperature=0.6, TopP=0.95, TopK 20-40 사이)로 model.generate()를 사용합니다.
출력 처리: tokenizer.batch_decode()를 사용하여 생성된 토큰을 디코딩하여 최종 응답을 얻습니다.
선택 사항: 긴 컨텍스트 활성화: 32,768 토큰이 넘는 입력의 경우 config.json에 rope_scaling 구성을 추가하여 YaRN을 활성화합니다.
사용 지침 준수: 모델이 '<think>\n'으로 시작하는지 확인하고, 대화 기록에서 사고 내용을 제외하고, 수학 문제 또는 객관식 질문과 같은 특정 작업에 대해 표준화된 프롬프트를 사용합니다.
QwQ-32B 자주 묻는 질문
QwQ-32B는 Qwen 시리즈의 추론 모델로, 향상된 사고 및 추론 능력을 위해 설계되었습니다. 325억 개의 파라미터를 가진 중간 규모 모델로, DeepSeek-R1 및 o1-mini와 같은 최첨단 추론 모델에 비해 경쟁력 있는 성능을 달성할 수 있습니다.