
QwQ-32B
QwQ-32B 是 Qwen 系列中一个 325 亿参数的以推理为中心的语言模型,与传统的指令调整模型相比,它通过增强的思考和推理能力擅长解决复杂问题。
https://huggingface.co/Qwen/QwQ-32B?ref=aipure&utm_source=aipure

产品信息
更新于:2025年03月11日
什么是 QwQ-32B
QwQ-32B 是 Qwen 系列中的中型推理模型,由 Qwen 团队开发,是其 Qwen2.5 模型家族的一部分。它是一个具有 325 亿参数的因果语言模型,经过了预训练和后训练(包括监督微调和强化学习)。该模型采用具有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏差的 Transformer 架构,包含 64 层,其中 Q 有 40 个注意力头,KV 有 8 个。它支持 131,072 个 token 的完整上下文长度,旨在实现与其他最先进的推理模型(如 DeepSeek-R1 和 o1-mini)相比的竞争性能。
QwQ-32B 的主要功能
QwQ-32B是Qwen系列的中型推理模型,具有325亿个参数,旨在增强复杂推理任务中的性能。它具有先进的架构,包括带有RoPE、SwiGLU、RMSNorm和Attention QKV偏置的transformers,支持131,072个tokens的上下文长度。与传统的指令调优模型相比,该模型表现出卓越的推理能力,并且在与DeepSeek-R1和o1-mini等最先进的推理模型相比,实现了具有竞争力的性能。
高级推理架构: 结合了专门的组件,如RoPE、SwiGLU、RMSNorm和Attention QKV偏置,具有64层和40/8个注意力头用于Q和KV
扩展的上下文处理: 能够处理多达131,072个tokens,并支持YaRN缩放,以改进长序列信息处理
周到的输出生成: 具有独特的思维过程,用<think>标签表示,以确保高质量、经过充分推理的响应
灵活的部署选项: 支持多种部署框架,包括vLLM和各种量化格式(GGUF、4-bit bnb、16-bit)
QwQ-32B 的使用场景
数学问题解决: 擅长解决复杂的数学问题,具有逐步推理和标准化答案格式
代码分析和生成: 在编码任务和技术推理方面表现出强大的能力
多项选择评估: 处理具有标准化响应格式和详细推理的结构化问题解答
优点
在复杂推理任务中表现出色
广泛的上下文长度支持
多种部署和量化选项
缺点
需要特定的提示格式才能获得最佳性能
可能会混合语言或意外地在它们之间切换
在常识推理和细致的语言理解方面的性能限制
如何使用 QwQ-32B
安装所需依赖项: 确保您已安装最新版本的 Hugging Face transformers 库(版本 4.37.0 或更高版本),以避免兼容性问题
导入所需库: 从 transformers 库导入 AutoModelForCausalLM 和 AutoTokenizer
加载模型和分词器: 使用 model_name='Qwen/QwQ-32B' 和自动设备映射和 dtype 初始化模型。加载相应的分词器
准备输入: 将您的输入格式化为带有“role”和“content”键的消息字典列表。使用聊天模板格式
生成响应: 使用 model.generate() 和推荐参数:Temperature=0.6,TopP=0.95,TopK 在 20-40 之间,以获得最佳结果
处理输出: 使用 tokenizer.batch_decode() 解码生成的 token 以获得最终响应
可选:启用长上下文: 对于超过 32,768 个 token 的输入,通过将 rope_scaling 配置添加到 config.json 来启用 YaRN
遵循使用指南: 确保模型以 '<think>\n' 开头,从对话历史记录中排除思考内容,并对特定任务(如数学问题或多项选择题)使用标准化提示
QwQ-32B 常见问题
QwQ-32B是Qwen系列的一个推理模型,旨在增强思维和推理能力。它是一个中等规模的模型,具有325亿个参数,可以实现与最先进的推理模型(如DeepSeek-R1和o1-mini)相媲美的性能。