
QwQ-32B
QwQ-32B 是一個來自 Qwen 系列的 325 億參數的以推理為重點的語言模型,與傳統的指令調整模型相比,它通過增強的思考和推理能力擅長解決複雜問題。
https://huggingface.co/Qwen/QwQ-32B?ref=aipure&utm_source=aipure

產品資訊
更新時間:2025年03月11日
什麼是 QwQ-32B
QwQ-32B 是 Qwen 系列中的中型推理模型,由 Qwen 團隊開發,是其 Qwen2.5 模型系列的一部分。它是一個具有 325 億個參數的因果語言模型,經過了預訓練和後訓練(包括監督微調和強化學習)。該模型採用具有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏差的 Transformer 架構,包含 64 層,其中 Q 有 40 個注意力頭,KV 有 8 個注意力頭。它支持 131,072 個 tokens 的完整上下文長度,旨在實現與 DeepSeek-R1 和 o1-mini 等其他最先進的推理模型相比的競爭性能。
QwQ-32B 的主要功能
QwQ-32B是來自Qwen系列的 середнього розміру推理模型,具有32.5B參數,旨在提高複雜推理任務中的性能。它具有先進的架構,包括具有RoPE、SwiGLU、RMSNorm和Attention QKV偏差的變壓器,支持131,072個token的上下文長度。與傳統的指令調整模型相比,該模型展示了卓越的推理能力,並在與DeepSeek-R1和o1-mini等最先進的推理模型相比,實現了具有競爭力的性能。
先進的推理架構: 包含RoPE、SwiGLU、RMSNorm和Attention QKV偏差等專用組件,具有64層和40/8個注意力頭,用於Q和KV
擴展的上下文處理: 能夠處理高達131,072個token,並支持YaRN縮放,以改進長序列信息處理
周到的輸出生成: 具有由<think>標籤表示的獨特思考過程,以確保高質量、充分推理的響應
靈活的部署選項: 支持多種部署框架,包括vLLM和各種量化格式(GGUF、4-bit bnb、16-bit)
QwQ-32B 的使用案例
數學問題解決: 擅長解決複雜的數學問題,具有逐步推理和標準化的答案格式
代碼分析與生成: 在編碼任務和技術推理方面表現出強大的能力
多項選擇評估: 處理具有標準化響應格式和詳細推理的結構化問題回答
優點
在複雜的推理任務中表現出色
廣泛的上下文長度支持
多種部署和量化選項
缺點
需要特定的提示格式才能獲得最佳性能
可能會混合語言或意外地在它們之間切換
在常識推理和細微的語言理解方面的性能限制
如何使用 QwQ-32B
安裝所需的依賴項: 確保您已安裝最新版本的 Hugging Face transformers 庫(4.37.0 或更高版本),以避免兼容性問題
導入所需的庫: 從 transformers 庫導入 AutoModelForCausalLM 和 AutoTokenizer
加載模型和 Tokenizer: 使用 model_name='Qwen/QwQ-32B' 初始化模型,並使用自動設備映射和 dtype。加載相應的 tokenizer
準備輸入: 將您的輸入格式化為帶有 'role' 和 'content' 鍵的消息字典列表。使用聊天模板格式
生成回應: 使用 model.generate() 和推薦的參數:Temperature=0.6、TopP=0.95 和 TopK 在 20-40 之間,以獲得最佳結果
處理輸出: 使用 tokenizer.batch_decode() 解碼生成的 tokens 以獲得最終回應
可選:啟用長上下文: 對於超過 32,768 個 tokens 的輸入,通過將 rope_scaling 配置添加到 config.json 來啟用 YaRN
遵循使用指南: 確保模型以 '<think>\n' 開頭,從對話歷史記錄中排除思考內容,並對特定任務(如數學問題或多項選擇題)使用標準化提示
QwQ-32B 常見問題
QwQ-32B是Qwen系列的推理模型,旨在增強思維和推理能力。它是一個中等規模的模型,具有325億個參數,可以實現與DeepSeek-R1和o1-mini等最先進的推理模型相媲美的性能。