QwQ-32B的主要技術規格是什麼？

QwQ-32B總共有325億個參數（310億個非嵌入），64層，Q有40個注意力頭，KV（GQA）有8個注意力頭，並支持131,072個token的上下文長度。它使用具有RoPE、SwiGLU、RMSNorm和Attention QKV bias架構的transformer。

為了獲得最佳性能，建議的使用指南是什麼？

主要指南包括：1) 通過以'<think>\n'開頭來強制進行周密的輸出，2) 採樣時使用Temperature=0.6和TopP=0.95，3) 使用20-40之間的TopK，4) 在對話歷史記錄中排除思考內容，5) 對於超過32,768個token的輸入，啟用YaRN。

使用QwQ-32B的要求是什麼？

QwQ-32B基於Qwen2.5，需要最新版本的Hugging Face 'transformers'庫（4.37.0或更高版本）。使用較舊的版本將導致'KeyError: qwen2'錯誤。

如何訪問或試用QwQ-32B？

您可以通過三種方式訪問QwQ-32B：1) 在Hugging Face Spaces上試用demo，2) 通過QwenChat平台(chat.qwen.ai)訪問，或3) 使用提供的代碼片段和transformers庫自行部署。

QwQ-32B

WebsiteContact for PricingLarge Language Models (LLMs)Research Tools

QwQ-32B 是一個來自 Qwen 系列的 325 億參數的以推理為重點的語言模型，與傳統的指令調整模型相比，它通過增強的思考和推理能力擅長解決複雜問題。

訪問網站

宣傳此工具

https://huggingface.co/Qwen/QwQ-32B?ref=aipure&utm_source=aipure

概覽
替代方案

產品資訊

更新時間：2025年11月16日

什麼是 QwQ-32B

QwQ-32B 是 Qwen 系列中的中型推理模型，由 Qwen 團隊開發，是其 Qwen2.5 模型系列的一部分。它是一個具有 325 億個參數的因果語言模型，經過了預訓練和後訓練（包括監督微調和強化學習）。該模型採用具有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏差的 Transformer 架構，包含 64 層，其中 Q 有 40 個注意力頭，KV 有 8 個注意力頭。它支持 131,072 個 tokens 的完整上下文長度，旨在實現與 DeepSeek-R1 和 o1-mini 等其他最先進的推理模型相比的競爭性能。

QwQ-32B 的主要功能

QwQ-32B是來自Qwen系列的 середнього розміру推理模型，具有32.5B參數，旨在提高複雜推理任務中的性能。它具有先進的架構，包括具有RoPE、SwiGLU、RMSNorm和Attention QKV偏差的變壓器，支持131,072個token的上下文長度。與傳統的指令調整模型相比，該模型展示了卓越的推理能力，並在與DeepSeek-R1和o1-mini等最先進的推理模型相比，實現了具有競爭力的性能。

先進的推理架構: 包含RoPE、SwiGLU、RMSNorm和Attention QKV偏差等專用組件，具有64層和40/8個注意力頭，用於Q和KV

擴展的上下文處理: 能夠處理高達131,072個token，並支持YaRN縮放，以改進長序列信息處理

周到的輸出生成: 具有由<think>標籤表示的獨特思考過程，以確保高質量、充分推理的響應

靈活的部署選項: 支持多種部署框架，包括vLLM和各種量化格式（GGUF、4-bit bnb、16-bit）