
QwQ-32B
QwQ-32Bは、従来の命令調整モデルと比較して、強化された思考および推論機能を通じて複雑な問題解決に優れている、Qwenシリーズの32.5Bパラメータの推論に焦点を当てた言語モデルです。
https://huggingface.co/Qwen/QwQ-32B?ref=aipure&utm_source=aipure

製品情報
更新日:2025年03月11日
QwQ-32Bとは
QwQ-32Bは、Qwen2.5モデルファミリーの一部としてQwenチームによって開発された、Qwenシリーズの中規模の推論モデルです。これは、事前トレーニングとポストトレーニング(教師ありファインチューニングと強化学習を含む)の両方を受けた32.5Bパラメータの因果言語モデルです。このモデルは、RoPE、SwiGLU、RMSNorm、およびAttention QKVバイアスを備えたトランスフォーマーアーキテクチャを特徴とし、Qに対して40個、KVに対して8個のアテンションヘッドを持つ64層を含んでいます。131,072トークンのフルコンテキスト長をサポートし、DeepSeek-R1やo1-miniのような他の最先端の推論モデルに対する競争力のあるパフォーマンスを達成するように設計されています。
QwQ-32Bの主な機能
QwQ-32Bは、325億のパラメータを持つQwenシリーズの中規模推論モデルで、複雑な推論タスクにおけるパフォーマンスを向上させるように設計されています。RoPE、SwiGLU、RMSNorm、Attention QKVバイアスを備えたトランスフォーマーを含む高度なアーキテクチャを特徴とし、131,072トークンのコンテキスト長をサポートします。このモデルは、従来のインストラクションチューニングされたモデルと比較して優れた推論能力を発揮し、DeepSeek-R1やo1-miniのような最先端の推論モデルに対して競争力のあるパフォーマンスを達成します。
高度な推論アーキテクチャ: RoPE、SwiGLU、RMSNorm、Attention QKVバイアスなどの特殊なコンポーネントを、64層とQおよびKV用の40/8個のアテンションヘッドとともに組み込んでいます
拡張されたコンテキスト処理: YaRNスケーリングサポートにより、最大131,072トークンを処理でき、長期シーケンスの情報処理が改善されています
思慮深い出力生成: 高品質で十分な根拠のある応答を保証するために、<think>タグで示される独自の思考プロセスを備えています
柔軟なデプロイメントオプション: vLLMや、さまざまな量子化形式(GGUF、4-bit bnb、16-bit)を含む複数のデプロイメントフレームワークをサポートします
QwQ-32Bのユースケース
数学の問題解決: ステップバイステップの推論と標準化された回答形式で、複雑な数学の問題を解決することに優れています
コードの分析と生成: コーディングタスクと技術的な推論において、強力な能力を発揮します
多肢選択式評価: 標準化された応答形式と詳細な推論を用いて、構造化された質問応答を処理します
メリット
複雑な推論タスクにおける強力なパフォーマンス
広範なコンテキスト長のサポート
複数のデプロイメントおよび量子化オプション
デメリット
最適なパフォーマンスを得るには、特定のプロンプト形式が必要です
言語が混ざったり、予期せず切り替わったりする可能性があります
常識的な推論とニュアンスのある言語理解におけるパフォーマンスの限界
QwQ-32Bの使い方
必要な依存関係のインストール: 互換性の問題を避けるために、Hugging Face transformersライブラリの最新バージョン(バージョン4.37.0以上)がインストールされていることを確認してください
必要なライブラリのインポート: transformersライブラリからAutoModelForCausalLMとAutoTokenizerをインポートします
モデルとトークナイザーのロード: auto device mappingとdtypeを使用して、model_name='Qwen/QwQ-32B'でモデルを初期化します。対応するトークナイザーをロードします
入力の準備: 'role'と'content'キーを持つメッセージ辞書のリストとして入力をフォーマットします。チャットテンプレート形式を使用します
応答の生成: 最適な結果を得るために、推奨されるパラメータ(Temperature=0.6、TopP=0.95、TopKは20〜40の間)でmodel.generate()を使用します
出力の処理: tokenizer.batch_decode()を使用して生成されたトークンをデコードし、最終的な応答を取得します
オプション:ロングコンテキストの有効化: 32,768トークンを超える入力の場合、rope_scaling構成をconfig.jsonに追加してYaRNを有効にします
使用ガイドラインに従う: モデルが'<think>\n'で始まることを確認し、会話履歴から思考コンテンツを除外し、数学の問題や多肢選択式の質問のような特定のタスクには標準化されたプロンプトを使用します
QwQ-32Bのよくある質問
QwQ-32Bは、Qwenシリーズの推論モデルであり、思考および推論能力の強化を目的として設計されています。これは325億のパラメータを持つ中規模モデルであり、DeepSeek-R1やo1-miniのような最先端の推論モデルに対して、競争力のあるパフォーマンスを達成できます。