HRM的主要性能成就有哪些？

HRM僅使用2700萬個參數，僅使用1000個訓練樣本即可在複雜的推理任務上實現卓越的性能。它在具有挑戰性的任務（如複雜的數獨謎題和大型迷宮中的最佳路徑尋找）上實現了近乎完美的性能。在ARC基準測試中，它實現了40.3%的性能，優於更大的模型，如o3-mini-high (34.5%) 和 Claude 3.7 (21.2%)。

與傳統模型相比，HRM的主要優勢是什麼？

HRM的運行無需預訓練或思維鏈 (CoT) 數據，所需的參數更少 (27M)，並且可以使用更小的訓練數據集 (1000個樣本)。它在保持訓練穩定性和效率的同時，實現了顯著的計算深度，避免了標準遞迴模型中發現的快速收斂問題。

運行HRM的系統要求是什麼？

HRM需要安裝PyTorch和CUDA，並且對FlashAttention有特定要求（Hopper GPU需要版本3，Ampere或更早的GPU需要版本2）。它還需要額外的套件來構建擴展，並使用Weights & Biases進行實驗追蹤。

訓練HRM執行不同任務需要多長時間？

訓練時間因任務而異：Sudoku Extreme（1k個樣本）在RTX 4070筆記型電腦GPU上大約需要10個小時，ARC-1和ARC-2在8-GPU設置上分別大約需要24個小時，Maze 30x30 Hard大約需要1個小時，而Full Sudoku-Hard大約需要2個小時。

Hierarchical Reasoning Model

WebsiteFreeLarge Language Models (LLMs)Research Tools

層次推理模型（HRM）是一種受大腦啟發的AI架構，它僅使用2700萬個參數即可實現卓越的推理能力，並使用兩個相互依賴的循環模組進行抽象規劃和詳細計算。

訪問網站

宣傳此工具

https://github.com/sapientinc/HRM?ref=producthunt&utm_source=aipure

概覽
影片
替代方案

產品資訊

更新時間：2025年11月15日

什麼是 Hierarchical Reasoning Model

層次推理模型（HRM）是由Sapient Intelligence開發的一種新型循環架構，它徹底改變了AI的推理能力。HRM於2025年7月發布，其靈感來自於人腦中觀察到的層次和多時間尺度處理模式。與依賴於思維鏈（CoT）技術的傳統大型語言模型不同，HRM以最少的訓練數據高效運行，且無需預訓練。該模型在複雜的推理任務中表現出卓越的性能，包括解決極端數獨謎題和大型迷宮中的最佳路徑查找，同時僅使用1,000個訓練樣本。

Hierarchical Reasoning Model 的主要功能

層次推理模型（HRM）是一種受大腦啟發的人工智慧架構，它使用兩個相互依存的循環模組——一個用於抽象規劃的高級模組和一個用於詳細計算的低級模組——來實現複雜的推理能力。 HRM 僅有 2700 萬個參數，並且僅在 1,000 個沒有預訓練的範例上進行訓練，可以透過層次處理、時間分離和循環連接來解決具有挑戰性的任務，從而優於更大的語言模型，同時更有效率和穩定。

層次雙模組架構: 具有兩個以不同時間尺度運作的耦合循環模組——一個用於緩慢、抽象規劃的高級模組和一個用於快速、詳細計算的低級模組

最低限度的訓練要求: 僅使用 1,000 個訓練樣本即可實現卓越的效能，而無需預訓練或思維鏈資料

高效的參數使用: 僅用 2700 萬個參數即可完成複雜的推理任務，遠少於傳統的大型語言模型

單次正向傳遞處理: 在一次正向傳遞中執行循序推理任務，而無需對中間步驟進行明確的監督

Hierarchical Reasoning Model 的使用案例

複雜謎題求解: 以接近完美的準確度解決極端的數獨謎題和其他複雜的數學/邏輯謎題

路徑規劃優化: 有效率地尋找大型迷宮和複雜導航場景中的最佳路徑

抽象推理任務: 在抽象和推理語料庫（ARC）上表現良好，展現了一般智慧任務的能力

優點

高效，參數計數和訓練資料需求極少

穩定的訓練過程，沒有收斂問題

與較大的模型相比，在複雜的推理任務上具有卓越的效能

缺點

在小樣本情境中可能會出現後期過度擬合

在小樣本學習中顯示 ±2 點的準確度方差

需要特定的 GPU 配置和 CUDA 擴充才能獲得最佳效能

如何使用 Hierarchical Reasoning Model

安裝先決條件: 安裝CUDA 12.6、支持CUDA的PyTorch以及用於構建擴展的其他套件。運行：wget CUDA安裝程式，安裝CUDA，設置CUDA_HOME，安裝PyTorch，並安裝套件相依性

安裝FlashAttention: 對於Hopper GPU：克隆flash-attention倉庫並安裝FlashAttention 3。對於Ampere或更早的GPU：通過pip install flash-attn安裝FlashAttention 2

安裝Python相依性: 運行'pip install -r requirements.txt'以安裝所有必需的Python套件

設置Weights & Biases: 通過運行'wandb login'設置W&B以進行實驗追蹤，並確保您已登錄到您的帳戶

準備數據集: 為您的特定任務構建數據集。例如，對於數獨：運行'python dataset/build_sudoku_dataset.py'，並使用適當的參數來設置數據集大小和擴充

開始訓練: 使用適當的參數啟動訓練。數獨範例：'OMP_NUM_THREADS=8 python pretrain.py data_path=data/sudoku-extreme-1k-aug-1000 epochs=20000 eval_interval=2000 global_batch_size=384 lr=7e-5'

監控訓練: 通過W&B介面追蹤訓練進度，監控eval/exact_accuracy指標

評估模型: 使用'torchrun --nproc-per-node 8 evaluate.py checkpoint=<CHECKPOINT_PATH>'運行評估，並通過提供的筆記本分析結果

使用預訓練檢查點: 或者，從HuggingFace下載ARC-AGI-2、Sudoku 9x9 Extreme或Maze 30x30 Hard任務的預訓練檢查點