
Hierarchical Reasoning Model
分层推理模型(HRM)是一种受大脑启发的AI架构,该架构仅使用2700万个参数就可实现出色的推理能力,使用两个相互依赖的递归模块进行抽象规划和详细计算。
https://github.com/sapientinc/HRM?ref=producthunt&utm_source=aipure

产品信息
更新于:2025年08月09日
什么是 Hierarchical Reasoning Model
分层推理模型(HRM)是Sapient Intelligence开发的一种新颖的递归架构,该架构革命性地提升了AI推理能力。HRM于2025年7月发布,其灵感来源于人脑中观察到的分层和多时间尺度处理模式。不同于传统的大型语言模型依赖思维链(CoT)技术,HRM可以在最少的训练数据下高效运行,并且没有预训练要求。该模型在复杂推理任务上表现出色,包括解决极难的数独游戏和在大型迷宫中寻找最佳路径,同时仅使用1,000个训练样本。
Hierarchical Reasoning Model 的主要功能
层级推理模型 (HRM) 是一种受大脑启发的 AI 架构,它使用两个相互依赖的循环模块——一个用于抽象规划的高级模块和一个用于详细计算的低级模块——来实现复杂的推理能力。 HRM 仅有 2700 万个参数,并且仅在 1,000 个没有预训练的示例上进行训练,可以通过分层处理、时间分离和循环连接来解决具有挑战性的任务,在更高效和稳定的同时,胜过更大的语言模型。
分层双模块架构: 具有两个以不同时间尺度运行的耦合循环模块——一个用于缓慢、抽象规划的高级模块和一个用于快速、详细计算的低级模块
最低限度的训练要求: 仅使用 1,000 个训练样本即可实现卓越的性能,而无需预训练或思维链数据
高效的参数使用: 仅用 2700 万个参数即可完成复杂的推理任务,远少于传统的大型语言模型
单次正向传递处理: 在一次正向传递中执行顺序推理任务,而无需显式监督中间步骤
Hierarchical Reasoning Model 的使用场景
复杂谜题求解: 以接近完美的准确率解决极端的数独谜题和其他复杂的数学/逻辑谜题
寻路优化: 有效地找到大型迷宫和复杂导航场景中的最佳路径
抽象推理任务: 在抽象和推理语料库 (ARC) 上表现良好,展示了一般智能任务的能力
优点
高度高效,参数数量和训练数据需求极少
稳定的训练过程,没有收敛问题
与更大的模型相比,在复杂的推理任务上具有卓越的性能
缺点
在小样本场景中可能会出现后期过拟合
在小样本学习中显示 ±2 个点的准确度方差
需要特定的 GPU 配置和 CUDA 扩展才能获得最佳性能
如何使用 Hierarchical Reasoning Model
安装先决条件: 安装CUDA 12.6,支持CUDA的PyTorch,以及用于构建扩展的其他软件包。运行:wget CUDA安装程序,安装CUDA,设置CUDA_HOME,安装PyTorch,并安装打包依赖项
安装FlashAttention: 对于Hopper GPU:克隆flash-attention repo并安装FlashAttention 3。对于Ampere或更早的GPU:通过pip install flash-attn安装FlashAttention 2
安装Python依赖项: 运行‘pip install -r requirements.txt’以安装所有必需的Python软件包
设置Weights & Biases: 通过运行‘wandb login’设置W&B以进行实验跟踪,并确保您已经登录到您的帐户
准备数据集: 为您的特定任务构建数据集。例如,对于数独:运行‘python dataset/build_sudoku_dataset.py’,并为数据集大小和增强设置适当的参数
开始训练: 使用适当的参数启动训练。数独的示例:‘OMP_NUM_THREADS=8 python pretrain.py data_path=data/sudoku-extreme-1k-aug-1000 epochs=20000 eval_interval=2000 global_batch_size=384 lr=7e-5’
监控训练: 通过W&B界面跟踪训练进度,监控eval/exact_accuracy指标
评估模型: 使用‘torchrun --nproc-per-node 8 evaluate.py checkpoint=<CHECKPOINT_PATH>’运行评估,并通过提供的笔记本分析结果
使用预训练的检查点: 或者,从HuggingFace下载用于ARC-AGI-2、数独9x9 Extreme或迷宫30x30 Hard任务的预训练检查点
Hierarchical Reasoning Model 常见问题
HRM是一种新型循环架构,其灵感来源于人脑中的分层和多时间尺度处理。它具有两个相互依赖的循环模块:一个用于缓慢、抽象规划的高级模块和一个用于快速、详细计算的低级模块。它可以在单个前向传递中执行顺序推理任务,而无需显式监督。