HRM의 주요 성능 성과는 무엇입니까?

HRM은 2,700만 개의 파라미터만으로 1,000개의 훈련 샘플만 사용하여 복잡한 추론 작업에서 뛰어난 성능을 달성합니다. 복잡한 스도쿠 퍼즐 및 대규모 미로에서 최적의 경로 찾기와 같은 어려운 작업에서 거의 완벽한 성능을 달성합니다. ARC 벤치마크에서 40.3%의 성능을 달성하여 o3-mini-high(34.5%) 및 Claude 3.7(21.2%)과 같은 더 큰 모델보다 뛰어난 성능을 보입니다.

기존 모델과 비교하여 HRM의 주요 장점은 무엇입니까?

HRM은 사전 훈련 또는 CoT(Chain-of-Thought) 데이터 없이 작동하고, 더 적은 파라미터(2,700만 개)가 필요하며, 더 작은 훈련 데이터 세트(1,000개 샘플)로 작업할 수 있습니다. 표준 순환 모델에서 발견되는 빠른 수렴 문제를 피하면서 상당한 계산 깊이를 달성하는 동시에 훈련 안정성과 효율성을 모두 유지합니다.

HRM을 실행하기 위한 시스템 요구 사항은 무엇입니까?

HRM에는 PyTorch 및 CUDA 설치가 필요하며, FlashAttention에 대한 특정 요구 사항(Hopper GPU의 경우 버전 3, Ampere 또는 이전 GPU의 경우 버전 2)이 있습니다. 또한 확장을 구축하기 위한 추가 패키지가 필요하며 실험 추적을 위해 Weights & Biases를 사용합니다.

다양한 작업에 대해 HRM을 훈련하는 데 얼마나 걸립니까?

훈련 시간은 작업에 따라 다릅니다. 스도쿠 익스트림(1k 샘플)은 RTX 4070 노트북 GPU에서 약 10시간이 걸리고, ARC-1 및 ARC-2는 8-GPU 설정에서 각각 약 24시간이 걸리며, Maze 30x30 Hard는 약 1시간, Full Sudoku-Hard는 약 2시간이 걸립니다.

Hierarchical Reasoning Model

WebsiteFreeLarge Language Models (LLMs)Research Tools

HRM(Hierarchical Reasoning Model)은 추상적 계획 및 상세한 계산을 위해 두 개의 상호 의존적인 순환 모듈을 사용하여 2,700만 개의 파라미터만으로 뛰어난 추론 능력을 달성하는 두뇌에서 영감을 얻은 AI 아키텍처입니다.

웹사이트 방문

이 도구 광고하기

https://github.com/sapientinc/HRM?ref=producthunt&utm_source=aipure

개요
동영상
대안

제품 정보

업데이트됨:Oct 16, 2025

Hierarchical Reasoning Model이란?

HRM(Hierarchical Reasoning Model)은 Sapient Intelligence에서 개발한 혁신적인 순환 아키텍처로, AI 추론 능력을 혁신합니다. 2025년 7월에 출시된 HRM은 인간 두뇌에서 관찰되는 계층적 및 다중 시간 척도 처리 패턴에서 영감을 얻었습니다. CoT(Chain-of-Thought) 기술에 의존하는 기존 대규모 언어 모델과 달리 HRM은 최소한의 학습 데이터로 효율적으로 작동하며 사전 학습 요구 사항이 없습니다. 이 모델은 1,000개의 학습 샘플만 사용하여 극단적인 스도쿠 퍼즐 풀기 및 대규모 미로에서 최적 경로 찾기를 포함한 복잡한 추론 작업에서 놀라운 성능을 보여줍니다.

Hierarchical Reasoning Model의 주요 기능

계층적 추론 모델(HRM)은 복잡한 추론 능력을 달성하기 위해 추상적 계획을 위한 고수준 모듈과 상세한 계산을 위한 저수준 모듈이라는 두 개의 상호 의존적인 순환 모듈을 사용하는 뇌에서 영감을 받은 AI 아키텍처입니다. 2,700만 개의 파라미터만 사용하고 사전 훈련 없이 1,000개의 예제만으로 훈련된 HRM은 계층적 처리, 시간 분리 및 순환 연결을 통해 어려운 작업을 해결할 수 있으며, 더 효율적이고 안정적이면서 훨씬 더 큰 언어 모델보다 뛰어난 성능을 보입니다.

계층적 이중 모듈 아키텍처: 느리고 추상적인 계획을 위한 고수준 모듈과 빠르고 상세한 계산을 위한 저수준 모듈이라는 서로 다른 시간 척도로 작동하는 두 개의 결합된 순환 모듈을 특징으로 합니다.

최소 훈련 요구 사항: 사전 훈련 또는 CoT(Chain-of-Thought) 데이터 없이 1,000개의 훈련 샘플만 사용하여 뛰어난 성능을 달성합니다.

효율적인 파라미터 사용: 단 2,700만 개의 파라미터로 복잡한 추론 작업을 수행하며, 이는 기존의 대규모 언어 모델보다 훨씬 적은 수입니다.

단일 순방향 패스 처리: 중간 단계에 대한 명시적인 감독 없이 하나의 순방향 패스에서 순차적 추론 작업을 실행합니다.

Hierarchical Reasoning Model의 사용 사례

복잡한 퍼즐 풀이: 거의 완벽한 정확도로 극단적인 스도쿠 퍼즐 및 기타 복잡한 수학/논리 퍼즐을 풉니다.

경로 찾기 최적화: 큰 미로와 복잡한 탐색 시나리오에서 최적의 경로를 효율적으로 찾습니다.

추상적 추론 작업: 일반 지능 작업에서 능력을 입증하면서 ARC(Abstraction and Reasoning Corpus)에서 좋은 성능을 보입니다.

장점

최소한의 파라미터 수와 훈련 데이터 요구 사항으로 매우 효율적입니다.

수렴 문제 없이 안정적인 훈련 프로세스를 제공합니다.

더 큰 모델에 비해 복잡한 추론 작업에서 뛰어난 성능을 보입니다.

단점

소규모 샘플 시나리오에서 후기 단계 과적합이 발생할 수 있습니다.

소규모 샘플 학습에서 ±2점의 정확도 분산을 보입니다.

최적의 성능을 위해 특정 GPU 구성 및 CUDA 확장이 필요합니다.

Hierarchical Reasoning Model 사용 방법

필수 구성 요소 설치: CUDA 12.6, CUDA 지원 PyTorch 및 확장 빌드를 위한 추가 패키지를 설치합니다. 다음을 실행합니다. wget CUDA 설치 프로그램, CUDA 설치, CUDA_HOME 설정, PyTorch 설치 및 패키징 종속성 설치

FlashAttention 설치: Hopper GPU의 경우: flash-attention 리포지토리를 복제하고 FlashAttention 3을 설치합니다. Ampere 또는 이전 GPU의 경우: pip install flash-attn을 통해 FlashAttention 2를 설치합니다.

Python 종속성 설치: 'pip install -r requirements.txt'를 실행하여 필요한 모든 Python 패키지를 설치합니다.

Weights & Biases 설정: 'wandb login'을 실행하고 계정에 로그인했는지 확인하여 실험 추적을 위해 W&B를 설정합니다.

데이터 세트 준비: 특정 작업에 대한 데이터 세트를 빌드합니다. 예를 들어 스도쿠의 경우: 데이터 세트 크기 및 증대에 대한 적절한 파라미터로 'python dataset/build_sudoku_dataset.py'를 실행합니다.

학습 시작: 적절한 파라미터로 학습을 시작합니다. 스도쿠의 예: 'OMP_NUM_THREADS=8 python pretrain.py data_path=data/sudoku-extreme-1k-aug-1000 epochs=20000 eval_interval=2000 global_batch_size=384 lr=7e-5'

학습 모니터링: W&B 인터페이스를 통해 학습 진행 상황을 추적하고 eval/exact_accuracy 메트릭을 모니터링합니다.

모델 평가: 'torchrun --nproc-per-node 8 evaluate.py checkpoint=<CHECKPOINT_PATH>'를 사용하여 평가를 실행하고 제공된 노트북을 통해 결과를 분석합니다.

사전 학습된 체크포인트 사용: 또는 ARC-AGI-2, Sudoku 9x9 Extreme 또는 Maze 30x30 Hard 작업에 대한 HuggingFace에서 사전 학습된 체크포인트를 다운로드합니다.

Hierarchical Reasoning Model 자주 묻는 질문

HRM은 인간 두뇌의 계층적 및 다중 시간 척도 처리에 영감을 받은 새로운 순환 아키텍처입니다. 이는 느리고 추상적인 계획을 위한 상위 수준 모듈과 빠르고 상세한 계산을 위한 하위 수준 모듈이라는 두 개의 상호 의존적인 순환 모듈을 특징으로 합니다. 명시적인 감독 없이 단일 순방향 패스에서 순차적 추론 작업을 실행할 수 있습니다.