¿Cuáles son los principales logros de rendimiento de HRM?

Con solo 27 millones de parámetros, HRM logra un rendimiento excepcional en tareas de razonamiento complejas utilizando solo 1000 muestras de entrenamiento. Alcanza un rendimiento casi perfecto en tareas desafiantes como rompecabezas complejos de Sudoku y la búsqueda óptima de rutas en laberintos grandes. En el benchmark ARC, alcanza un rendimiento del 40.3%, superando a modelos más grandes como o3-mini-high (34.5%) y Claude 3.7 (21.2%).

¿Cuáles son las principales ventajas de HRM en comparación con los modelos tradicionales?

HRM opera sin preentrenamiento ni datos de Cadena de Pensamiento (CoT), requiere menos parámetros (27M) y puede funcionar con conjuntos de datos de entrenamiento más pequeños (1000 muestras). Mantiene tanto la estabilidad como la eficiencia del entrenamiento al tiempo que logra una profundidad computacional significativa, evitando los problemas de convergencia rápida que se encuentran en los modelos recurrentes estándar.

¿Cuáles son los requisitos del sistema para ejecutar HRM?

HRM requiere instalaciones de PyTorch y CUDA, con requisitos específicos para FlashAttention (versión 3 para GPU Hopper, versión 2 para GPU Ampere o anteriores). También necesita paquetes adicionales para construir extensiones y utiliza Weights & Biases para el seguimiento de experimentos.

¿Cuánto tiempo se tarda en entrenar HRM para diferentes tareas?

Los tiempos de entrenamiento varían según la tarea: Sudoku Extremo (1k muestras) tarda aproximadamente 10 horas en una GPU de portátil RTX 4070, ARC-1 y ARC-2 tardan aproximadamente 24 horas cada uno en una configuración de 8 GPU, Maze 30x30 Hard tarda aproximadamente 1 hora y Full Sudoku-Hard tarda alrededor de 2 horas.

Hierarchical Reasoning Model

WebsiteFreeLarge Language Models (LLMs)Research Tools

El Modelo de Razonamiento Jerárquico (HRM) es una arquitectura de IA inspirada en el cerebro que logra capacidades de razonamiento excepcionales con solo 27 millones de parámetros, utilizando dos módulos recurrentes interdependientes para la planificación abstracta y los cálculos detallados.

Visitar Sitio Web

Anunciar Esta Herramienta

https://github.com/sapientinc/HRM?ref=producthunt&utm_source=aipure

Resumen
Video
Alternativas

Información del Producto

Actualizado:16/10/2025

¿Qué es Hierarchical Reasoning Model?

El Modelo de Razonamiento Jerárquico (HRM) es una nueva arquitectura recurrente desarrollada por Sapient Intelligence que revoluciona las capacidades de razonamiento de la IA. Lanzado en julio de 2025, HRM se inspira en los patrones de procesamiento jerárquico y multiescala observados en el cerebro humano. A diferencia de los grandes modelos de lenguaje tradicionales que se basan en técnicas de Cadena de Pensamiento (CoT), HRM opera de manera eficiente con datos de entrenamiento mínimos y sin requisitos de preentrenamiento. El modelo demuestra un rendimiento notable en tareas de razonamiento complejas, incluida la resolución de rompecabezas de Sudoku extremos y la búsqueda óptima de rutas en laberintos grandes, utilizando solo 1,000 muestras de entrenamiento.

Características Principales de Hierarchical Reasoning Model

El Modelo de Razonamiento Jerárquico (HRM) es una arquitectura de IA inspirada en el cerebro que utiliza dos módulos recurrentes interdependientes: un módulo de alto nivel para la planificación abstracta y un módulo de bajo nivel para cálculos detallados, para lograr capacidades de razonamiento complejas. Con solo 27 millones de parámetros y entrenado con solo 1,000 ejemplos sin preentrenamiento, HRM puede resolver tareas desafiantes a través del procesamiento jerárquico, la separación temporal y la conectividad recurrente, superando a modelos de lenguaje mucho más grandes y siendo más eficiente y estable.

Arquitectura Jerárquica de Doble Módulo: Presenta dos módulos recurrentes acoplados que operan en diferentes escalas de tiempo: un módulo de alto nivel para la planificación abstracta lenta y un módulo de bajo nivel para cálculos rápidos y detallados

Requisitos Mínimos de Entrenamiento: Logra un rendimiento excepcional utilizando solo 1,000 muestras de entrenamiento sin requerir preentrenamiento ni datos de Cadena de Pensamiento

Uso Eficiente de Parámetros: Realiza tareas de razonamiento complejas con solo 27 millones de parámetros, significativamente menos que los modelos de lenguaje grandes tradicionales

Procesamiento de Pase Adelante Único: Ejecuta tareas de razonamiento secuencial en un pase adelante sin necesidad de supervisión explícita de los pasos intermedios

Casos de Uso de Hierarchical Reasoning Model

Resolución de Puzzles Complejos: Resuelve puzzles de Sudoku extremos y otros puzzles matemáticos/lógicos complejos con una precisión casi perfecta

Optimización de Búsqueda de Rutas: Encuentra rutas óptimas en laberintos grandes y escenarios de navegación complejos de manera eficiente

Tareas de Razonamiento Abstracto: Tiene un buen desempeño en el Corpus de Abstracción y Razonamiento (ARC), lo que demuestra capacidades en tareas de inteligencia general

Ventajas

Altamente eficiente con un conteo de parámetros mínimo y requisitos de datos de entrenamiento

Proceso de entrenamiento estable sin problemas de convergencia

Rendimiento superior en tareas de razonamiento complejas en comparación con modelos más grandes

Desventajas

Puede experimentar sobreajuste en la etapa tardía en escenarios de muestra pequeña

Muestra una variación de precisión de ±2 puntos en el aprendizaje de muestra pequeña

Requiere configuraciones específicas de GPU y extensiones CUDA para un rendimiento óptimo

Cómo Usar Hierarchical Reasoning Model

Instalar Prerrequisitos: Instale CUDA 12.6, PyTorch con soporte CUDA y paquetes adicionales para construir extensiones. Ejecute: wget instalador de CUDA, instale CUDA, configure CUDA_HOME, instale PyTorch e instale las dependencias de empaquetado

Instalar FlashAttention: Para GPU Hopper: Clone el repositorio flash-attention e instale FlashAttention 3. Para GPU Ampere o anteriores: Instale FlashAttention 2 a través de pip install flash-attn

Instalar Dependencias de Python: Ejecute 'pip install -r requirements.txt' para instalar todos los paquetes de Python requeridos

Configurar Weights & Biases: Configure W&B para el seguimiento de experimentos ejecutando 'wandb login' y asegurándose de que ha iniciado sesión en su cuenta

Preparar el Conjunto de Datos: Construya el conjunto de datos para su tarea específica. Por ejemplo, para Sudoku: Ejecute 'python dataset/build_sudoku_dataset.py' con los parámetros apropiados para el tamaño del conjunto de datos y el aumento

Comenzar el Entrenamiento: Inicie el entrenamiento con los parámetros apropiados. Ejemplo para Sudoku: 'OMP_NUM_THREADS=8 python pretrain.py data_path=data/sudoku-extreme-1k-aug-1000 epochs=20000 eval_interval=2000 global_batch_size=384 lr=7e-5'

Monitorear el Entrenamiento: Realice un seguimiento del progreso del entrenamiento a través de la interfaz W&B, monitoreando la métrica eval/exact_accuracy

Evaluar el Modelo: Ejecute la evaluación usando 'torchrun --nproc-per-node 8 evaluate.py checkpoint=<CHECKPOINT_PATH>' y analice los resultados a través de los cuadernos proporcionados

Usar Puntos de Control Pre-entrenados: Alternativamente, descargue los puntos de control pre-entrenados de HuggingFace para las tareas ARC-AGI-2, Sudoku 9x9 Extreme o Maze 30x30 Hard

Preguntas Frecuentes de Hierarchical Reasoning Model

HRM es una novedosa arquitectura recurrente inspirada en el procesamiento jerárquico y multiescala del cerebro humano. Presenta dos módulos recurrentes interdependientes: un módulo de alto nivel para la planificación lenta y abstracta, y un módulo de bajo nivel para cálculos rápidos y detallados. Puede ejecutar tareas de razonamiento secuencial en una sola pasada hacia adelante sin supervisión explícita.

Video de Hierarchical Reasoning Model

Artículos Populares

Veo 3.1: El Último Generador de Video con IA de Google en 2025

Oct 16, 2025

Códigos de invitación de Sora gratis en octubre de 2025 y cómo obtenerlos y comenzar a crear

Oct 13, 2025

Claude Sonnet 4.5: la última potencia de codificación de IA de Anthropic en 2025 | Características, precios, comparación con GPT 4 y más

Sep 30, 2025

Cómo hacer una foto de la tendencia de IA de Ghostface con el prompt de Google Gemini: Guía definitiva 2025

Sep 29, 2025

Últimas herramientas de IA similares a Hierarchical Reasoning Model

Athena AI

FreemiumAI Productivity Tools Large Language Models (LLMs)

Athena AI es una plataforma versátil impulsada por IA que ofrece asistencia de estudio personalizada, soluciones comerciales y coaching de vida a través de características como análisis de documentos, generación de cuestionarios, tarjetas de memoria y capacidades de chat interactivas.

Aguru AI

Free TrialMonitor & Log Management Large Language Models (LLMs)

Aguru AI es una solución de software local que proporciona herramientas integrales de monitoreo, seguridad y optimización para aplicaciones basadas en LLM con características como seguimiento de comportamiento, detección de anomalías y optimización del rendimiento.

GOAT AI

FreemiumSummarizer Large Language Models (LLMs)

GOAT AI es una plataforma impulsada por IA que proporciona capacidades de resumen con un clic para varios tipos de contenido, incluidos artículos de noticias, documentos de investigación y videos, mientras que también ofrece orquestación avanzada de agentes de IA para tareas específicas del dominio.

GiGOS

Free TrialLarge Language Models (LLMs)Multi-purpose Tools

GiGOS es una plataforma de IA que proporciona acceso a múltiples modelos de lenguaje avanzados como Gemini, GPT-4, Claude y Grok, con una interfaz intuitiva para que los usuarios interactúen y comparen diferentes modelos de IA.

Herramientas de IA populares como Hierarchical Reasoning Model

ChatGPT 5.0

Large Language Models (LLMs)AI Chatbot

ChatGPT-5 es el modelo de IA más avanzado de OpenAI que presenta capacidades de razonamiento mejoradas, una conciencia contextual más profunda y un sistema unificado de cambio automático que ofrece respuestas más rápidas, precisas y altamente personalizadas en escritura, codificación y tareas especializadas.

SearchGPT

Free TrialAI Search Engine Large Language Models (LLMs)

SearchGPT es un prototipo de búsqueda impulsado por IA de OpenAI que proporciona respuestas rápidas y conversacionales con fuentes claras utilizando modelos GPT.

ContextGem

FreeAI Data Mining Large Language Models (LLMs)

ContextGem es un framework LLM gratuito de código abierto que simplifica la extracción de datos estructurados e información de documentos con un código mínimo a través de potentes abstracciones integradas y funciones automatizadas.

AI CLI

FreeAI Code Assistant Large Language Models (LLMs)

AI CLI es una herramienta de interfaz de línea de comandos de código abierto que lleva las capacidades de IA directamente a su terminal, lo que le permite interactuar con varios modelos de IA como GPT de OpenAI y Claude de Anthropic a través de comandos simples.

Clasificación

Enviar y PromoverNew