Heron

Heron

Heron es una herramienta de observabilidad pasiva y de intrusión cero para agentes de IA que reconstruye turnos de agentes e interacciones de LLM/herramientas a partir del tráfico de red (pcap/en vivo/eBPF) con un panel integrado, métricas y exportación de datos SFT, sin SDK, sin proxy, sin cambios de código.
https://github.com/Netis/heron?ref=producthunt&utm_source=aipure
Heron

Información del Producto

Actualizado:29/06/2026

¿Qué es Heron?

Heron (Netis/heron) se posiciona como "el Wireshark para agentes de IA": un producto de observabilidad que le permite ver lo que hacen los agentes de IA reconstruyendo su comportamiento directamente a partir del tráfico capturado en lugar de instrumentar código o enrutar solicitudes a través de un proxy. Se centra en los flujos de trabajo de los agentes (planificador → llamadas a herramientas → resultados → siguiente paso) y las interacciones con LLM, proporcionando una consola web local (http://localhost:3000) para explorar líneas de tiempo, detalles por llamada, errores y métricas de rendimiento/uso. Admite la reproducción de archivos .pcap capturados sin privilegios, la captura en vivo a través de libpcap (con las capacidades adecuadas), la ingesta opcional de ZMQ desde una sonda remota y un modo experimental de Linux eBPF para observar el tráfico TLS en el límite SSL en el host.

Características Principales de Heron

Heron (Netis/heron) es una herramienta de observabilidad pasiva para agentes de IA, posicionada como "el Wireshark para agentes de IA", que reconstruye turnos de agente, llamadas a herramientas e interacciones LLM directamente desde el tráfico de red (captura pcap/en vivo) o límites TLS a nivel de host, sin requerir ningún SDK, proxy o cambios de código y sin interponerse en la ruta de la solicitud. Analiza HTTP/SSE en texto plano (o captura contenido descifrado a través de eBPF SSL uprobes de Linux opcionales), identifica API de cable LLM comunes (OpenAI/Anthropic/Gemini y servidores compatibles con OpenAI), construye líneas de tiempo y gráficos de topología de servicio, calcula métricas de latencia/tokens y almacena los resultados (DuckDB por defecto, ClickHouse opcional) detrás de una consola web local y una API REST, con la capacidad de exportar tráfico real a conjuntos de datos listos para SFT.
Captura pasiva de intrusión cero: Observa el tráfico LLM/agente fuera del cable (reproducción de pcap o interfaz en vivo) o en el límite TLS del host, sin requerir instrumentación SDK, proxy ni cambios en el código del cliente, mientras se mantiene fuera de la ruta de la solicitud.
Reconstrucción de turnos de agente: Une flujos de trabajo de agente de múltiples llamadas (planificador → herramienta → resultado → siguiente paso) en "turnos" únicos y direccionables, con perfiles nombrados para herramientas como Claude Code y Codex CLI, además de un modo genérico.
Detección de API de cable y decodificación semántica: Detecta y decodifica automáticamente API LLM populares (OpenAI Chat Completions/Responses, Anthropic Messages, Gemini) y es compatible con backends compatibles con OpenAI (vLLM, SGLang, Ollama, llama.cpp, LM Studio, LiteLLM) inspeccionando bytes en el cable.
Consola en vivo con exploración profunda: Interfaz de usuario web incrustada (localhost:3000) para líneas de tiempo, inspección de solicitud/respuesta por llamada, sesiones/turnos de agente, HTTP sin procesar, estado de la canalización y paneles para rendimiento, uso y errores.
Métricas de grado operativo y vistas de topología: Calcula TTFT/E2E latencia/TPOT, rendimiento de tokens, tasas de error, volumen de llamadas, percentiles de latencia y visualiza rutas de servicio a servicio (clientes → proxies → backends de inferencia) como un gráfico dirigido.
Exportación de trayectoria SFT desde tráfico real: Exporta turnos/sesiones reconstruidos a mensajes JSONL estilo OpenAI (incluyendo llamadas a herramientas/resultados y argumentos estructurados) para convertir las ejecuciones de agentes capturadas en datos de ajuste fino.

Casos de Uso de Heron

Depuración y control de calidad de agentes: Los desarrolladores pueden diagnosticar llamadas a herramientas estancadas, bucles de planificación, indicaciones mal formadas y salidas inesperadas inspeccionando los turnos reconstruidos y los cuerpos completos de solicitud/respuesta, sin modificar el agente.
Observabilidad de la plataforma de inferencia: Los equipos de la plataforma de IA pueden mapear la topología de servicio real (cliente → LiteLLM → vLLM/SGLang, etc.), medir la latencia de cada salto y detectar sustituciones silenciosas de modelos/puntos finales basándose en el tráfico observado.
FinOps / atribución de costos: Los gerentes de ingeniería y FinOps pueden atribuir el uso y el rendimiento por tipo de agente, modelo, punto final y sesión utilizando evidencia del tráfico real en lugar de exportaciones periódicas del SDK.
Cumplimiento, auditoría y respuesta a incidentes: Los equipos de seguridad/cumplimiento pueden mantener una cadena de evidencia de captura única de lo que los agentes enviaron/recibieron (donde el tráfico está descifrado), apoyando auditorías e investigaciones sin afectar las rutas de producción.
Generación de conjuntos de datos para el entrenamiento de modelos: Los equipos de ML pueden convertir interacciones reales de agentes en conjuntos de datos SFT exportando turnos/sesiones como JSONL estructurado, preservando la estructura de llamadas a herramientas y los formatos de cable del proveedor.

Ventajas

No se requiere SDK/proxy y no está en la ruta de la solicitud, lo que reduce la fricción de implementación y evita interrupciones inducidas por el observador.
Visibilidad de alta fidelidad: captura cuerpos completos de solicitud/respuesta (cuando el texto plano está disponible) y reconstruye turnos de agente de nivel superior, no solo registros por llamada.
Amplia compatibilidad con múltiples proveedores de LLM y servidores de inferencia compatibles con OpenAI a través de la detección a nivel de cable.
Distribución portátil: binario único con consola incrustada; admite la reproducción de pcap para análisis fuera de línea/CI.

Desventajas

Requiere visibilidad HTTP en texto plano; el tráfico cifrado necesita colocación detrás de la terminación TLS o el uso de la captura experimental de eBPF SSL-urobe de Linux con capacidades adicionales.
La captura pasiva puede limitar la correlación de extremo a extremo en clústeres de clientes distribuidos en comparación con el rastreo explícito/etiquetado SDK.
Algunos formatos solo son parcialmente compatibles; los formatos de cable no compatibles se omiten/informan en lugar de decodificarse.
La captura de interfaz en vivo puede requerir privilegios/capacidades elevadas (por ejemplo, CAP_NET_RAW/CAP_NET_ADMIN en Linux).

Cómo Usar Heron

1) Instalar Heron (Linux/macOS, local de usuario, sin sudo): Ejecute el instalador de una línea para colocar el binario `heron` en un directorio local del usuario. Comando: curl -fsSL https://raw.githubusercontent.com/Netis/heron/main/install.sh | INSTALL_DIR="$HOME/.local" sh
2) Verificar la instalación: Confirme que el binario se ejecuta y está en su PATH. Comandos: heron --version heron --help
3) Ejecutar una prueba de humo sin privilegios usando una reproducción de .pcap: Reproduzca una captura de paquetes existente que contenga tráfico LLM. Esto no requiere captura en vivo ni privilegios especiales. Comando: heron --pcap-file capture.pcap --no-retention Consejo: Si no tiene un pcap, use los accesorios del repositorio en `testdata/pcaps/` y reproduzca cualquiera de ellos.
4) Abrir la consola web: Después de iniciar Heron, abra la consola incrustada en su navegador para inspeccionar los turnos del agente, las líneas de tiempo y las métricas. URL: http://localhost:3000 Nota: Después de que un pcap termine de reproducirse, Heron mantiene la API/consola disponible para que pueda navegar. Presione Ctrl+C para salir, o pase `--exit-after-drain` para salir automáticamente una vez que la tubería se vacíe.
5) Verificar el estado y confirmar que las trazas fueron reconstruidas (verificación de API): Use la API REST para confirmar que el servicio está en buen estado y que las trazas reconstruidas están disponibles. Comandos: cúrl -s http://localhost:3000/api/health cúrl -s 'http://localhost:3000/api/traces?limit=5'
6) (Opcional) Ejecutar captura en vivo desde una interfaz de red (Linux/macOS): Si tiene una interfaz en vivo y desea una captura en tiempo real, ejecute Heron contra una interfaz. Comando: heron -i eth0 Nota de Linux: la captura en vivo necesita `CAP_NET_RAW` (y capacidades relacionadas). Los documentos de instalación recomiendan otorgar capacidades una vez para que no necesite sudo en tiempo de ejecución: sudo setcap cap_net_raw,cap_net_admin=eip ~/.local/bin/heron
7) Comprender el requisito de TLS (dónde implementar Heron): Heron reconstruye las llamadas LLM a partir de HTTP de texto sin formato. Instálelo donde el tráfico ya esté descifrado: en el host de inferencia, detrás de un terminador TLS, o aliméntelo desde una fuente de paquetes confiable. La captura de paquetes por sí sola no puede ver los cuerpos cifrados.
8) (Opcional, experimental de Linux) Capturar tráfico TLS como texto sin formato a través de uprobes SSL de eBPF: En Linux, Heron tiene una fuente experimental de eBPF opcional que engancha `SSL_read`/`SSL_write` para leer llamadas LLM cifradas con TLS como texto sin formato en el host y atribuir llamadas a procesos (pid/comando/ejecutable). Esto se construye detrás de la característica de carga `ebpf` y requiere `CAP_BPF` y kernel BTF. Siga la documentación de captura de eBPF del repositorio para la configuración.
9) Usar la consola para analizar el comportamiento del agente y la topología del servicio: En la consola (`http://localhost:3000`), use páginas como Descripción general/Rendimiento/Uso/Errores y las vistas de Servicios para ver gráficos dirigidos de clientes → proxies → backends. Heron detecta puntos finales (por ejemplo, vLLM, SGLang, Ollama, llama.cpp, LiteLLM) a partir de bytes en el cable.
10) Inspeccionar los turnos de agente reconstruidos (narrativas de múltiples llamadas): Navegue a Turnos de agente para ver interacciones de múltiples llamadas unidas en turnos individuales (planificador → herramienta → resultado → siguiente herramienta). Esto proporciona una vista narrativa en lugar de registros brutos por solicitud.
11) Exportar trayectorias SFT desde tráfico real (datos de ajuste fino): Desde la vista de detalles de un turno (o exportación por lotes desde la lista de turnos de agente con filtros), exporte JSONL de `messages` estilo OpenAI. Heron conserva las llamadas/resultados de las herramientas y rehidrata los argumentos a objetos. Compatible hoy: formatos de cable de Anthropic y OpenAI-chat; los formatos no compatibles se informan y se omiten.
12) Configurar el almacenamiento y la retención (DuckDB predeterminado; ClickHouse opcional): Por defecto, Heron almacena datos en DuckDB (archivo único incrustado) con controles de retención por tabla. Para análisis de mayor volumen, configure ClickHouse estableciendo `storage.backend = "clickhouse"` (según la documentación de Configuración).
13) (Opcional) Compilar desde la fuente correctamente (consola incrustada): Si está desarrollando/compilando desde la fuente, use los comandos `just` del proyecto para que la consola web esté incrustada. El repositorio advierte que un `cargo build --release` simple puede producir una API funcional pero una consola en blanco. Recomendado: just build all just quality all just test all Si invoca cargo directamente, compile la consola primero (`bun run build` en `console/`) y compile con `--features console`.

Preguntas Frecuentes de Heron

Heron (Netis/heron) es una herramienta de observabilidad pasiva para agentes de IA, descrita como "El Wireshark para agentes de IA". Reconstruye los turnos de los agentes, las llamadas a herramientas y las interacciones de LLM a partir del tráfico de red (fuera del cable o en el límite TLS del host) sin estar en la ruta de la solicitud.

Últimas herramientas de IA similares a Heron

Hapticlabs
Hapticlabs
Hapticlabs es un kit de herramientas sin código que permite a diseñadores, desarrolladores e investigadores diseñar, prototipar y desplegar fácilmente interacciones hápticas inmersivas en diferentes dispositivos sin codificación.
Deployo.ai
Deployo.ai
Deployo.ai es una plataforma integral de implementación de IA que permite una implementación, monitorización y escalado sin problemas de modelos con marcos de IA ética integrados y compatibilidad entre nubes.
CloudSoul
CloudSoul
CloudSoul es una plataforma SaaS impulsada por IA que permite a los usuarios desplegar y gestionar instantáneamente la infraestructura en la nube a través de conversaciones en lenguaje natural, haciendo que la gestión de recursos de AWS sea más accesible y eficiente.
Devozy.ai
Devozy.ai
Devozy.ai es una plataforma de autoservicio para desarrolladores impulsada por IA que combina gestión de proyectos Agile, DevSecOps, gestión de infraestructura multi-nube y gestión de servicios de TI en una solución unificada para acelerar la entrega de software.