Ollama v0.7

Ollama v0.7

Ollama v0.7 introduce un nuevo motor para soporte de IA multimodal de primera clase, lo que permite la ejecución local de modelos de visión avanzados como Llama 4, Gemma 3, Qwen 2.5 VL y Mistral Small 3.1 con una fiabilidad y gestión de memoria mejoradas.
https://ollama.com/blog/multimodal-models?ref=aipure&utm_source=aipure
Ollama v0.7

Información del Producto

Actualizado:09/06/2025

Tendencias de Tráfico Mensual de Ollama v0.7

Ollama v0.7 experimentó una disminución del 5.5% en el tráfico, con 298,679 visitas menos. A pesar de la renovación del soporte de visión y la introducción de Qwen 2.5 VL con capacidades mejoradas de OCR, la disminución podría atribuirse a correcciones de errores y problemas de experiencia de usuario relacionados con el manejo de URLs, que se resolvieron mediante la descarga local de imágenes.

Ver historial de tráfico

¿Qué es Ollama v0.7?

Ollama v0.7 representa una evolución significativa en la implementación local de modelos de lenguaje grandes, superando su dependencia anterior de llama.cpp para introducir un nuevo motor dedicado para capacidades de IA multimodal. Esta versión se centra en convertir los modelos multimodales en ciudadanos de primera clase, permitiendo a los usuarios ejecutar modelos sofisticados de visión-lenguaje localmente sin necesidad de servicios en la nube. El sistema admite varios tamaños de modelo, desde parámetros de 7B adecuados para máquinas con 8GB de RAM hasta modelos más grandes de 33B que requieren 32GB de RAM, lo que hace que la IA avanzada sea accesible para diferentes configuraciones de hardware.

Características Principales de Ollama v0.7

Ollama v0.7 introduce un nuevo motor innovador que brinda soporte de primera clase para modelos de IA multimodal, lo que permite la ejecución local de modelos avanzados de visión-lenguaje como Meta Llama 4, Google Gemma 3, Qwen 2.5 VL y Mistral Small 3.1. La actualización presenta una gestión de memoria mejorada, modularidad del modelo y una precisión mejorada para procesar imágenes y texto juntos, manteniendo la facilidad de uso característica de Ollama para ejecutar modelos de lenguaje grandes localmente.
Nuevo motor multimodal: Arquitectura de modelo autocontenida que permite que cada modelo implemente su propia capa de proyección y maneje entradas multimodales de forma independiente, mejorando la confiabilidad y simplificando la integración del modelo
Gestión avanzada de la memoria: Sistema inteligente de almacenamiento en caché de imágenes y caché KV optimizado con configuraciones específicas del hardware para maximizar la eficiencia de la memoria y el rendimiento
Procesamiento de precisión mejorado: Manejo mejorado de imágenes grandes y tokens con una gestión adecuada de metadatos y mecanismos de atención específicos de la arquitectura de entrenamiento de cada modelo
Soporte para múltiples modelos: Integración de varios modelos de visión-lenguaje, incluidos Llama 4, Gemma 3, Qwen 2.5 VL y Mistral Small 3.1, cada uno con sus propias capacidades especializadas

Casos de Uso de Ollama v0.7

Análisis de documentos: Procesamiento y extracción de información de documentos, incluido el reconocimiento de caracteres y la traducción de texto multilingüe en imágenes
Preguntas y respuestas visuales: Habilitación de interacciones en lenguaje natural sobre imágenes, incluidas descripciones detalladas y respuestas a preguntas específicas sobre contenido visual
Análisis basado en la ubicación: Análisis y provisión de información sobre ubicaciones, puntos de referencia y características geográficas en imágenes, incluidos cálculos de distancia y recomendaciones de viaje
Comparación de múltiples imágenes: Análisis de relaciones y patrones en múltiples imágenes simultáneamente, identificando elementos comunes y diferencias

Ventajas

Ejecución local de modelos multimodales avanzados sin dependencia de la nube
Fiabilidad y precisión mejoradas en el procesamiento del modelo
Soporte flexible para múltiples arquitecturas de modelos
Gestión eficiente de la memoria y optimización del hardware

Desventajas

Requiere importantes recursos de hardware para modelos más grandes
Soporte limitado de Windows (requiere WSL2)
Algunas características aún están en fase experimental

Cómo Usar Ollama v0.7

Instalar Ollama: Instala Ollama en tu sistema (compatible con MacOS, Linux y Windows a través de WSL2). Asegúrate de tener suficiente RAM: al menos 8GB para modelos de 7B, 16GB para modelos de 13B y 32GB para modelos de 33B.
Iniciar el servicio Ollama: Ejecuta el comando 'ollama serve' para iniciar el servicio Ollama. Para descargas más rápidas, puedes usar opcionalmente: OLLAMA_EXPERIMENT=client2 ollama serve
Extraer modelo: Descarga el modelo multimodal deseado usando 'ollama pull <model_name>'. Los modelos disponibles incluyen llama4:scout, gemma3, qwen2.5vl, mistral-small3.1, llava, bakllava y más modelos de visión.
Ejecutar modelo: Inicia el modelo usando 'ollama run <model_name>'. Por ejemplo: 'ollama run llama4:scout' o 'ollama run gemma3'
Introducir imágenes: Puedes introducir imágenes proporcionando la ruta del archivo de imagen después de tu solicitud de texto. Se pueden agregar varias imágenes en una sola solicitud o a través de preguntas de seguimiento. Admite el formato de imagen WebP.
Interactuar con el modelo: Haz preguntas sobre las imágenes, solicita análisis o ten conversaciones de seguimiento. El modelo procesará tanto el texto como las imágenes para proporcionar respuestas relevantes.
Opcional: Usar API/Bibliotecas: También puedes interactuar con Ollama a través de su API o bibliotecas oficiales de Python/JavaScript para acceso programático. Las capacidades multimodales funcionan a través de la CLI y las bibliotecas.
Opcional: Usar interfaz web: Para una interfaz más fácil de usar, puedes usar varias interfaces de usuario web y clientes creados por la comunidad que admiten las funciones multimodales de Ollama.

Preguntas Frecuentes de Ollama v0.7

Ollama ahora es compatible con modelos multimodales con un nuevo motor que puede manejar capacidades de visión. Es compatible con modelos como Meta Llama 4, Google Gemma 3, Qwen 2.5 VL y Mistral Small 3.1. La actualización incluye funciones como análisis de imágenes, manejo de múltiples imágenes, escaneo de documentos y reconocimiento de caracteres.

Análisis del Sitio Web de Ollama v0.7

Tráfico y Clasificaciones de Ollama v0.7
5.1M
Visitas Mensuales
#10016
Clasificación Global
#247
Clasificación por Categoría
Tendencias de Tráfico: Mar 2025-May 2025
Información de Usuarios de Ollama v0.7
00:04:16
Duración Promedio de Visita
4.93
Páginas por Visita
33.47%
Tasa de Rebote de Usuarios
Principales Regiones de Ollama v0.7
  1. CN: 32.76%

  2. US: 14.47%

  3. IN: 5.4%

  4. RU: 3.52%

  5. DE: 3.3%

  6. Others: 40.55%

Últimas herramientas de IA similares a Ollama v0.7

Athena AI
Athena AI
Athena AI es una plataforma versátil impulsada por IA que ofrece asistencia de estudio personalizada, soluciones comerciales y coaching de vida a través de características como análisis de documentos, generación de cuestionarios, tarjetas de memoria y capacidades de chat interactivas.
Aguru AI
Aguru AI
Aguru AI es una solución de software local que proporciona herramientas integrales de monitoreo, seguridad y optimización para aplicaciones basadas en LLM con características como seguimiento de comportamiento, detección de anomalías y optimización del rendimiento.
GOAT AI
GOAT AI
GOAT AI es una plataforma impulsada por IA que proporciona capacidades de resumen con un clic para varios tipos de contenido, incluidos artículos de noticias, documentos de investigación y videos, mientras que también ofrece orquestación avanzada de agentes de IA para tareas específicas del dominio.
GiGOS
GiGOS
GiGOS es una plataforma de IA que proporciona acceso a múltiples modelos de lenguaje avanzados como Gemini, GPT-4, Claude y Grok, con una interfaz intuitiva para que los usuarios interactúen y comparen diferentes modelos de IA.