
Ollama v0.7
Ollama v0.7 introduce un nuevo motor para soporte de IA multimodal de primera clase, lo que permite la ejecución local de modelos de visión avanzados como Llama 4, Gemma 3, Qwen 2.5 VL y Mistral Small 3.1 con una fiabilidad y gestión de memoria mejoradas.
https://ollama.com/blog/multimodal-models?ref=aipure&utm_source=aipure

Información del Producto
Actualizado:09/06/2025
Tendencias de Tráfico Mensual de Ollama v0.7
Ollama v0.7 experimentó una disminución del 5.5% en el tráfico, con 298,679 visitas menos. A pesar de la renovación del soporte de visión y la introducción de Qwen 2.5 VL con capacidades mejoradas de OCR, la disminución podría atribuirse a correcciones de errores y problemas de experiencia de usuario relacionados con el manejo de URLs, que se resolvieron mediante la descarga local de imágenes.
¿Qué es Ollama v0.7?
Ollama v0.7 representa una evolución significativa en la implementación local de modelos de lenguaje grandes, superando su dependencia anterior de llama.cpp para introducir un nuevo motor dedicado para capacidades de IA multimodal. Esta versión se centra en convertir los modelos multimodales en ciudadanos de primera clase, permitiendo a los usuarios ejecutar modelos sofisticados de visión-lenguaje localmente sin necesidad de servicios en la nube. El sistema admite varios tamaños de modelo, desde parámetros de 7B adecuados para máquinas con 8GB de RAM hasta modelos más grandes de 33B que requieren 32GB de RAM, lo que hace que la IA avanzada sea accesible para diferentes configuraciones de hardware.
Características Principales de Ollama v0.7
Ollama v0.7 introduce un nuevo motor innovador que brinda soporte de primera clase para modelos de IA multimodal, lo que permite la ejecución local de modelos avanzados de visión-lenguaje como Meta Llama 4, Google Gemma 3, Qwen 2.5 VL y Mistral Small 3.1. La actualización presenta una gestión de memoria mejorada, modularidad del modelo y una precisión mejorada para procesar imágenes y texto juntos, manteniendo la facilidad de uso característica de Ollama para ejecutar modelos de lenguaje grandes localmente.
Nuevo motor multimodal: Arquitectura de modelo autocontenida que permite que cada modelo implemente su propia capa de proyección y maneje entradas multimodales de forma independiente, mejorando la confiabilidad y simplificando la integración del modelo
Gestión avanzada de la memoria: Sistema inteligente de almacenamiento en caché de imágenes y caché KV optimizado con configuraciones específicas del hardware para maximizar la eficiencia de la memoria y el rendimiento
Procesamiento de precisión mejorado: Manejo mejorado de imágenes grandes y tokens con una gestión adecuada de metadatos y mecanismos de atención específicos de la arquitectura de entrenamiento de cada modelo
Soporte para múltiples modelos: Integración de varios modelos de visión-lenguaje, incluidos Llama 4, Gemma 3, Qwen 2.5 VL y Mistral Small 3.1, cada uno con sus propias capacidades especializadas
Casos de Uso de Ollama v0.7
Análisis de documentos: Procesamiento y extracción de información de documentos, incluido el reconocimiento de caracteres y la traducción de texto multilingüe en imágenes
Preguntas y respuestas visuales: Habilitación de interacciones en lenguaje natural sobre imágenes, incluidas descripciones detalladas y respuestas a preguntas específicas sobre contenido visual
Análisis basado en la ubicación: Análisis y provisión de información sobre ubicaciones, puntos de referencia y características geográficas en imágenes, incluidos cálculos de distancia y recomendaciones de viaje
Comparación de múltiples imágenes: Análisis de relaciones y patrones en múltiples imágenes simultáneamente, identificando elementos comunes y diferencias
Ventajas
Ejecución local de modelos multimodales avanzados sin dependencia de la nube
Fiabilidad y precisión mejoradas en el procesamiento del modelo
Soporte flexible para múltiples arquitecturas de modelos
Gestión eficiente de la memoria y optimización del hardware
Desventajas
Requiere importantes recursos de hardware para modelos más grandes
Soporte limitado de Windows (requiere WSL2)
Algunas características aún están en fase experimental
Cómo Usar Ollama v0.7
Instalar Ollama: Instala Ollama en tu sistema (compatible con MacOS, Linux y Windows a través de WSL2). Asegúrate de tener suficiente RAM: al menos 8GB para modelos de 7B, 16GB para modelos de 13B y 32GB para modelos de 33B.
Iniciar el servicio Ollama: Ejecuta el comando 'ollama serve' para iniciar el servicio Ollama. Para descargas más rápidas, puedes usar opcionalmente: OLLAMA_EXPERIMENT=client2 ollama serve
Extraer modelo: Descarga el modelo multimodal deseado usando 'ollama pull <model_name>'. Los modelos disponibles incluyen llama4:scout, gemma3, qwen2.5vl, mistral-small3.1, llava, bakllava y más modelos de visión.
Ejecutar modelo: Inicia el modelo usando 'ollama run <model_name>'. Por ejemplo: 'ollama run llama4:scout' o 'ollama run gemma3'
Introducir imágenes: Puedes introducir imágenes proporcionando la ruta del archivo de imagen después de tu solicitud de texto. Se pueden agregar varias imágenes en una sola solicitud o a través de preguntas de seguimiento. Admite el formato de imagen WebP.
Interactuar con el modelo: Haz preguntas sobre las imágenes, solicita análisis o ten conversaciones de seguimiento. El modelo procesará tanto el texto como las imágenes para proporcionar respuestas relevantes.
Opcional: Usar API/Bibliotecas: También puedes interactuar con Ollama a través de su API o bibliotecas oficiales de Python/JavaScript para acceso programático. Las capacidades multimodales funcionan a través de la CLI y las bibliotecas.
Opcional: Usar interfaz web: Para una interfaz más fácil de usar, puedes usar varias interfaces de usuario web y clientes creados por la comunidad que admiten las funciones multimodales de Ollama.
Preguntas Frecuentes de Ollama v0.7
Ollama ahora es compatible con modelos multimodales con un nuevo motor que puede manejar capacidades de visión. Es compatible con modelos como Meta Llama 4, Google Gemma 3, Qwen 2.5 VL y Mistral Small 3.1. La actualización incluye funciones como análisis de imágenes, manejo de múltiples imágenes, escaneo de documentos y reconocimiento de caracteres.
Artículos Populares

Reseña de FLUX.1 Kontext 2025: La herramienta definitiva de edición de imágenes con IA que rivaliza con Photoshop
Jun 5, 2025

FLUX.1 Kontext vs Midjourney V7 vs GPT-4o Image vs Ideogram 3.0 en 2025: ¿Es FLUX.1 Kontext realmente la mejor IA para la generación de imágenes?
Jun 5, 2025

Cómo crear videos virales de podcasts de bebés parlantes con IA: Guía paso a paso (2025)
Jun 3, 2025

Google Veo 3: Primer Generador de Video con IA en Admitir Audio de Forma Nativa
May 28, 2025
Análisis del Sitio Web de Ollama v0.7
Tráfico y Clasificaciones de Ollama v0.7
5.1M
Visitas Mensuales
#10016
Clasificación Global
#247
Clasificación por Categoría
Tendencias de Tráfico: Mar 2025-May 2025
Información de Usuarios de Ollama v0.7
00:04:16
Duración Promedio de Visita
4.93
Páginas por Visita
33.47%
Tasa de Rebote de Usuarios
Principales Regiones de Ollama v0.7
CN: 32.76%
US: 14.47%
IN: 5.4%
RU: 3.52%
DE: 3.3%
Others: 40.55%