
Ollama v0.7
Ollama v0.7 introduce un nuevo motor para soporte de IA multimodal de primera clase, lo que permite la ejecución local de modelos de visión avanzados como Llama 4, Gemma 3, Qwen 2.5 VL y Mistral Small 3.1 con una fiabilidad y gestión de memoria mejoradas.
https://ollama.com/blog/multimodal-models?ref=aipure&utm_source=aipure

Información del Producto
Actualizado:16/06/2025
Tendencias de Tráfico Mensual de Ollama v0.7
Ollama v0.7 experimentó una disminución del 5.5% en el tráfico, con 298,679 visitas menos. A pesar de la introducción de Qwen 2.5 VL y las capacidades mejoradas de soporte de visión, la disminución podría atribuirse a las vulnerabilidades y preocupaciones de seguridad reportadas en el pasado, afectando la confianza de los usuarios.
¿Qué es Ollama v0.7?
Ollama v0.7 representa una evolución significativa en la implementación local de modelos de lenguaje grandes, superando su dependencia anterior de llama.cpp para introducir un nuevo motor dedicado para capacidades de IA multimodal. Esta versión se centra en convertir los modelos multimodales en ciudadanos de primera clase, permitiendo a los usuarios ejecutar modelos sofisticados de visión-lenguaje localmente sin necesidad de servicios en la nube. El sistema admite varios tamaños de modelo, desde parámetros de 7B adecuados para máquinas con 8GB de RAM hasta modelos más grandes de 33B que requieren 32GB de RAM, lo que hace que la IA avanzada sea accesible para diferentes configuraciones de hardware.
Características Principales de Ollama v0.7
Ollama v0.7 introduce un nuevo motor innovador que brinda soporte de primera clase para modelos de IA multimodal, lo que permite la ejecución local de modelos avanzados de visión-lenguaje como Meta Llama 4, Google Gemma 3, Qwen 2.5 VL y Mistral Small 3.1. La actualización presenta una gestión de memoria mejorada, modularidad del modelo y una precisión mejorada para procesar imágenes y texto juntos, manteniendo la facilidad de uso característica de Ollama para ejecutar modelos de lenguaje grandes localmente.
Nuevo motor multimodal: Arquitectura de modelo autocontenida que permite que cada modelo implemente su propia capa de proyección y maneje entradas multimodales de forma independiente, mejorando la confiabilidad y simplificando la integración del modelo
Gestión avanzada de la memoria: Sistema inteligente de almacenamiento en caché de imágenes y caché KV optimizado con configuraciones específicas del hardware para maximizar la eficiencia de la memoria y el rendimiento
Procesamiento de precisión mejorado: Manejo mejorado de imágenes grandes y tokens con una gestión adecuada de metadatos y mecanismos de atención específicos de la arquitectura de entrenamiento de cada modelo
Soporte para múltiples modelos: Integración de varios modelos de visión-lenguaje, incluidos Llama 4, Gemma 3, Qwen 2.5 VL y Mistral Small 3.1, cada uno con sus propias capacidades especializadas
Casos de Uso de Ollama v0.7
Análisis de documentos: Procesamiento y extracción de información de documentos, incluido el reconocimiento de caracteres y la traducción de texto multilingüe en imágenes
Preguntas y respuestas visuales: Habilitación de interacciones en lenguaje natural sobre imágenes, incluidas descripciones detalladas y respuestas a preguntas específicas sobre contenido visual
Análisis basado en la ubicación: Análisis y provisión de información sobre ubicaciones, puntos de referencia y características geográficas en imágenes, incluidos cálculos de distancia y recomendaciones de viaje
Comparación de múltiples imágenes: Análisis de relaciones y patrones en múltiples imágenes simultáneamente, identificando elementos comunes y diferencias
Ventajas
Ejecución local de modelos multimodales avanzados sin dependencia de la nube
Fiabilidad y precisión mejoradas en el procesamiento del modelo
Soporte flexible para múltiples arquitecturas de modelos
Gestión eficiente de la memoria y optimización del hardware
Desventajas
Requiere importantes recursos de hardware para modelos más grandes
Soporte limitado de Windows (requiere WSL2)
Algunas características aún están en fase experimental
Cómo Usar Ollama v0.7
Instalar Ollama: Instala Ollama en tu sistema (compatible con MacOS, Linux y Windows a través de WSL2). Asegúrate de tener suficiente RAM: al menos 8GB para modelos de 7B, 16GB para modelos de 13B y 32GB para modelos de 33B.
Iniciar el servicio Ollama: Ejecuta el comando 'ollama serve' para iniciar el servicio Ollama. Para descargas más rápidas, puedes usar opcionalmente: OLLAMA_EXPERIMENT=client2 ollama serve
Extraer modelo: Descarga el modelo multimodal deseado usando 'ollama pull <model_name>'. Los modelos disponibles incluyen llama4:scout, gemma3, qwen2.5vl, mistral-small3.1, llava, bakllava y más modelos de visión.
Ejecutar modelo: Inicia el modelo usando 'ollama run <model_name>'. Por ejemplo: 'ollama run llama4:scout' o 'ollama run gemma3'
Introducir imágenes: Puedes introducir imágenes proporcionando la ruta del archivo de imagen después de tu solicitud de texto. Se pueden agregar varias imágenes en una sola solicitud o a través de preguntas de seguimiento. Admite el formato de imagen WebP.
Interactuar con el modelo: Haz preguntas sobre las imágenes, solicita análisis o ten conversaciones de seguimiento. El modelo procesará tanto el texto como las imágenes para proporcionar respuestas relevantes.
Opcional: Usar API/Bibliotecas: También puedes interactuar con Ollama a través de su API o bibliotecas oficiales de Python/JavaScript para acceso programático. Las capacidades multimodales funcionan a través de la CLI y las bibliotecas.
Opcional: Usar interfaz web: Para una interfaz más fácil de usar, puedes usar varias interfaces de usuario web y clientes creados por la comunidad que admiten las funciones multimodales de Ollama.
Preguntas Frecuentes de Ollama v0.7
Ollama ahora es compatible con modelos multimodales con un nuevo motor que puede manejar capacidades de visión. Es compatible con modelos como Meta Llama 4, Google Gemma 3, Qwen 2.5 VL y Mistral Small 3.1. La actualización incluye funciones como análisis de imágenes, manejo de múltiples imágenes, escaneo de documentos y reconocimiento de caracteres.
Artículos Populares

Las mejores alternativas a SweetAI Chat en 2025: Comparación de las mejores plataformas de chat de novia con IA y chat NSFW
Jun 30, 2025

Cómo Crear Videos Virales de ASMR con IA en 5 Minutos (Sin Micrófono, Sin Cámara Necesaria) | 2025
Jun 23, 2025

Cómo Hacer un Video Vlog Viral de Bigfoot con IA: Guía Paso a Paso para 2025
Jun 23, 2025

Reseña de Gentube 2025: Generador de imágenes con IA rápido, gratuito y fácil de usar para principiantes
Jun 16, 2025
Análisis del Sitio Web de Ollama v0.7
Tráfico y Clasificaciones de Ollama v0.7
5.1M
Visitas Mensuales
#10016
Clasificación Global
#247
Clasificación por Categoría
Tendencias de Tráfico: Mar 2025-May 2025
Información de Usuarios de Ollama v0.7
00:04:16
Duración Promedio de Visita
4.93
Páginas por Visita
33.47%
Tasa de Rebote de Usuarios
Principales Regiones de Ollama v0.7
CN: 32.76%
US: 14.47%
IN: 5.4%
RU: 3.52%
DE: 3.3%
Others: 40.55%