
Ollama v0.7
Ollama v0.7 apresenta um novo mecanismo para suporte de IA multimodal de primeira classe, permitindo a execução local de modelos de visão avançados como Llama 4, Gemma 3, Qwen 2.5 VL e Mistral Small 3.1 com confiabilidade aprimorada e gerenciamento de memória.
https://ollama.com/blog/multimodal-models?ref=aipure&utm_source=aipure

Informações do Produto
Atualizado:Jun 9, 2025
Tendências de Tráfego Mensal do Ollama v0.7
O Ollama v0.7 teve uma queda de 5,5% no tráfego, com 298.679 visitas a menos. Apesar da reformulação do suporte à visão e da introdução do Qwen 2.5 VL com recursos aprimorados de OCR, a queda pode ser atribuída a correções de bugs e problemas de experiência do usuário relacionados ao tratamento de URLs, que foram resolvidos através do download local de imagens.
O que é Ollama v0.7
Ollama v0.7 representa uma evolução significativa na implantação local de modelos de linguagem grandes, indo além de sua dependência anterior de llama.cpp para introduzir um novo mecanismo dedicado para recursos de IA multimodal. Esta versão se concentra em tornar os modelos multimodais cidadãos de primeira classe, permitindo que os usuários executem modelos sofisticados de visão-linguagem localmente, sem exigir serviços de nuvem. O sistema oferece suporte a vários tamanhos de modelo, de 7B parâmetros adequados para máquinas de 8 GB de RAM até modelos maiores de 33B que exigem 32 GB de RAM, tornando a IA avançada acessível para diferentes configurações de hardware.
Principais Recursos do Ollama v0.7
Ollama v0.7 introduz um novo motor inovador que traz suporte de primeira classe para modelos de IA multimodais, permitindo a execução local de modelos avançados de visão-linguagem como Meta Llama 4, Google Gemma 3, Qwen 2.5 VL e Mistral Small 3.1. A atualização apresenta gerenciamento de memória aprimorado, modularidade do modelo e precisão aprimorada para processamento de imagens e texto juntos, mantendo a facilidade de uso da assinatura do Ollama para executar grandes modelos de linguagem localmente.
Novo Motor Multimodal: Arquitetura de modelo autocontida que permite que cada modelo implemente sua própria camada de projeção e lide com entradas multimodais de forma independente, melhorando a confiabilidade e a simplificação da integração do modelo
Gerenciamento Avançado de Memória: Sistema inteligente de cache de imagem e cache KV otimizado com configurações específicas de hardware para maximizar a eficiência e o desempenho da memória
Processamento de Precisão Aprimorado: Manuseio aprimorado de imagens e tokens grandes com gerenciamento adequado de metadados e mecanismos de atenção específicos para a arquitetura de treinamento de cada modelo
Suporte a Vários Modelos: Integração de vários modelos de visão-linguagem, incluindo Llama 4, Gemma 3, Qwen 2.5 VL e Mistral Small 3.1, cada um com suas próprias capacidades especializadas
Casos de Uso do Ollama v0.7
Análise de Documentos: Processamento e extração de informações de documentos, incluindo reconhecimento de caracteres e tradução de texto multilíngue em imagens
Visual Q&A: Permitir interações em linguagem natural sobre imagens, incluindo descrições detalhadas e responder a perguntas específicas sobre conteúdo visual
Análise Baseada em Localização: Analisar e fornecer informações sobre locais, pontos de referência e características geográficas em imagens, incluindo cálculos de distância e recomendações de viagem
Comparação de Múltiplas Imagens: Analisar relacionamentos e padrões em várias imagens simultaneamente, identificando elementos comuns e diferenças
Vantagens
Execução local de modelos multimodais avançados sem dependência da nuvem
Confiabilidade e precisão aprimoradas no processamento do modelo
Suporte flexível para várias arquiteturas de modelo
Gerenciamento eficiente de memória e otimização de hardware
Desvantagens
Requer recursos de hardware significativos para modelos maiores
Suporte limitado ao Windows (requer WSL2)
Alguns recursos ainda em fase experimental
Como Usar o Ollama v0.7
Instale o Ollama: Instale o Ollama em seu sistema (compatível com MacOS, Linux e Windows via WSL2). Certifique-se de ter RAM suficiente - pelo menos 8 GB para modelos de 7B, 16 GB para modelos de 13B e 32 GB para modelos de 33B.
Inicie o Serviço Ollama: Execute o comando 'ollama serve' para iniciar o serviço Ollama. Para downloads mais rápidos, você pode opcionalmente usar: OLLAMA_EXPERIMENT=client2 ollama serve
Puxe o Modelo: Baixe o modelo multimodal desejado usando 'ollama pull <model_name>'. Os modelos disponíveis incluem llama4:scout, gemma3, qwen2.5vl, mistral-small3.1, llava, bakllava e mais modelos de visão.
Execute o Modelo: Inicie o modelo usando 'ollama run <model_name>'. Por exemplo: 'ollama run llama4:scout' ou 'ollama run gemma3'
Insira Imagens: Você pode inserir imagens fornecendo o caminho do arquivo de imagem após seu prompt de texto. Várias imagens podem ser adicionadas em um único prompt ou por meio de perguntas de acompanhamento. Suporta formato de imagem WebP.
Interaja com o Modelo: Faça perguntas sobre as imagens, solicite análises ou tenha conversas de acompanhamento. O modelo processará texto e imagens para fornecer respostas relevantes.
Opcional: Use API/Bibliotecas: Você também pode interagir com o Ollama por meio de sua API ou bibliotecas oficiais Python/JavaScript para acesso programático. Os recursos multimodais funcionam em CLI e bibliotecas.
Opcional: Use a IU da Web: Para uma interface mais amigável, você pode usar várias IUs e clientes da Web criados pela comunidade que oferecem suporte aos recursos multimodais do Ollama.
Perguntas Frequentes do Ollama v0.7
O Ollama agora oferece suporte a modelos multimodais com um novo mecanismo que pode lidar com recursos de visão. Ele oferece suporte a modelos como Meta Llama 4, Google Gemma 3, Qwen 2.5 VL e Mistral Small 3.1. A atualização inclui recursos como análise de imagem, manuseio de várias imagens, digitalização de documentos e reconhecimento de caracteres.
Artigos Populares

Análise do FLUX.1 Kontext 2025: A Ferramenta de Edição de Imagem com IA Definitiva que Rivaliza com o Photoshop
Jun 5, 2025

FLUX.1 Kontext vs Midjourney V7 vs GPT-4o Image vs Ideogram 3.0 em 2025: O FLUX.1 Kontext é Realmente a Melhor IA para Geração de Imagens?
Jun 5, 2025

Como Criar Vídeos Virais de Podcast de Bebê Falante com IA: Guia Passo a Passo (2025)
Jun 3, 2025

Os 5 Melhores Geradores de Personagens NSFW em 2025
May 29, 2025
Análises do Site Ollama v0.7
Tráfego e Classificações do Ollama v0.7
5.1M
Visitas Mensais
#10016
Classificação Global
#247
Classificação por Categoria
Tendências de Tráfego: Mar 2025-May 2025
Insights dos Usuários do Ollama v0.7
00:04:16
Duração Média da Visita
4.93
Páginas por Visita
33.47%
Taxa de Rejeição dos Usuários
Principais Regiões do Ollama v0.7
CN: 32.76%
US: 14.47%
IN: 5.4%
RU: 3.52%
DE: 3.3%
Others: 40.55%