
Ollama v0.7
Ollama v0.7 引入了一个新的引擎,用于一流的多模态 AI 支持,从而可以在本地运行高级视觉模型,如 Llama 4、Gemma 3、Qwen 2.5 VL 和 Mistral Small 3.1,并提高了可靠性和内存管理。
https://ollama.com/blog/multimodal-models?ref=aipure&utm_source=aipure

产品信息
更新于:2025年06月09日
Ollama v0.7 月度流量趋势
Ollama v0.7 的流量下降了 5.5%,访问量减少了 298,679。尽管进行了视觉支持全面改进并引入了具有增强OCR功能的 Qwen 2.5 VL,但由于与URL处理相关的错误修复和用户体验问题(通过本地下载图片得到解决)可能导致了这种下降。
什么是 Ollama v0.7
Ollama v0.7 代表了本地大型语言模型部署的重大演变,超越了之前对 llama.cpp 的依赖,引入了一个新的专用引擎,用于多模态 AI 功能。此版本侧重于使多模态模型成为一等公民,允许用户在本地运行复杂视觉语言模型,而无需云服务。该系统支持各种模型大小,从适用于 8GB RAM 机器的 7B 参数到需要 32GB RAM 的更大的 33B 模型,使不同的硬件配置都可以访问高级 AI。
Ollama v0.7 的主要功能
Ollama v0.7 引入了一款突破性的新引擎,为多模态 AI 模型带来了一流的支持,从而可以在本地执行先进的视觉语言模型,如 Meta Llama 4、Google Gemma 3、Qwen 2.5 VL 和 Mistral Small 3.1。此次更新改进了内存管理、模型模块化以及图像和文本一起处理的增强准确性,同时保持了 Ollama 标志性的易用性,以便在本地运行大型语言模型。
全新多模态引擎: 独立的模型架构,允许每个模型实现自己的投影层并独立处理多模态输入,从而提高可靠性并简化模型集成
高级内存管理: 智能图像缓存系统和优化的 KV 缓存,具有特定于硬件的配置,以最大限度地提高内存效率和性能
增强的准确性处理: 改进了对大型图像和令牌的处理,具有适当的元数据管理和特定于每个模型训练架构的注意力机制
多模型支持: 集成了各种视觉语言模型,包括 Llama 4、Gemma 3、Qwen 2.5 VL 和 Mistral Small 3.1,每个模型都有自己专门的功能
Ollama v0.7 的使用场景
文档分析: 处理和提取文档中的信息,包括字符识别和图像中多语言文本的翻译
视觉问答: 支持关于图像的自然语言交互,包括详细描述和回答关于视觉内容的特定问题
基于位置的分析: 分析和提供关于图像中位置、地标和地理特征的信息,包括距离计算和旅行建议
多图像比较: 同时分析多个图像之间的关系和模式,识别共同元素和差异
优点
在本地执行高级多模态模型,无需云依赖
提高了模型处理的可靠性和准确性
灵活支持多种模型架构
高效的内存管理和硬件优化
缺点
对于较大的模型,需要大量的硬件资源
有限的 Windows 支持(需要 WSL2)
某些功能仍处于实验阶段
如何使用 Ollama v0.7
安装 Ollama: 在您的系统上安装 Ollama(支持 MacOS、Linux 和 Windows,通过 WSL2)。确保您有足够的 RAM - 7B 模型至少需要 8GB,13B 模型需要 16GB,33B 模型需要 32GB。
启动 Ollama 服务: 运行 'ollama serve' 命令以启动 Ollama 服务。为了更快的下载速度,您可以选择使用:OLLAMA_EXPERIMENT=client2 ollama serve
拉取模型: 使用 'ollama pull <model_name>' 下载您所需的多模态模型。可用模型包括 llama4:scout、gemma3、qwen2.5vl、mistral-small3.1、llava、bakllava 以及更多视觉模型。
运行模型: 使用 'ollama run <model_name>' 启动模型。例如:'ollama run llama4:scout' 或 'ollama run gemma3'
输入图像: 您可以通过在文本提示后提供图像文件路径来输入图像。可以在单个提示中或通过后续问题添加多个图像。支持 WebP 图像格式。
与模型交互: 提出关于图像的问题,请求分析,或进行后续对话。该模型将处理文本和图像,以提供相关的响应。
可选:使用 API/库: 您还可以通过其 API 或官方 Python/JavaScript 库与 Ollama 交互,以进行编程访问。多模态功能可在 CLI 和库中使用。
可选:使用 Web UI: 为了获得更友好的用户界面,您可以使用各种社区构建的 Web UI 和客户端,它们支持 Ollama 的多模态功能。
Ollama v0.7 常见问题
Ollama 现在支持具有全新引擎的多模态模型,该引擎可以处理视觉功能。它支持 Meta Llama 4、Google Gemma 3、Qwen 2.5 VL 和 Mistral Small 3.1 等模型。此更新包括图像分析、多图像处理、文档扫描和字符识别等功能。
Ollama v0.7 网站分析
Ollama v0.7 流量和排名
5.1M
每月访问量
#10016
全球排名
#247
类别排名
流量趋势:Mar 2025-May 2025
Ollama v0.7 用户洞察
00:04:16
平均访问时长
4.93
每次访问页数
33.47%
用户跳出率
Ollama v0.7 的热门地区
CN: 32.76%
US: 14.47%
IN: 5.4%
RU: 3.52%
DE: 3.3%
Others: 40.55%