Gemma 4 系列中包含哪些模型？

Gemma 4 包括四种模型尺寸：E2B（有效 2B）和 E4B（有效 4B），针对边缘设备进行了优化；一个 26B 专家混合 (MoE) 模型，在推理过程中激活 3.8B 参数；以及一个 31B 密集模型，用于实现最高质量和微调。

Gemma 4 可以在移动设备和边缘硬件上运行吗？

是的。E2B 和 E4B 模型经过专门设计，可以在边缘设备（包括 Android 手机、Raspberry Pi 和 NVIDIA Jetson Orin Nano）上完全离线运行。E2B 模型可以在某些设备上使用少于 1.5GB 的内存运行。

Gemma 4 的主要功能是什么？

Gemma 4 具有高级推理功能，包括多步骤规划、对代理工作流程的本机支持（包括函数调用和结构化 JSON 输出）、高质量代码生成、本机视觉和音频处理、高达 256K 个令牌的上下文窗口以及对 140 多种语言的支持。

与其他开放模型相比，Gemma 4 的性能如何？

31B 模型在开放模型的 Arena AI 文本排行榜上排名第 3，而 26B 模型排名第 6。Gemma 4 的性能优于比其大 20 倍的模型，为其参数计数提供最先进的性能。

哪些平台和工具支持 Gemma 4？

Gemma 4 从一开始就支持 Hugging Face (Transformers, TRL)、LiteRT-LM、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM 和 NeMo、LM Studio、Unsloth、SGLang、Baseten、Docker、MaxText 和 Keras。它可以通过 Google AI Studio、Vertex AI、Kaggle 和 Hugging Face 获得。

我可以为我的特定用例微调 Gemma 4 吗？

是的。可以使用 Google Colab、Vertex AI 或消费级 GPU 等平台对 Gemma 4 进行微调。通过 Hugging Face Transformers with TRL、用于内存高效训练的 Unsloth 和用于企业管道的 NVIDIA NeMo 提供微调支持。

使用 Gemma 4 是否需要互联网连接？

不可以。下载后，Gemma 4 完全离线运行，无需 API 密钥、云调用或使用成本。这使其成为隐私敏感型应用程序和连接受限环境的理想选择。

Google Gemma 4

Q: Gemma 4 可以免费用于商业用途吗？

是的。Gemma 4 是在 Apache 2.0 许可下发布的，该许可允许商业用途、再分发和修改，无需支付版税、每月活跃用户限制或可接受的使用政策执行限制。

WebsiteFreeLarge Language Models (LLMs)Multi-purpose Tools

Google Gemma 4 是一个最先进的开放权重人工智能模型系列，根据 Apache 2.0 许可证发布，具有高级推理、多模式功能和代理工作流程，可以在从智能手机到工作站的设备上高效运行。

访问网站

推广此工具

https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4?ref=producthunt&utm_source=aipure

概述
分析
视频
替代方案

产品信息

更新于：2026年04月10日

Google Gemma 4 月度流量趋势

Google Gemma 4 上个月收到了 8.5m 次访问，显示出 -12.1% 的轻微下降。根据我们的分析，这一趋势与人工智能工具领域的典型市场动态相符。

查看历史流量

什么是 Google Gemma 4

Google Gemma 4 于 2026 年 4 月 2 日发布，代表了 Google DeepMind 最新一代的开放人工智能模型，该模型建立在与 Gemini 3 相同的研究和技术基础上。Gemma 4 在商业上宽松的 Apache 2.0 许可证下发布，旨在使前沿水平的人工智能功能广泛地提供给开发者、研究人员和企业。该模型系列有四种不同的尺寸：E2B（有效 20 亿参数）、E4B（有效 40 亿参数）、26B 专家混合模型 (MoE) 和 31B 密集模型，每种模型都针对不同的硬件配置进行了优化，范围从移动设备和物联网硬件到专业工作站和云基础设施。Gemma 4 在之前几代 Gemma 成功的基础上（下载量超过 4 亿次，并催生了一个由 100,000 多个社区创建的变体组成的 \'Gemmaverse\'），提供了前所未有的智能参数，其中 31B 模型在 Arena AI 文本排行榜上排名第 3，26B 模型排名第 6，超过了高达其 20 倍大小的模型。

Google Gemma 4 的主要功能

Google Gemma 4 是一系列最先进的开放 AI 模型，根据 Apache 2.0 许可发布，建立在与 Gemini 3 相同的研究基础上。它有四种尺寸（E2B、E4B、26B MoE 和 31B Dense），针对从移动设备到工作站的不同硬件进行了优化。这些模型具有高级推理、用于代理工作流程的本机函数调用、多模态功能（较小模型上的文本、图像、视频和音频）、支持 140 多种语言、扩展的上下文窗口（最多 256K 个令牌）以及出色的代码生成。Gemma 4 专为设备上部署而设计，以最小的硬件要求提供前沿级别的 AI 功能，同时保持完整的数据主权和隐私。

高级推理和代理工作流程: 对多步骤规划、函数调用、结构化 JSON 输出和系统指令的本机支持使开发人员能够构建自主 AI 代理，这些代理可以与工具、API 交互并可靠地执行复杂的工作流程。

多模态理解: 所有模型都以本机方式处理具有可变分辨率的文本、图像和视频，擅长 OCR 和图表理解等视觉任务。E2B 和 E4B 模型还支持本机音频输入，用于跨多种语言的语音识别和翻译。

近零延迟的设备上部署: 针对包括智能手机、Raspberry Pi 和 IoT 硬件在内的边缘设备进行了优化，通过与 Qualcomm、MediaTek 和 Google Pixel 团队的合作，完全离线运行，内存占用量极小（E2B 在某些设备上使用 <1.5GB）。

大规模多语言支持: 在 140 多种语言上进行了预训练，开箱即用地支持 35 多种语言，使开发人员能够构建具有包容性的高性能应用程序，并为全球受众提供适当的文化背景理解。

扩展的上下文窗口: 边缘模型具有 128K 令牌上下文窗口，而更大的模型提供高达 256K 令牌，允许开发人员在单个提示中处理整个代码存储库、长文档或广泛的对话。

Apache 2.0 开源许可证: 具有商业许可，没有每月活跃用户限制或可接受的使用政策限制，提供完整的开发人员灵活性、数字主权以及对数据、基础设施和模型部署的完全控制。

Google Gemma 4 的使用场景

本地 AI 编码助手: 开发人员可以在 Android Studio 和 IDE 中使用 Gemma 4 来支持本地代码生成、完成和更正，而无需将代码发送到云端，从而保持隐私并减少开发工作流程的延迟。

离线移动应用程序: 构建智能 Android 应用程序，具有语音助手、实时翻译、文档摘要和图像分析等功能，这些功能完全在设备上运行，无需互联网连接，从而确保用户隐私和即时响应。

企业主权 AI 解决方案: 组织和政府机构可以部署本地化的 AI 服务，以满足严格的数据驻留、合规性和主权要求，同时尊重区域细微差别并保持对敏感数据的完全控制。

医疗保健和科学研究: 微调 Gemma 4 以用于专门的医疗或科学应用，例如癌症治疗发现（如耶鲁大学的 Cell2Sentence-Scale 所证明的那样），同时通过本地部署保持 HIPAA 合规性和数据安全性。

自主 AI 代理: 构建始终在线的 AI 助手，可以与个人文件、应用程序、数据库和外部 API 交互，以自动执行多步骤任务，从客户服务工作流程到复杂的业务流程自动化。

多语言内容处理: 创建能够理解和生成 140 多种语言的内容的应用程序，并具有适当的文化背景，使全球企业能够提供本地化的客户体验、翻译服务和国际支持系统。

优点

与 Llama 4 等竞争对手不同，Apache 2.0 许可证提供完全的商业自由，没有用户限制或限制性政策

卓越的效率，其模型的性能优于竞争对手 20 倍，在全球 Arena AI 排行榜上排名第 3 和第 6

真正的设备上部署能力，内存占用量极小（E2B 为 <1.5GB），可在智能手机和边缘设备上实现离线操作

全面的一站式支持主要框架和工具（Hugging Face、vLLM、llama.cpp、Ollama、NVIDIA NIM 等），确保轻松集成

缺点

开放权重模型引发了对滥用的潜在担忧，而没有严格的集中控制或监控

与托管云服务相比，需要技术专业知识才能部署、微调和优化以用于特定用例

较小的模型（E2B、E4B）牺牲了一些功能以提高效率，可能会限制在高度复杂的任务上的性能

承诺在 2026 年晚些时候与 Gemini Nano 4 向前兼容，这意味着某些生产功能仍处于预览或开发阶段

如何使用 Google Gemma 4

1. 选择您的部署环境: 确定要在哪里运行 Gemma 4：设备上（Android、Raspberry Pi、桌面）、云中（Google Cloud、Vertex AI）或本地开发机器上。选择合适的模型大小：E2B（20 亿参数）用于移动/物联网，E4B（40 亿参数）用于边缘设备，26B MoE 用于快速推理，或 31B 密集模型用于最大质量。

2. 通过您喜欢的平台访问 Gemma 4: 为了快速试验，请使用 Google AI Studio（适用于 31B 和 26B 模型）或 Google AI Edge Gallery（适用于 E4B 和 E2B 模型）。要下载模型权重，请访问 Hugging Face、Kaggle 或 Ollama。对于 Android 开发，请通过 AICore Developer Preview 或 Android Studio 访问。

3. 安装所需的依赖项和工具: 安装您喜欢的具有即时支持的框架：Hugging Face Transformers、vLLM、llama.cpp、MLX、Ollama、LM Studio 或 Unsloth。对于本地部署，请确保最小的模型 (E2B) 至少有 4GB RAM，最大的模型 (31B) 最多有 19GB。对于基于 Python 的工作流程，请使用 pip 安装必要的库。

4. 加载并初始化模型: 从您选择的平台下载模型权重。对于 Hugging Face，请使用 Transformers 库加载模型。对于本地 CLI 使用，请使用 litert-lm CLI 工具（可在 Linux、macOS 和 Raspberry Pi 上使用）。对于 Ollama，运行 \'ollama pull gemma4\'，然后运行特定的模型变体。对于 Unsloth Studio，使用 \'curl -fsSL https://unsloth.ai/install.sh | sh\' 安装，并使用 \'unsloth studio -H 0.0.0.0 -p 8888\' 启动。

5. 配置模型参数和系统提示: 设置您的推理参数，包括上下文窗口（边缘模型为 128K，较大模型最多为 256K）。通过为结构化对话指定 \'system\' 角色来利用本机系统提示支持。根据您的用例配置温度、top-p 和其他生成参数。

6. 实现基本文本生成: 从简单的文本提示开始来测试模型。对于聊天应用程序，请使用适当的角色标签（系统、用户、助手）格式化您的输入。该模型支持文本、图像和音频输入（音频仅适用于 E2B 和 E4B 模型）。处理响应并根据需要处理流式输出。

7. 设置用于代理工作流程的函数调用: 使用清晰的描述和参数规范（例如，天气查找函数）定义您的工具和函数。根据 Gemma 4 的函数调用架构格式化工具定义。发送用户提示以及可用的工具，模型将在适当时生成 JSON 格式的结构化函数调用对象。

8. 实现工具执行和响应处理: 解析模型的函数调用输出以提取函数名称和参数。使用提供的参数执行请求的函数。将函数结果返回到对话上下文中。然后，模型将生成包含工具结果的自然语言响应。

9. 启用多模式功能（可选）: 对于视觉任务，请传递图像以及文本提示来分析图表、示意图、OCR 或视觉内容。所有 Gemma 4 模型都支持可变分辨率的图像和视频输入。对于 E2B 和 E4B 模型，包括音频输入以进行自动语音识别 (ASR) 和跨多种语言的语音到翻译文本翻译。

10. 优化生产部署: 对于 Android 应用程序，请使用 ML Kit GenAI Prompt API 在具有 AICore 的设备上运行 Gemma 4。对于云部署，请在 Google Cloud 上使用 Vertex AI、Cloud Run 或 GKE。应用量化（Q4_K_M 或类似）以减少本地部署的内存占用。监控性能指标，如每秒令牌数和延迟。对于 Android，为 Gemma 4 编写的代码将与 Gemini Nano 4 设备向前兼容。

11. 针对特定用例进行微调（可选）: 使用 Google Colab、Vertex AI 或 Unsloth 等平台来为您的特定任务自定义 Gemma 4。以适当的格式准备您的训练数据集。配置训练参数并利用 Hugging Face TRL 等工具进行高效的微调。Apache 2.0 许可证允许完全自定义和商业用途。

12. 实施安全措施: 查看负责任的生成式人工智能工具包和模型卡，了解安全指南。根据您的应用程序要求实施内容过滤。对于具有物理执行器的边缘/机器人部署，请考虑使用 HDP（Helix 委托协议）等安全中间件来验证已签名的委托令牌，并在工具执行之前按不可逆性对操作进行分类。