Gemma 4 系列中包含哪些模型？

Gemma 4 包括四種模型尺寸：E2B（有效 2B）和 E4B（有效 4B），針對邊緣設備進行了優化；一個 26B 專家混合（MoE）模型，在推理過程中激活 3.8B 參數；以及一個 31B 密集模型，用於實現最高質量和微調。

Gemma 4 可以在移動設備和邊緣硬件上運行嗎？

是的。E2B 和 E4B 模型經過專門設計，可以在包括 Android 手機、Raspberry Pi 和 NVIDIA Jetson Orin Nano 在內的邊緣設備上完全離線運行。E2B 模型可以在某些設備上使用少於 1.5GB 的內存運行。

Gemma 4 的主要功能是什麼？

Gemma 4 具有高級推理能力，包括多步驟規劃、對代理工作流程的本機支持（包括函數調用和結構化 JSON 輸出）、高質量代碼生成、本機視覺和音頻處理、高達 256K 個令牌的上下文窗口以及對 140 多種語言的支持。

與其他開放模型相比，Gemma 4 的性能如何？

31B 模型在 Arena AI 文本排行榜上排名開放模型第 3 位，而 26B 模型排名第 6 位。Gemma 4 的性能優於比其大 20 倍的模型，為其參數數量提供了最先進的性能。

哪些平台和工具支持 Gemma 4？

Gemma 4 從第一天起就支持 Hugging Face (Transformers, TRL)、LiteRT-LM、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM 和 NeMo、LM Studio、Unsloth、SGLang、Baseten、Docker、MaxText 和 Keras。它可通過 Google AI Studio、Vertex AI、Kaggle 和 Hugging Face 獲得。

我可以針對我的特定用例微調 Gemma 4 嗎？

是的。可以使用 Google Colab、Vertex AI 或消費級 GPU 等平台對 Gemma 4 進行微調。通過帶有 TRL 的 Hugging Face Transformers、用於內存高效訓練的 Unsloth 和用於企業管道的 NVIDIA NeMo 提供微調支持。

使用 Gemma 4 是否需要互聯網連接？

否。下載後，Gemma 4 完全離線運行，無需 API 密鑰、雲調用或使用成本。這使其成為對隱私敏感的應用程序和連接受限的環境的理想選擇。

Google Gemma 4

Q: Gemma 4 可以免費用於商業用途嗎？

是的。Gemma 4 是在 Apache 2.0 許可證下發布的，該許可證允許商業用途、重新分發和修改，無需支付版稅、每月活躍用戶限制或可接受的使用政策執行限制。

WebsiteFreeLarge Language Models (LLMs)Multi-purpose Tools

Google Gemma 4 是一個最先進的開放權重 AI 模型系列，在 Apache 2.0 許可證下發布，具有高級推理、多模式功能和代理工作流程，可以在從智慧型手機到工作站的設備上高效運行。

訪問網站

宣傳此工具

https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4?ref=producthunt&utm_source=aipure

概覽
分析
影片
替代方案

產品資訊

更新時間：2026年04月10日

Google Gemma 4 每月流量趨勢

Google Gemma 4 在上個月收到了 8.5m 次訪問，呈現出 -12.1% 的輕微下降。根據我們的分析，這個趨勢與人工智能工具領域的典型市場動態相符。

查看歷史流量

什麼是 Google Gemma 4

Google Gemma 4 於 2026 年 4 月 2 日推出，代表 Google DeepMind 最新一代的開放 AI 模型，建立在與 Gemini 3 相同的研究和技術基礎上。Gemma 4 在商業上寬容的 Apache 2.0 許可證下發布，旨在使前沿級別的 AI 功能廣泛地提供給開發者、研究人員和企業。該模型系列有四種不同的尺寸：E2B（有效 20 億個參數）、E4B（有效 40 億個參數）、26B 專家混合模型 (MoE) 和 31B 密集模型，每種模型都針對不同的硬體配置進行了優化，範圍從移動設備和 IoT 硬體到專業工作站和雲端基礎設施。在之前 Gemma 世代成功（已下載超過 4 億次並產生了超過 100,000 個社群創建變體的 \'Gemmaverse\'）的基礎上，Gemma 4 提供了前所未有的每個參數的智慧，其中 31B 模型在 Arena AI 文本排行榜上排名第 3，26B 模型排名第 6，優於比它們大 20 倍的模型。

Google Gemma 4 的主要功能

Google Gemma 4 是一系列最先進的開放 AI 模型，根據 Apache 2.0 許可證發布，建立在與 Gemini 3 相同的研究基礎上。它有四種尺寸（E2B、E4B、26B MoE 和 31B Dense），針對從行動裝置到工作站的不同硬體進行了最佳化。這些模型具有先進的推理能力、用於代理工作流程的原生函數呼叫、多模態能力（較小模型上的文字、圖像、影片和音訊）、支援 140 多種語言、擴展的上下文視窗（最多 256K 個 token）以及出色的程式碼產生能力。Gemma 4 專為裝置端部署而設計，以最小的硬體需求提供前沿級別的 AI 功能，同時保持完整的資料主權和隱私。

先進的推理和代理工作流程: 對多步驟規劃、函數呼叫、結構化 JSON 輸出和系統指令的原生支援使開發人員能夠構建自主 AI 代理，這些代理可以與工具、API 互動並可靠地執行複雜的工作流程。

多模態理解: 所有模型都以原生方式處理具有可變解析度的文字、圖像和影片，擅長 OCR 和圖表理解等視覺任務。E2B 和 E4B 模型還支援原生音訊輸入，用於跨多種語言的語音識別和翻譯。

近乎零延遲的裝置端部署: 透過與 Qualcomm、聯發科和 Google Pixel 團隊的合作，針對包括智慧型手機、Raspberry Pi 和 IoT 硬體在內的邊緣裝置進行了最佳化，完全離線運行，且記憶體佔用量最小（E2B 在某些裝置上使用 <1.5GB）。

大規模多語言支援: 預先訓練了 140 多種語言，並提供對 35 多種語言的開箱即用支援，使開發人員能夠為全球受眾構建具有包容性的高效能應用程式，並具有適當的文化背景理解。

擴展的上下文視窗: 邊緣模型具有 128K token 的上下文視窗，而較大的模型提供高達 256K token，使開發人員能夠在單個提示中處理整個程式碼儲存庫、長文件或廣泛的對話。

Apache 2.0 開源許可證: 具有商業許可的許可證，沒有每月活躍使用者限制或可接受的使用政策限制，提供完整的開發人員靈活性、數位主權以及對資料、基礎架構和模型部署的完全控制。

Google Gemma 4 的使用案例

本地 AI 程式碼助理: 開發人員可以在 Android Studio 和 IDE 中使用 Gemma 4 來支援本地程式碼產生、完成和更正，而無需將程式碼傳送到雲端，從而保持隱私並減少開發工作流程的延遲。

離線行動應用程式: 構建智慧型 Android 應用程式，具有語音助理、即時翻譯、文件摘要和圖像分析等功能，這些功能完全在裝置上運行，無需網路連線，確保使用者隱私和即時回應。

企業主權 AI 解決方案: 組織和政府機構可以部署本地化的 AI 服務，以滿足嚴格的資料駐留、合規性和主權要求，同時尊重區域差異並保持對敏感資料的完全控制。

醫療保健和科學研究: 微調 Gemma 4 以用於專門的醫療或科學應用，例如癌症治療發現（如耶魯大學的 Cell2Sentence-Scale 所展示的那樣），同時透過本地部署保持 HIPAA 合規性和資料安全性。

自主 AI 代理: 構建始終在線的 AI 助理，可以與個人檔案、應用程式、資料庫和外部 API 互動，以自動執行多步驟任務，從客戶服務工作流程到複雜的業務流程自動化。

多語言內容處理: 創建能夠理解和生成跨 140 多種語言的內容的應用程式，並具有適當的文化背景，使全球企業能夠提供本地化的客戶體驗、翻譯服務和國際支援系統。

優點

與 Llama 4 等競爭對手不同，Apache 2.0 許可證提供完整的商業自由，沒有使用者限制或限制性政策

卓越的效率，其模型效能優於競爭對手 20 倍，在全球 Arena AI 排行榜上排名第 3 和第 6

真正的裝置端部署能力，記憶體佔用量最小（E2B 為 <1.5GB），可在智慧型手機和邊緣裝置上實現離線操作

全面的一站式支援主要框架和工具（Hugging Face、vLLM、llama.cpp、Ollama、NVIDIA NIM 等），確保輕鬆整合

缺點

開放權重模型引發了潛在的濫用問題，而沒有嚴格的集中控制或監控

與託管雲端服務相比，需要技術專業知識才能部署、微調和最佳化以用於特定用例

較小的模型（E2B、E4B）犧牲了一些功能以提高效率，可能會限制在高度複雜任務上的效能

承諾在 2026 年晚些時候實現與 Gemini Nano 4 的向前相容性，這意味著某些生產功能仍處於預覽或開發階段

如何使用 Google Gemma 4

1. 選擇您的部署環境: 決定您要在哪裡運行 Gemma 4：設備上（Android、Raspberry Pi、桌面）、雲端（Google Cloud、Vertex AI）或本地開發機器上。選擇適當的模型大小：E2B（2B 參數）用於移動/IoT，E4B（4B 參數）用於邊緣設備，26B MoE 用於快速推理，或 31B 密集模型用於最大品質。

2. 通過您首選的平台訪問 Gemma 4: 為了快速實驗，請使用 Google AI Studio（適用於 31B 和 26B 模型）或 Google AI Edge Gallery（適用於 E4B 和 E2B 模型）。要下載模型權重，請訪問 Hugging Face、Kaggle 或 Ollama。對於 Android 開發，請通過 AICore 開發者預覽版或 Android Studio 訪問。

3. 安裝所需的依賴項和工具: 安裝您首選的具有第一天支援的框架：Hugging Face Transformers、vLLM、llama.cpp、MLX、Ollama、LM Studio 或 Unsloth。對於本地部署，請確保您至少有 4GB RAM 用於最小的模型 (E2B) 或最多 19GB 用於最大的模型 (31B)。對於基於 Python 的工作流程，請使用 pip 安裝必要的庫。

4. 加載並初始化模型: 從您選擇的平台下載模型權重。對於 Hugging Face，請使用 Transformers 庫加載模型。對於本地 CLI 使用，請使用 litert-lm CLI 工具（可在 Linux、macOS 和 Raspberry Pi 上使用）。對於 Ollama，運行 \'ollama pull gemma4\'，然後運行特定的模型變體。對於 Unsloth Studio，使用 \'curl -fsSL https://unsloth.ai/install.sh | sh\' 安裝，並使用 \'unsloth studio -H 0.0.0.0 -p 8888\' 啟動。

5. 配置模型參數和系統提示: 設置您的推理參數，包括上下文窗口（邊緣模型為 128K，較大模型最多為 256K）。通過指定 \'system\' 角色來利用本機系統提示支援進行結構化對話。根據您的用例配置溫度、top-p 和其他生成參數。

6. 實現基本的文本生成: 從簡單的文本提示開始以測試模型。對於聊天應用程式，請使用適當的角色標籤（系統、用戶、助理）格式化您的輸入。該模型支援文本、圖像和音訊輸入（音訊僅適用於 E2B 和 E4B 模型）。處理響應並在需要時處理流式輸出。

7. 設置用於代理工作流程的函數調用: 使用清晰的描述和參數規範定義您的工具和函數（例如，天氣查找函數）。根據 Gemma 4 的函數調用架構格式化工具定義。發送用戶提示以及可用的工具，模型將在適當時生成 JSON 格式的結構化函數調用物件。

8. 實現工具執行和響應處理: 解析模型的函數調用輸出以提取函數名稱和參數。使用提供的參數執行請求的函數。將函數結果返回到對話上下文中。然後，模型將生成包含工具結果的自然語言響應。

9. 啟用多模式功能（可選）: 對於視覺任務，將圖像與文本提示一起傳遞以分析圖表、圖表、OCR 或視覺內容。所有 Gemma 4 模型都支援可變解析度的圖像和視頻輸入。對於 E2B 和 E4B 模型，包括音訊輸入以進行自動語音識別 (ASR) 和跨多種語言的語音到翻譯文本翻譯。

10. 針對生產部署進行優化: 對於 Android 應用程式，請使用 ML Kit GenAI Prompt API 在具有 AICore 的設備上運行 Gemma 4。對於雲端部署，請在 Google Cloud 上使用 Vertex AI、Cloud Run 或 GKE。應用量化（Q4_K_M 或類似）以減少本地部署的記憶體佔用空間。監控每秒令牌數和延遲等性能指標。對於 Android，為 Gemma 4 編寫的程式碼將與 Gemini Nano 4 設備向前相容。

11. 針對特定用例進行微調（可選）: 使用 Google Colab、Vertex AI 或 Unsloth 等平台自定義 Gemma 4 以滿足您的特定任務。以適當的格式準備您的訓練數據集。配置訓練參數並利用 Hugging Face TRL 等工具進行高效的微調。Apache 2.0 許可證允許完全自定義和商業使用。

12. 實施安全措施: 查看負責的生成式 AI 工具包和模型卡以獲取安全指南。根據您的應用程式要求實施內容過濾。對於具有物理執行器的邊緣/機器人部署，請考慮使用 HDP（Helix Delegation Protocol）等安全中間件來驗證簽名的委託令牌，並在工具執行之前按不可逆性對操作進行分類。