HunyuanImage的主要版本有哪些？

有多個版本可用：HunyuanImage 3.0（基礎模型）、HunyuanImage 3.0-Instruct（2026年1月發布，具有推理能力）、HunyuanImage 3.0-Instruct-Distil（推薦用於一般用途）和HunyuanImage 2.1。

HunyuanImage 3.0-Instruct的主要功能是什麼？

HunyuanImage 3.0-Instruct提供推理級別的圖像編輯、多圖像融合功能（最多3張圖像）、用於增強編輯性能的思維鏈（CoT）處理，並支持文本到圖像和圖像到圖像的生成。

如何訪問和使用HunyuanImage 3.0？

您可以從HuggingFace下載模型，在本地使用它，或通過騰訊雲API訪問它。對於Instruct-Distil版本，建議使用8個擴散推理步驟。您需要從騰訊雲申請API密鑰才能進行API訪問。

是什麼讓HunyuanImage 3.0的架構如此獨特？

該模型使用MoE LLM作為基礎模型，具有集成的圖像理解和生成能力。它利用VAE和ViT的聯合特徵進行圖像輸入，結合基於擴散的圖像建模，並採用特殊的注意力掩碼和2D位置編碼來處理多模態數據。

HunyuanImage 3.0

WebsiteFreeText to Image

HunyuanImage 3.0 是騰訊開創性的開源文本到圖像 AI 模型，具有 800 億個總參數，具有強大的世界知識推理能力、精確的文本渲染以及自迴歸框架內統一的多模態理解。

訪問網站

宣傳此工具

https://hunyuan.tencent.com/image/en?tabIndex=0&ref=producthunt&utm_source=aipure

概覽
影片
替代方案

產品資訊

更新時間：2026年01月30日

什麼是 HunyuanImage 3.0

HunyuanImage 3.0 由騰訊於 2025 年 9 月發布，代表著一個重要的里程碑，是世界上最大的開源文本到圖像生成模型。它採用混合專家 (MoE) 架構，總共有 800 億個參數，其中 130 億個在推理過程中被激活。該模型根據騰訊混元社區許可證免費提供用於個人和商業用途，但對於每月活躍用戶超過 1 億的服務，使用限制適用。

HunyuanImage 3.0 的主要功能

HunyuanImage 3.0 是騰訊開創性的開源文本到圖像 AI 模型，總參數達 800 億，推理過程中激活 130 億。它採用獨特的混合專家 (MoE) 架構，結合統一的自迴歸框架，實現多模態理解和生成，支持世界知識推理、精確文本渲染和複雜圖像編輯等高級功能。

原生多模態架構: 在單個自迴歸框架中統一文本和圖像處理，超越傳統的基於 DiT 的架構，以實現更好的理解和生成

高級 MoE 架構: 使用 64 個專家，每個令牌激活 8 個專家，結合共享多層感知器，以有效處理 800 億個參數

智能世界知識推理: 根據常識和專業知識自動添加相關的上下文和背景元素

靈活的分辨率支持: 提供自動和指定的分辨率選項，並能夠根據輸入提示預測最佳圖像分辨率

HunyuanImage 3.0 的使用案例

營銷和廣告: 快速生成具有一致品牌和高品質圖形的多平台營銷視覺效果

教育內容創作: 創建詳細的教育插圖和科學圖表，具有準確的表示和註釋

多語品牌設計: 生成具有集成英語和中文排版的一致品牌材料，以適應全球市場

創意藝術和設計: 製作各種藝術風格，從逼真的圖像到油畫和水彩畫，適用於各種創意項目

優點

開源且具有商業友好的許可證

在處理複雜場景和多樣化風格方面表現出色

強大的多語言支持，尤其是在中文文本渲染方面

缺點

自託管需要多個 80GB GPU

某些高級功能需要 API 密鑰

本地部署的設置過程複雜

如何使用 HunyuanImage 3.0

下載模型: 使用命令從 HuggingFace 下載 HunyuanImage-3.0 或 HunyuanImage-3.0-Instruct-Distil：'hf download tencent/HunyuanImage-3.0-Instruct --local-dir ./HunyuanImage-3-Instruct'

獲取 API 訪問權限: 如果您想使用 API 版本而不是自行託管，請前往騰訊雲申請 API 密鑰

設定環境變數: 將模型路徑和 API 密鑰（如果使用 API 版本）匯出為環境變數：export MODEL_PATH='./HunyuanImage-3'，並在需要時匯出您的 API 密鑰

準備您的提示: 編寫清晰的文本提示，描述您要生成的圖像。首先專注於描述主要主題和動作，然後是關於環境和風格的細節

執行圖像生成: 使用 run_image_gen.py 腳本，並帶有以下參數：python3 run_image_gen.py --model-id $MODEL_PATH --verbose 1 --prompt '您的提示' --bot-task image --image-size '1024x1024' --save ./image.png --moe-impl flashinfer

附加功能（可選）: 您可以使用其他功能，例如圖像到圖像編輯、多圖像融合（最多 3 張圖像），或通過向命令添加適當的參數來增強提示

匯出結果: 生成的圖像將以高分辨率無水印地保存到您指定的輸出路徑（例如，./image.png）