HunyuanImage的主要版本有哪些？

有几个版本可用：HunyuanImage 3.0（基础模型），HunyuanImage 3.0-Instruct（2026年1月发布，具有推理能力），HunyuanImage 3.0-Instruct-Distil（推荐用于一般用途）和HunyuanImage 2.1。

HunyuanImage 3.0-Instruct的主要功能是什么？

HunyuanImage 3.0-Instruct提供推理级别的图像编辑、多图像融合功能（最多3张图像）、用于增强编辑性能的思维链（CoT）处理，并支持文本到图像和图像到图像的生成。

如何访问和使用HunyuanImage 3.0？

您可以从HuggingFace下载模型，在本地使用它，或通过腾讯云API访问它。对于Instruct-Distil版本，建议使用8个扩散推理步骤。您需要从腾讯云申请API密钥才能进行API访问。

是什么让HunyuanImage 3.0的架构如此独特？

该模型使用MoE LLM作为基础模型，集成了图像理解和生成功能。它利用VAE和ViT的联合特征进行图像输入，结合了基于扩散的图像建模，并采用特殊的注意力掩码和2D位置编码来处理多模态数据。

HunyuanImage 3.0

WebsiteFreeText to Image

HunyuanImage 3.0 是腾讯突破性的开源文本到图像 AI 模型，具有 800 亿个总参数，具有强大的世界知识推理能力、精确的文本渲染以及自回归框架内的统一多模态理解。

访问网站

推广此工具

https://hunyuan.tencent.com/image/en?tabIndex=0&ref=producthunt&utm_source=aipure

概述
视频
替代方案

产品信息

更新于：2026年01月30日

什么是 HunyuanImage 3.0

HunyuanImage 3.0 由腾讯于 2025 年 9 月发布，是世界上最大的开源文本到图像生成模型，代表着一个重要的里程碑。它采用混合专家 (MoE) 架构，总参数为 800 亿个，其中 130 亿个在推理期间激活。该模型根据腾讯混元社区许可免费提供用于个人和商业用途，但对于每月活跃用户超过 1 亿的服务，使用限制适用。

HunyuanImage 3.0 的主要功能

HunyuanImage 3.0是腾讯的突破性开源文本到图像AI模型，总参数达800亿，推理期间激活130亿。它采用独特的混合专家（MoE）架构，结合统一的自回归框架，实现多模态理解和生成，支持世界知识推理、精确文本渲染和复杂图像编辑等高级功能。

原生多模态架构: 在单个自回归框架中统一文本和图像处理，超越传统的基于DiT的架构，以实现更好的理解和生成

高级MoE架构: 使用64个专家，每个token激活8个专家，结合共享多层感知器，以有效处理800亿个参数

智能世界知识推理: 根据常识和专业知识自动添加相关的上下文和背景元素

灵活的分辨率支持: 提供自动和指定的分辨率选项，并能够根据输入提示预测最佳图像分辨率

HunyuanImage 3.0 的使用场景

营销和广告: 快速生成具有一致品牌和高质量图形的营销活动视觉效果，适用于多个平台

教育内容创作: 创建详细的教育插图和科学图表，具有准确的表示和注释

多语种品牌设计: 生成具有集成英语和中文字体的有凝聚力的品牌材料，适用于全球市场

创意艺术和设计: 为各种创意项目制作从照片级真实图像到油画和水彩画的各种艺术风格

优点

具有商业友好许可的开源

在处理复杂场景和多样化风格方面表现出色

强大的多语言支持，尤其是在中文文本渲染方面

缺点

自托管需要多个80GB GPU

某些高级功能需要API密钥

本地部署的设置过程复杂

如何使用 HunyuanImage 3.0

下载模型: 使用命令从 HuggingFace 下载 HunyuanImage-3.0 或 HunyuanImage-3.0-Instruct-Distil：'hf download tencent/HunyuanImage-3.0-Instruct --local-dir ./HunyuanImage-3-Instruct'

获取 API 访问权限: 如果您想使用 API 版本而不是自托管，请转到腾讯云申请 API 密钥

设置环境变量: 将模型路径和 API 密钥（如果使用 API 版本）导出为环境变量：export MODEL_PATH='./HunyuanImage-3' 并在需要时导出您的 API 密钥

准备您的提示: 编写清晰的文本提示，描述您要生成的图像。首先关注描述主要对象和动作，然后是关于环境和风格的细节

运行图像生成: 使用 run_image_gen.py 脚本，并使用以下参数：python3 run_image_gen.py --model-id $MODEL_PATH --verbose 1 --prompt 'your prompt' --bot-task image --image-size '1024x1024' --save ./image.png --moe-impl flashinfer

附加功能（可选）: 您可以使用附加功能，如图像到图像编辑、多图像融合（最多 3 张图像）或通过向命令添加适当的参数来增强提示

导出结果: 生成的图像将以高分辨率无水印地保存到您指定的输出路径（例如，./image.png）