Whisk 的主要功能
Whisk 是 Google Labs 的实验性 AI 图像生成工具,独特之处在于用户可以使用其他图像作为提示生成图像,而不是使用文本。它结合了 Google 的 Gemini 模型进行图像理解与 Imagen 3 进行生成,专注于快速视觉探索而非像素级编辑。该工具接受多个图像输入,包括主题、场景和风格,然后创建新的图像,捕捉输入的精髓,同时允许用户通过可编辑的文本提示来细化结果。
基于图像的提示: 用户可以上传图像而不是编写文本提示来生成新图像,使创意过程更加直观和视觉化
三部分输入系统: 允许分别输入主题、场景和风格的图像,实现更受控和多样的创意输出
可编辑的文本提示: 用户可以查看和修改由 Gemini 生成的底层文本提示,以微调输出图像
快速迭代: 设计用于快速视觉探索和实验,允许用户快速生成多个变体
Whisk 的使用场景
创意构思: 艺术家和设计师可以快速生成视觉概念,探索不同的创意方向
风格转换: 将现有图像转换为不同的艺术风格,如贴纸、珐琅胸针或毛绒玩具
视觉叙事: 为讲故事、营销材料或社交媒体内容创建独特的图像
优点
直观的基于图像的输入系统
快速简便的创意探索
通过文本提示修改实现灵活的编辑功能
缺点
目前仅在美国可用
不适用于像素级编辑
可能遗漏原始图像中的特定细节
查看更多