2024年11月25日(昨天),Nvidia的官方Twitter账号宣布推出了一款先进的生成音频模型,名为Fugatto。该模型可以根据用户输入生成各种声音、音乐和语音。这款创新工具的独特之处在于它能够生成全新的声音,无缝融合各种音频效果,这是以前无法想象的。
音频生成新时代:Nvidia Fugatto
Fugatto(全称Foundational Generative Audio Transformer Opus 1)旨在满足电影、游戏和音乐制作中各种创意需求。用户可以输入文本和音频提示,生成从广告曲到复杂音景的各种内容。该模型拥有25亿个参数,并使用数百万个跨多种流派的音频样本进行训练。
Nvidia Fugatto:独特的声音创作能力
Nvidia Fugatto的一个突出特点是能够创建“前所未闻”的声音。例如,它可以生成像狗一样嚎叫的萨克斯风或像猫一样喵喵叫的小号。这种能力源自一种称为ComposableART的技术,该技术使模型能够结合其在训练过程中学到的不同指令。这意味着用户可以描述复杂的音效组合——比如低沉的贝斯脉冲加上高音的啾啾声——Fugatto会无缝生成这些声音。
Nvidia Fugatto:增强现有音频
除了创建新声音,Nvidia Fugatto在修改现有曲目方面也表现出色。用户可以添加或删除歌曲中的乐器,隔离人声,甚至改变声音的情感和口音。这种灵活性使声音工程师和音乐家可以在没有广泛编辑技能或资源的情况下试验他们的作品。
Nvidia Fugatto:创意人员的实用应用
Fugatto有望成为各个行业的游戏规则改变者:
- 音乐制作:音乐家可以快速原型化不同风格和编排的想法。
- 电影和广告:该工具动态适应音乐的能力使其成为电影配乐或创建定制广告原声的理想选择。
- 游戏:游戏开发者可以使用Nvidia Fugatto生成随游戏进程演变的沉浸式音景。
Nvidia应用音频研究经理Rafael Valle强调了该模型的目标:“我们希望创建一个像人类一样理解和生成声音的模型。”这种类似人类的理解能力使软件的交互更加直观。
AI音频生成器的挑战和考虑
虽然Nvidia Fugatto带来了令人兴奋的机会,但也引发了对声音设计工作未来的质疑。随着像这样的AI工具越来越普遍,传统的角色如拟音师可能会面临挑战。然而,Nvidia建议Fugatto可以作为助手而不是替代品,使专业人士能够增强而不是削弱他们的创造力。
此外,关于AI生成内容的版权问题的担忧也在增加。随着许多公司在训练数据集中使用受版权保护的材料而面临法律挑战,行业必须谨慎应对这些复杂性。
Nvidia Fugatto代表了AI音频生成技术的重大飞跃。通过将创意可能性与技术实力相结合,Nvidia的新工具邀请艺术家和制作人共同探索未知的听觉领域。
欲了解有关最新AI发展和类似Fugatto的工具的更多信息,请访问AIPURE,获取关于人工智能创新的全面信息。