2024年11月25日(昨天),Nvidia 的官方 Twitter 帳號宣布推出了一個先進的生成音頻模型,稱為 Fugatto。這個模型可以根據用戶的輸入生成各種聲音、音樂和語音。這個創新工具的獨特之處在於它能夠生成全新的聲音,將各種音效無縫融合,這在以前是難以想像的。
音頻生成的新時代:Nvidia Fugatto
Fugatto(全名 Foundational Generative Audio Transformer Opus 1)旨在滿足電影、遊戲和音樂製作等各個創意領域的需求。它允許用戶輸入文本和音頻提示,生成從廣告音樂到複雜音景的一切。該模型擁有25億個參數,並使用數百萬個不同風格的音頻樣本進行訓練。
Nvidia Fugatto:獨特的聲音創建能力
Nvidia Fugatto 的一個突出特點是其能夠創建“前所未聞”的聲音。例如,它可以生成像狗叫的薩克斯風或像貓叫的小號。這種能力源自於一種稱為 ComposableART 的技術,該技術使模型能夠結合其在訓練過程中學到的不同指令。這意味著用戶可以描述複雜的聲音組合——例如低音脈衝搭配高音鳥鳴——Fugatto 會無縫生成這些聲音。
Nvidia Fugatto:提升現有音頻
除了創建新的聲音,Nvidia Fugatto 在修改現有曲目方面也表現出色。用戶可以添加或刪除歌曲中的樂器,隔離人聲,甚至改變聲音的情感和口音。這種靈活性使聲音工程師和音樂家能夠在不需要廣泛編輯技能或資源的情況下實驗他們的作品。
Nvidia Fugatto:創意者的實用應用
Fugatto 有望成為各個行業的遊戲規則改寫者:
- 音樂製作:音樂家可以快速原型化不同風格和排列的音樂想法。
- 電影和廣告:該工具的動態適應音樂的能力使其成為電影配樂或創建定制廣告配樂的理想選擇。
- 遊戲:遊戲開發者可以使用 Nvidia Fugatto 生成隨著遊戲玩法演變的沉浸式音景。
Nvidia 應用音頻研究經理 Rafael Valle 強調了模型的目標:“我們希望創建一個像人類一樣理解和生成聲音的模型。”這種類似人類的理解能力使軟件的交互更加直觀。
AI 音頻生成器的挑戰和考慮
雖然 Nvidia Fugatto 帶來了令人興奮的機遇,但也引發了對聲音設計工作未來的疑問。隨著像這樣的 AI 工具變得越來越普遍,傳統的聲音設計師角色可能會面臨挑戰。然而,Nvidia 建議 Fugatto 可以作為助手而不是替代品,讓專業人士增強他們的創意而不是削弱。
此外,關於 AI 生成內容的著作權問題的關注也在增加。隨著許多公司在訓練數據集中使用版權材料而面臨法律挑戰,行業必須謹慎應對這些複雜問題。
Nvidia Fugatto 代表了 AI 音頻生成技術的重大進步。通過將創意可能性與技術能力相結合,Nvidia 的新工具邀請藝術家和製作人共同探索前所未有的聽覺領域。
如需了解更多關於最新 AI 發展和類似 Fugatto 的工具,請訪問 AIPURE,獲取全面的人工智能創新信息。