OpenAI 已開始為 ChatGPT Plus 訂閱者推出備受期待的進階語音模式。這項新功能承諾提供超逼真的音頻回應,並能夠檢測情緒語調,標誌著 AI 語音技術的重大進步。
進階語音模式:ChatGPT 的新紀元
OpenAI 的進階語音模式最初於 2024 年 5 月展示,現已開始向部分 ChatGPT Plus 用戶分階段推出。這項新功能旨在提供更流暢、更逼真的對話,能夠檢測並回應情緒線索。與之前依賴三個獨立模型的語音模式不同,新的多模態 GPT-4o 可以在內部處理所有任務,從而減少延遲並增強對話流暢度。
解決爭議和安全問題
由於安全問題和爭議,進階語音模式的推出延遲了一個月。初始演示中的語音與女演員斯嘉麗·約翰遜極為相似,引發了法律訴訟和公眾抗議。OpenAI 隨後移除了這個有爭議的語音,並與專業配音演員合作,推出了四種新的預設語音——Juniper、Breeze、Cove 和 Ember。
為確保安全,OpenAI 實施了嚴格的測試協議。超過 100 名外部專家,使用 45 種不同的語言對語音模型進行了測試。此外,還引入了新的過濾器,以阻止生成受版權保護的音頻或有害內容的請求。
功能和用戶體驗
進階語音模式提供了幾項創新功能:
- 即時對話:用戶可以進行更自然、更流暢的對話,能夠即時打斷和提示聊天機器人。
- 情緒語調檢測:模型可以檢測並回應各種情緒線索,使互動更具吸引力和生動感。
- 易於使用:用戶可以通過在 ChatGPT 應用程序中選擇麥克風圖標旁邊的語音圖標來輕鬆啟動語音模式。該功能還包括靜音或取消靜音麥克風以及無縫結束對話的選項。
未來前景和更廣泛的影響
OpenAI 計劃在 2024 年秋季之前逐步擴大進階語音模式的訪問權限,使所有 ChatGPT Plus 用戶都能使用。該公司還在探索其他功能,如視頻和屏幕共享功能,預計將在稍後推出。
這種先進語音技術的引入為各種應用開闢了無數可能性,從客戶服務到個人助理。然而,它也引發了重要的倫理和安全考慮,特別是關於合成語音潛在濫用的問題。
總之,OpenAI 的進階語音模式代表了 AI 語音技術的重要里程碑,提供更逼真和具有情感意識的互動。隨著 OpenAI 繼續完善和擴展這項功能,平衡創新與倫理考慮以確保安全和有益使用將至關重要。
欲了解有關最新 AI 發展和工具的更多信息,請訪問 AIPURE。