OpenAI Unveils Hyper-Realistic Voice Mode for ChatGPT Plus Users

OpenAI 已開始為 ChatGPT Plus 訂閱者推出備受期待的進階語音模式。這項新功能承諾提供超逼真的音頻回應，並能夠檢測情緒語調，標誌著 AI 語音技術的重大進步。

ChatGPT 中的 GPT‑5.5 是 OpenAI 最新的以工作為重點的模型，旨在理解複雜目標、有效使用工具、檢查其工作，並透過更強大的保護措施完成多步驟任務（編碼、研究、文件、試算表）。

進階語音模式：ChatGPT 的新紀元

OpenAI 的進階語音模式最初於 2024 年 5 月展示，現已開始向部分 ChatGPT Plus 用戶分階段推出。這項新功能旨在提供更流暢、更逼真的對話，能夠檢測並回應情緒線索。與之前依賴三個獨立模型的語音模式不同，新的多模態 GPT-4o 可以在內部處理所有任務，從而減少延遲並增強對話流暢度。

解決爭議和安全問題

由於安全問題和爭議，進階語音模式的推出延遲了一個月。初始演示中的語音與女演員斯嘉麗·約翰遜極為相似，引發了法律訴訟和公眾抗議。OpenAI 隨後移除了這個有爭議的語音，並與專業配音演員合作，推出了四種新的預設語音——Juniper、Breeze、Cove 和 Ember。

為確保安全，OpenAI 實施了嚴格的測試協議。超過 100 名外部專家，使用 45 種不同的語言對語音模型進行了測試。此外，還引入了新的過濾器，以阻止生成受版權保護的音頻或有害內容的請求。

功能和用戶體驗

進階語音模式提供了幾項創新功能：

即時對話：用戶可以進行更自然、更流暢的對話，能夠即時打斷和提示聊天機器人。
情緒語調檢測：模型可以檢測並回應各種情緒線索，使互動更具吸引力和生動感。
易於使用：用戶可以通過在 ChatGPT 應用程序中選擇麥克風圖標旁邊的語音圖標來輕鬆啟動語音模式。該功能還包括靜音或取消靜音麥克風以及無縫結束對話的選項。