OpenAI 已开始为 ChatGPT Plus 订阅用户推出备受期待的高级语音模式。这项新功能承诺提供超逼真的音频回应和检测情感语调的能力,标志着 AI 语音技术的重大进步。
高级语音模式:ChatGPT 的新纪元
OpenAI 的高级语音模式最初于 2024 年 5 月展示,现已开始向部分 ChatGPT Plus 用户分阶段推出。这项新功能旨在提供更流畅、更真实的对话,能够检测和回应情感暗示。与之前依赖三个独立模型的语音模式不同,新的多模态 GPT-4o 可以内部处理所有任务,减少延迟并增强对话流畅度。
解决争议和安全问题
由于安全问题和争议,高级语音模式的推出延迟了一个月。初始演示中的声音与女演员斯嘉丽·约翰逊惊人相似,引发了法律诉讼和公众抗议。OpenAI 随后移除了有争议的声音,并引入了四种新的预设声音——Juniper、Breeze、Cove 和 Ember,这些声音是与专业配音演员合作创建的。
为确保安全,OpenAI 实施了严格的测试协议。超过 100 名外部专家,使用 45 种不同语言对语音模型进行了测试。此外,还引入了新的过滤器来阻止生成受版权保护的音频或有害内容的请求。
功能和用户体验
高级语音模式提供了几项创新功能:
- 实时对话:用户可以进行更自然、更流畅的对话,能够实时打断和提示聊天机器人。
- 情感语调检测:模型可以检测和回应各种情感暗示,使互动更具吸引力和真实感。
- 易于使用:用户可以通过选择 ChatGPT 应用程序中麦克风图标旁边的语音图标轻松激活语音模式。该功能还包括静音或取消静音麦克风以及无缝结束对话的选项。
未来前景和更广泛的影响
OpenAI 计划到 2024 年秋季逐步向所有 ChatGPT Plus 用户开放高级语音模式。该公司还在探索其他功能,如视频和屏幕共享功能,预计将在稍后推出。
这种先进语音技术的引入为各种应用开辟了众多可能性,从客户服务到个人助理。然而,它也引发了重要的伦理和安全考虑,特别是关于合成语音潜在滥用的问题。
总之,OpenAI 的高级语音模式代表了 AI 语音技术的重要里程碑,提供了更真实和情感感知的互动。随着 OpenAI 继续完善和扩展这一功能,平衡创新与伦理考虑以确保安全和有益使用将至关重要。
欲了解有关最新 AI 发展和工具的更多信息,请访问 AIPURE。