OpenAI 向部分付费用户发布 ChatGPT 高级语音模式
OpenAI 公司于 2024 年 7 月 30 日开始向部分付费用户推出 ChatGPT 的高级语音模式(Advanced Voice Mode),这标志着用户首次能够体验到 GPT-4o 模型的超逼真音频回应。这项功能的 Alpha 版本将在当天向一小群 ChatGPT Plus 用户开放,OpenAI 计划在 2024 年秋季逐步向所有 Plus 用户推出这一功能。
在 2024 年 5 月首次展示 GPT-4o 的语音功能时,其快速反应和与真人声音极其相似的特点震惊了观众。尤其是一个名为 Sky 的语音,与电影《她》中由斯嘉丽·约翰逊配音的人工智能助手的声音相似。
在 OpenAI 演示后,约翰逊表示拒绝了 Sam Altman 多次使用她声音的请求,并在看到 GPT-4o 演示后聘请了法律顾问来保护自己的形象。OpenAI 否认使用了约翰逊的声音,并在之后移除了演示中的语音。6 月,OpenAI 表示将推迟高级语音模式的发布,以改进其安全措施。
一个月后,等待终于结束。OpenAI 表示,春季更新中展示的视频和屏幕共享功能不会包含在此次 Alpha 版本中,将在“稍后日期”推出。目前,GPT-4o 的演示仍然是一个演示,但一些高级用户现在将能够使用其中展示的 ChatGPT 语音功能。
ChatGPT 现在可以听和说。用户可能已经尝试过目前 ChatGPT 中的语音模式,但 OpenAI 表示高级语音模式有所不同。ChatGPT 以前的音频解决方案使用了三个独立的模型:一个将用户的声音转换为文本,GPT-4 处理用户的提示,然后第三个模型将 ChatGPT 的文本转换为语音。
但 GPT-4o 是多模态的,能够在没有辅助模型的帮助下处理这些任务,从而创建出显著降低延迟的对话。OpenAI 还声称 GPT-4o 能够感知用户声音中的情感语调,包括悲伤、兴奋或唱歌。
这块能力 OpenAI 应该用的是我之前介绍过的 LiveKit,之前其 CEO 曾说 OpenAI 的 GPT-4o 用的就是其提供的能力《估值超 1 亿美金,它将实时语音和视频无缝嵌入到任何应用》。
在这次试点中,ChatGPT Plus 用户将亲身体验 OpenAI 高级语音模式的超逼真效果。OpenAI 表示,它正在逐步推出 ChatGPT 的新语音功能,以密切监控其使用情况。部分用户将在 ChatGPT 应用程序中收到提醒,随后会收到一封电子邮件,其中包含如何使用该功能的说明。
OpenAI 表示,高级语音模式将仅限于 ChatGPT 的四种预设语音——Juniper、Breeze、Cove 和 Ember,这些语音是与付费配音演员合作制作的。在 OpenAI 5 月演示中展示的 Sky 语音不再在 ChatGPT 中提供。OpenAI 发言人 Lindsay McCallum 表示,“ChatGPT 不能模仿其他人的声音,包括个人和公众人物,并将阻止与这些预设语音不同的输出。”