登录
首页
快讯
邮件订阅
会员专属
Memo AI
联系我们

OpenAI 向部分付费用户发布 ChatGPT 高级语音模式

24-07-31
免费
快讯
AIGC

OpenAI 公司于 2024 年 7 月 30 日开始向部分付费用户推出 ChatGPT 的高级语音模式(Advanced Voice Mode),这标志着用户首次能够体验到 GPT-4o 模型的超逼真音频回应。这项功能的 Alpha 版本将在当天向一小群 ChatGPT Plus 用户开放,OpenAI 计划在 2024 年秋季逐步向所有 Plus 用户推出这一功能。

在 2024 年 5 月首次展示 GPT-4o 的语音功能时,其快速反应和与真人声音极其相似的特点震惊了观众。尤其是一个名为 Sky 的语音,与电影《她》中由斯嘉丽·约翰逊配音的人工智能助手的声音相似。

在 OpenAI 演示后,约翰逊表示拒绝了 Sam Altman 多次使用她声音的请求,并在看到 GPT-4o 演示后聘请了法律顾问来保护自己的形象。OpenAI 否认使用了约翰逊的声音,并在之后移除了演示中的语音。6 月,OpenAI 表示将推迟高级语音模式的发布,以改进其安全措施。

一个月后,等待终于结束。OpenAI 表示,春季更新中展示的视频和屏幕共享功能不会包含在此次 Alpha 版本中,将在“稍后日期”推出。目前,GPT-4o 的演示仍然是一个演示,但一些高级用户现在将能够使用其中展示的 ChatGPT 语音功能。

ChatGPT 现在可以听和说。用户可能已经尝试过目前 ChatGPT 中的语音模式,但 OpenAI 表示高级语音模式有所不同。ChatGPT 以前的音频解决方案使用了三个独立的模型:一个将用户的声音转换为文本,GPT-4 处理用户的提示,然后第三个模型将 ChatGPT 的文本转换为语音。

但 GPT-4o 是多模态的,能够在没有辅助模型的帮助下处理这些任务,从而创建出显著降低延迟的对话。OpenAI 还声称 GPT-4o 能够感知用户声音中的情感语调,包括悲伤、兴奋或唱歌。

这块能力 OpenAI 应该用的是我之前介绍过的 LiveKit,之前其 CEO 曾说 OpenAI 的 GPT-4o 用的就是其提供的能力《估值超 1 亿美金,它将实时语音和视频无缝嵌入到任何应用》。

在这次试点中,ChatGPT Plus 用户将亲身体验 OpenAI 高级语音模式的超逼真效果。OpenAI 表示,它正在逐步推出 ChatGPT 的新语音功能,以密切监控其使用情况。部分用户将在 ChatGPT 应用程序中收到提醒,随后会收到一封电子邮件,其中包含如何使用该功能的说明。

OpenAI 表示,高级语音模式将仅限于 ChatGPT 的四种预设语音——Juniper、Breeze、Cove 和 Ember,这些语音是与付费配音演员合作制作的。在 OpenAI 5 月演示中展示的 Sky 语音不再在 ChatGPT 中提供。OpenAI 发言人 Lindsay McCallum 表示,“ChatGPT 不能模仿其他人的声音,包括个人和公众人物,并将阻止与这些预设语音不同的输出。”

Memo Newsletter

订阅 Memo 邮件列表,过滤噪音,捕捉最具价值的创投行业信号

最顶尖的 AI 行业创业者和投资人都在看

Subscribe
头像
Memo Team
Signal, not noise!
最新快讯