OpenAI 向部分付费用户发布 ChatGPT 高级语音模式

24-07-31

免费

快讯

AIGC

OpenAI 公司于 2024 年 7 月 30 日开始向部分付费用户推出 ChatGPT 的高级语音模式（Advanced Voice Mode），这标志着用户首次能够体验到 GPT-4o 模型的超逼真音频回应。这项功能的 Alpha 版本将在当天向一小群 ChatGPT Plus 用户开放，OpenAI 计划在 2024 年秋季逐步向所有 Plus 用户推出这一功能。

在 2024 年 5 月首次展示 GPT-4o 的语音功能时，其快速反应和与真人声音极其相似的特点震惊了观众。尤其是一个名为 Sky 的语音，与电影《她》中由斯嘉丽·约翰逊配音的人工智能助手的声音相似。

在 OpenAI 演示后，约翰逊表示拒绝了 Sam Altman 多次使用她声音的请求，并在看到 GPT-4o 演示后聘请了法律顾问来保护自己的形象。OpenAI 否认使用了约翰逊的声音，并在之后移除了演示中的语音。6 月，OpenAI 表示将推迟高级语音模式的发布，以改进其安全措施。

一个月后，等待终于结束。OpenAI 表示，春季更新中展示的视频和屏幕共享功能不会包含在此次 Alpha 版本中，将在“稍后日期”推出。目前，GPT-4o 的演示仍然是一个演示，但一些高级用户现在将能够使用其中展示的 ChatGPT 语音功能。

ChatGPT 现在可以听和说。用户可能已经尝试过目前 ChatGPT 中的语音模式，但 OpenAI 表示高级语音模式有所不同。ChatGPT 以前的音频解决方案使用了三个独立的模型：一个将用户的声音转换为文本，GPT-4 处理用户的提示，然后第三个模型将 ChatGPT 的文本转换为语音。

但 GPT-4o 是多模态的，能够在没有辅助模型的帮助下处理这些任务，从而创建出显著降低延迟的对话。OpenAI 还声称 GPT-4o 能够感知用户声音中的情感语调，包括悲伤、兴奋或唱歌。

这块能力 OpenAI 应该用的是我之前介绍过的 LiveKit，之前其 CEO 曾说 OpenAI 的 GPT-4o 用的就是其提供的能力《估值超 1 亿美金，它将实时语音和视频无缝嵌入到任何应用》。

在这次试点中，ChatGPT Plus 用户将亲身体验 OpenAI 高级语音模式的超逼真效果。OpenAI 表示，它正在逐步推出 ChatGPT 的新语音功能，以密切监控其使用情况。部分用户将在 ChatGPT 应用程序中收到提醒，随后会收到一封电子邮件，其中包含如何使用该功能的说明。

OpenAI 表示，高级语音模式将仅限于 ChatGPT 的四种预设语音——Juniper、Breeze、Cove 和 Ember，这些语音是与付费配音演员合作制作的。在 OpenAI 5 月演示中展示的 Sky 语音不再在 ChatGPT 中提供。OpenAI 发言人 Lindsay McCallum 表示，“ChatGPT 不能模仿其他人的声音，包括个人和公众人物，并将阻止与这些预设语音不同的输出。”

Memo Team

Signal, not noise!

OpenAI 向部分付费用户发布 ChatGPT 高级语音模式

Memo Newsletter