OpenAI 推 Voice Engine,15 秒语音样本克隆任何声音
24-03-30
OpenAI 刚刚推出了一个名为 Voice Engine 的新产品,允许开发者使用 15 秒的语音样本克隆任何声音。该模型使用文本输入和单个 15 秒音频样本来生成与原始说话者非常相似的自然语音。值得注意的是,具有单个 15 秒样本的小模型可以创建情感丰富且逼真的声音。
该语音引擎的模型经过两年开发,不会微调用户数据,价格为每百万字符 15 美元。OpenAI 与一些内容提供商签订许可协议,允许艺术家选择退出数据集。Voice Engine 不提供调整语音音调、音调或节奏的控件,但保留了语音样本的表现力。
OpenAI 未来可能会扩大 Voice Engine 的使用范围,但目前仅向少数开发者提供,他们采取了一些措施防止 Voice Engine 被滥用,如水印技术和红队测试网络的访问。其官方博客给出了几个目前的使用场景,比方说:
- 通过自然、富有感情的声音为非读者和儿童提供阅读帮助;
- 翻译视频和播客等内容,以便创作者和企业可以用自己的声音流利地接触世界各地的更多人,HeyGen 是这一技术的早期采用者;
- 提供交互式反馈帮助工人发展技能,比方说 Dimagi 使用语音引擎和 GPT-4 以每个工人的主要语言(包括斯瓦希里语)或更非正式的语言(例如在肯尼亚流行的代码混合语言)来提供交互式反馈;
- 支持非语言人群,例如为患有影响言语的人士提供治疗应用,以及为有学习需求的人士提供教育增强服务。目前 Livox 这款人工智能替代通信应用产品,为增强和替代通信 (AAC) 设备提供支持,使残疾人能够进行通信。通过使用语音引擎,他们能够为人们提供跨多种语言的非语言独特且非机器人的声音。他们的用户可以选择最能代表他们的语音,对于多语言用户,可以在每种口语中保持一致的声音。
昨天 Hume AI 刚推出了世界上第一款共情 AI 语音接口 EVI(Empathic Voice Interface),我体验下来是目前对话式 AI 的天花板,它可以让开发人员能够通过几行代码将情感智能人工智能语音集成到健康和保健、AR/VR、客户服务呼叫中心、医疗保健等领域的应用程序中。看来在语音这块,OpenAI 也不会放过任何机会。