手握 3.3 亿美金预算的 Kyutai 发布 Moshi:对话式 AI 的又一颠覆性变革者
24-07-10
Moshi 拥有实时、多模态功能,可实现真正的动态和交互式对话
对话式语音 AI 这块,之前已经有 OpenAI 的 GPT-4o 和 Google 发布的 Project Astra,以及 Hume AI。现在,法国的 Kyutai 最近推出了一个有望颠覆对话式 AI 场景的项目:Moshi。
根据其官方网站的简单介绍,Moshi 是一个实验性的对话人工智能,拥有实时、多模态功能,可实现真正的动态和交互式对话。不过目前对话限制在 5 分钟内,它能够同时思考和说话,随时倾听和交谈,让你和 Moshi 之间的交流最大化,就像和一个真人在交流一样。
它旨在理解和表达情感,提供诸如使用不同口音(包括法语)说话等功能。其突出功能之一是它能够同时处理两个音频流,使其能够同时收听和通话。这种实时交互以文本和音频混合的联合预训练为基础,利用来自 Helium 的合成文本数据,Helium 是 Kyutai 开发的 70 亿参数语言模型。
训练 Moshi 涉及严格的流程,对 10万份高度详细的 Transcript 进行了微调,并带有情感和风格注释。文本转语音引擎支持 70 种不同的情感和风格,由一位名叫 Alice 的持牌配音人才录制的 20 小时音频进行了微调。该模型专为适应性而设计,可以在不到 30 分钟的音频中进行微调。
Moshi 由法国的人工智能研究实验室 Kyutai 打造,并且得到了由法国亿万富翁、Iliad 首席执行官 Xavier Niel 等提供的 3.3 亿美金预算支持。该实验室将专注于开发通用人工智能(AGI),并计划将其所有研究成果开源。
简单来说,Moshi 可以使用其语音进行流畅和富有表现力的对话,而不仅仅是文本;它足够紧凑,可以在
这是一篇只对付费会员开放的文章,请先订阅成为会员