手握 3.3 亿美金预算的 Kyutai 发布 Moshi：对话式 AI 的又一颠覆性变革者

24-07-10

Moshi 拥有实时、多模态功能，可实现真正的动态和交互式对话

会员

AIGC

这个 AI 拿钱了

对话式语音 AI 这块，之前已经有 OpenAI 的 GPT-4o 和 Google 发布的 Project Astra，以及 Hume AI。现在，法国的 Kyutai 最近推出了一个有望颠覆对话式 AI 场景的项目：Moshi。

根据其官方网站的简单介绍，Moshi 是一个实验性的对话人工智能，拥有实时、多模态功能，可实现真正的动态和交互式对话。不过目前对话限制在 5 分钟内，它能够同时思考和说话，随时倾听和交谈，让你和 Moshi 之间的交流最大化，就像和一个真人在交流一样。

它旨在理解和表达情感，提供诸如使用不同口音（包括法语）说话等功能。其突出功能之一是它能够同时处理两个音频流，使其能够同时收听和通话。这种实时交互以文本和音频混合的联合预训练为基础，利用来自 Helium 的合成文本数据，Helium 是 Kyutai 开发的 70 亿参数语言模型。

训练 Moshi 涉及严格的流程，对 10万份高度详细的 Transcript 进行了微调，并带有情感和风格注释。文本转语音引擎支持 70 种不同的情感和风格，由一位名叫 Alice 的持牌配音人才录制的 20 小时音频进行了微调。该模型专为适应性而设计，可以在不到 30 分钟的音频中进行微调。

Moshi 由法国的人工智能研究实验室 Kyutai 打造，并且得到了由法国亿万富翁、Iliad 首席执行官 Xavier Niel 等提供的 3.3 亿美金预算支持。该实验室将专注于开发通用人工智能（AGI），并计划将其所有研究成果开源。

简单来说，Moshi 可以使用其语音进行流畅和富有表现力的对话，而不仅仅是文本；它足够紧凑，可以在

这是一篇只对付费会员开放的文章，请先订阅成为会员

Memo AI

AI is everything!

相关文章