ElevenLabs 发布自家语音转文本模型

25-02-27

免费

AI初创公司ElevenLabs推出了自己的语音转文字模型

ElevenLabs是一家AI初创公司，最近完成了1.8亿美元的大规模融资，该公司以音频生成技术而闻名。现在，公司向另一个技术方向发展，推出了其首个独立的语音转文字模型Scribe。

这家估值33亿美元的初创公司已经通过其庞大的语音库帮助许多公司提供文本到语音服务。然而，ElevenLabs现在希望进入语音检测领域，与Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型等竞争。

ElevenLabs的Scribe模型在推出时支持超过99种语言。公司将超过25种语言归类为模型的高准确率类别，其中词错误率低于5%。这个列表包括英语（声称的准确率为97%）、法语、德语、印地语、印尼语、日语、卡纳达语、马拉雅拉姆语、波兰语、葡萄牙语、西班牙语和越南语。其他语言根据不同的词错误率被分为高（5%至10%）、好（10%至20%）和中等（25%至50%）类别。

公司表示，该模型在FLEURS和Common Voice基准测试中，多个语言的表现超过了谷歌Gemini 2.0 Flash和Whisper Large V3。

ElevenLabs为去年发布的AI对话代理平台开发了语音转文本组件，但这是公司首次发布独立的语音检测模型。ElevenLabs的首席执行官Mati Staniszewski在上个月与TechCrunch的对话中谈到了改进语音检测模型的问题。他表示：“我们希望更好地理解你在对话中所说的内容。我们正在研究如何从仅生成内容和理解及转录语音转向。很多人说语音转文本是一个已经解决的问题。但对于许多语言来说，它仍然非常糟糕。我们认为我们可以构建更好的语音检测模型，因为我们有内部团队来注释数据并给我们快速反馈。”

该模型还具有智能说话人分割功能，可以告诉用户谁在说话，单词级别的时间戳以实现准确的字幕，以及自动标记声音事件，如观众笑声。ElevenLabs提供了一种方法，让用户可以直接转录视频内容以添加字幕或标题。

Scribe目前仅支持预录音频格式。公司表示将很快发布模型的低延迟实时版本。这意味着它目前还不适合会议记录或语音笔记。

ElevenLabs将Scribe的价格定为每小时转录音频0.40美元。虽然这个价格具有竞争力，但目前一些竞争对手在音频转录方面提供了更低的价格，同时有一些功能差异。

Memo AI

AI is everything!