ElevenLabs 发布自家语音转文本模型
25-02-27
ElevenLabs 推出首个独立语音转文字模型 Scribe,与 OpenAI Whisper 等竞争。这家估值 33 亿美元的公司此前专注文本转语音技术,如今进军语音检测领域。
Scribe 支持 99 种语言,其中 25 种语言的词错误率低于 5%,包括英语(97% 准确率)、法语、德语、日语等。基准测试显示,该模型在多种语言上的表现优于谷歌 Gemini 2.0 Flash 和 Whisper Large V3。
Scribe 具备智能说话人分割、单词级时间戳和自动标记声音事件等功能,可用于字幕生成。目前仅支持预录音频,低延迟实时版即将推出。定价为每小时 0.40 美元,但部分竞争对手提供更低价格。