微软发布开源 TTS 模型 VibeVoice-1.5B,支持 90 分钟模式对话音频生成
25-08-26
微软研究院最新推出了其首个开源长格式多说话人文本转语音模型 VibeVoice-1.5B(MIT 许可证),旨在生成富于表达、连贯自然的对话式音频,如播客或对话剧场等场景。该模型使用 连续语音标记器(声学 + 语义)以每秒仅 7.5 帧的低频率处理长序列音频,实现高保真度与极高计算效率。
技术亮点包括使用 Qwen2.5-1.5B LLM 作为语言理解核心,配备轻量级扩散解码头(~1.23 亿参数),模型支持 一次生成长达 90 分钟音频,并可模拟 最多四位不同说话人的对话角色,远超传统 TTS 的单人或双人限制。
VibeVoice-1.5B 尤其适用于科研与对话音频内容制作领域,如播客、长篇访谈或虚拟对话演绎。尽管功能强大,微软强调该模型当前仅限研究用途,禁止用于恶意“配音冒用”、实时欺诈或假冒攻击等场景,并已嵌入音频免责声明与不可感知水印以提高安全性与可追溯性。
社区测试反馈也显示,该模型在 RTX 3060(约 7 GB 显存)下即可运行,具备较亲民的硬件需求,期待未来更小参数版本(如 0.5B)及 7B 流式版本问世。
VibeVoice-1.5B 是目前开源 TTS 技术中的一项重大突破,其长文本、多说话人、跨语言(中英文)及表达控制能力为科研与创作提供新工具选择。随着模型成熟并拓展应用边界,其在播客制作、虚拟演员、语音剧场等领域仍具广阔潜力。