微软发布开源 TTS 模型 VibeVoice-1.5B，支持 90 分钟模式对话音频生成

25-08-26

免费

快讯

微软研究院最新推出了其首个开源长格式多说话人文本转语音模型 VibeVoice-1.5B（MIT 许可证），旨在生成富于表达、连贯自然的对话式音频，如播客或对话剧场等场景。该模型使用 连续语音标记器（声学 + 语义）以每秒仅 7.5 帧的低频率处理长序列音频，实现高保真度与极高计算效率。

技术亮点包括使用 Qwen2.5-1.5B LLM 作为语言理解核心，配备轻量级扩散解码头（~1.23 亿参数），模型支持 一次生成长达 90 分钟音频，并可模拟 最多四位不同说话人的对话角色，远超传统 TTS 的单人或双人限制。

VibeVoice-1.5B 尤其适用于科研与对话音频内容制作领域，如播客、长篇访谈或虚拟对话演绎。尽管功能强大，微软强调该模型当前仅限研究用途，禁止用于恶意“配音冒用”、实时欺诈或假冒攻击等场景，并已嵌入音频免责声明与不可感知水印以提高安全性与可追溯性。

社区测试反馈也显示，该模型在 RTX 3060（约 7 GB 显存）下即可运行，具备较亲民的硬件需求，期待未来更小参数版本（如 0.5B）及 7B 流式版本问世。

VibeVoice-1.5B 是目前开源 TTS 技术中的一项重大突破，其长文本、多说话人、跨语言（中英文）及表达控制能力为科研与创作提供新工具选择。随着模型成熟并拓展应用边界，其在播客制作、虚拟演员、语音剧场等领域仍具广阔潜力。

Memo Team

Signal, not noise!

微软发布开源 TTS 模型 VibeVoice-1.5B，支持 90 分钟模式对话音频生成

Memo Newsletter