DeepMind 发布视频到音频技术(Video-to-Audio, V2A)研究进展
24-06-19
DeepMind 最近分享了其在视频到音频(V2A)技术方面的最新进展,这项技术能够为无声视频生成同步的音轨。V2A 技术结合了视频像素和自然语言文本提示,为屏幕上的动作生成丰富的音景。
技术应用: V2A 技术可以与视频生成模型(如Veo)配对使用,为视频创造戏剧性的音乐、逼真的音效或与视频角色和基调相匹配的对话。
创意控制增强: V2A 技术能够为任何视频输入生成无限数量的音轨。用户可以通过定义“正向提示”来引导生成所需的声音,或使用“负向提示”来避免不需要的声音。这种灵活性为用户提供了更多的音频输出控制,使得快速尝试不同的音频输出并选择最佳匹配成为可能。
工作原理: DeepMind 通过实验自回归和扩散方法,发现基于扩散的方法在音频生成方面提供了最真实和引人入胜的结果,用于同步视频和音频信息。V2A 系统首先将视频输入编码为压缩表示,然后扩散模型从随机噪声中迭代细化音频。
这个过程由视觉输入和自然语言提示引导,生成与提示紧密对齐的同步、逼真的音频。最后,音频输出被解码,转换为音频波形,并与视频数据结合。
DeepMind 的研究与现有的视频到音频解决方案不同,因为它能够理解原始像素,并且添加文本提示是可选的。此外,该系统不需要手动对生成的声音与视频进行对齐,这涉及到繁琐地调整声音、视觉和时间的不同元素。