扎克伯格与英伟达CEO黄仁勋共同展示Meta最新视频视觉AI
Meta公司在2023年推出的“Segment Anything”机器学习模型取得了显著成功,该模型能够快速且可靠地识别和描绘图像中的几乎所有物体。现在,Meta的CEO马克·扎克伯格在SIGGRAPH大会上展示了该模型的续作,将这一技术应用于视频领域,展示了该领域快速发展的最新成果。
“Segment Anything 2 (SA2)”是这一技术的自然延伸,它原生地应用于视频而非仅仅是静态图像。虽然理论上可以将原始模型应用于视频的每一帧,但这并不是最高效的工作流程。
扎克伯格在与Nvidia CEO黄仁勋的对话中提到:“科学家们使用这项技术来研究诸如珊瑚礁和自然栖息地等事物。但在视频中实现这一点,并且是零样本学习(zero shot),告诉你它想要什么,这非常酷。”
处理视频当然在计算上要求更高,SA2能够在不熔化数据中心的情况下运行,这证明了整个行业在效率上取得的进步。当然,它仍然是一个需要强大硬件支持的大型模型,但即使是一年前,快速、灵活的分割也几乎是不可能的。
SA2模型将像第一个模型一样,开放且免费使用,目前没有提供托管版本的信息。但有一个免费的演示版可供体验。
自然,这样的模型需要大量的数据来训练,Meta还发布了一个包含50,000个视频的大型、注释数据库,这些视频是专门为这个目的创建的。在描述SA2的论文中,还使用了另一个超过100,000个“内部可用”视频的数据库进行训练,这个数据库没有公开——我们已经向Meta询问了更多关于这个数据库的信息,以及为什么它没有被发布。(我们的猜测是,它可能来源于公共Instagram和Facebook个人资料。)
Meta在“开放”AI领域已经领先了几年,尽管扎克伯格在对话中表示,Meta实际上已经这样做了很长时间,例如PyTorch这样的工具。但最近,LLaMa、Segment Anything和其他一些模型的免费发布,使得这些领域的AI性能变得相对容易获得,尽管它们的“开放性”仍有待讨论。
扎克伯格提到,开放性并不完全是出于Meta的善意,但这并不意味着他们的意图不纯:
“这不仅仅是你可以构建的软件——你需要围绕它的生态系统。如果我们不开源,它甚至可能不会那么好用,对吧?我们这样做并不是因为我们是利他主义者,尽管我认为这将有助于生态系统——我们这样做是因为我们认为这将使我们正在构建的东西变得最好。”
无论如何,这个模型肯定会被广泛使用。可以在GitHub上查看详细信息。
文章还提到了其他一些科技新闻,包括苹果公司如何以“负责任”的方式训练其Apple Intelligence模型,以及Nvidia CEO黄仁勋和Meta CEO马克·扎克伯格在SIGGRAPH 2024大会上的有趣互动。