扎克伯格与英伟达CEO黄仁勋共同展示Meta最新视频视觉AI

24-07-30

免费

Meta公司在2023年推出的“Segment Anything”机器学习模型取得了显著成功，该模型能够快速且可靠地识别和描绘图像中的几乎所有物体。现在，Meta的CEO马克·扎克伯格在SIGGRAPH大会上展示了该模型的续作，将这一技术应用于视频领域，展示了该领域快速发展的最新成果。

“Segment Anything 2 (SA2)”是这一技术的自然延伸，它原生地应用于视频而非仅仅是静态图像。虽然理论上可以将原始模型应用于视频的每一帧，但这并不是最高效的工作流程。

扎克伯格在与Nvidia CEO黄仁勋的对话中提到：“科学家们使用这项技术来研究诸如珊瑚礁和自然栖息地等事物。但在视频中实现这一点，并且是零样本学习（zero shot），告诉你它想要什么，这非常酷。”

处理视频当然在计算上要求更高，SA2能够在不熔化数据中心的情况下运行，这证明了整个行业在效率上取得的进步。当然，它仍然是一个需要强大硬件支持的大型模型，但即使是一年前，快速、灵活的分割也几乎是不可能的。

SA2模型将像第一个模型一样，开放且免费使用，目前没有提供托管版本的信息。但有一个免费的演示版可供体验。

自然，这样的模型需要大量的数据来训练，Meta还发布了一个包含50,000个视频的大型、注释数据库，这些视频是专门为这个目的创建的。在描述SA2的论文中，还使用了另一个超过100,000个“内部可用”视频的数据库进行训练，这个数据库没有公开——我们已经向Meta询问了更多关于这个数据库的信息，以及为什么它没有被发布。（我们的猜测是，它可能来源于公共Instagram和Facebook个人资料。）

Meta在“开放”AI领域已经领先了几年，尽管扎克伯格在对话中表示，Meta实际上已经这样做了很长时间，例如PyTorch这样的工具。但最近，LLaMa、Segment Anything和其他一些模型的免费发布，使得这些领域的AI性能变得相对容易获得，尽管它们的“开放性”仍有待讨论。

扎克伯格提到，开放性并不完全是出于Meta的善意，但这并不意味着他们的意图不纯：

“这不仅仅是你可以构建的软件——你需要围绕它的生态系统。如果我们不开源，它甚至可能不会那么好用，对吧？我们这样做并不是因为我们是利他主义者，尽管我认为这将有助于生态系统——我们这样做是因为我们认为这将使我们正在构建的东西变得最好。”

无论如何，这个模型肯定会被广泛使用。可以在GitHub上查看详细信息。

文章还提到了其他一些科技新闻，包括苹果公司如何以“负责任”的方式训练其Apple Intelligence模型，以及Nvidia CEO黄仁勋和Meta CEO马克·扎克伯格在SIGGRAPH 2024大会上的有趣互动。

Memo AI

AI is everything!