Roblox 通往 4D 生成式人工智能之路
Roblox 正在开发 4D 生成性人工智能技术,超越单一的 3D 对象,实现动态交互。4D 技术将需要在外观、形状、物理特性和脚本等方面进行多模态理解。目前,Roblox 已经推出了一些基础工具,这些工具正在加速平台上的创作过程。
Roblox 赋予创作者们建立沉浸式 3D 体验、角色和配饰的能力,为他们提供所需的工具、服务和支持,让他们的创意得以实现。正是这些创作者在我们的平台上构建了丰富多彩的内容,吸引了超过 7700 万日活跃用户(截至 2024 年第一季度)。通过我们免费的 Roblox Studio 应用程序,我们发布了一套专为 Roblox 工作流程设计、并针对 Roblox 特定内容进行训练的生成式人工智能工具。
这些工具使得专家和新手都能更轻松、更高效、更有趣地进行创作。Assistant 可实现 3D 工作空间编辑,Animation Capture 可捕捉面部和身体动作,Code Assist 可帮助脚本编辑和创建,Material Generator 可实现平铺材质外观,Texture Generator 可实现特定资产纹理映射。这些生成式人工智能工具中的每一个都增强了 3D 创作过程的某个部分。
这些工具共同扩展了创作者的技能范围,并缩短了从概念到完成的时间。我们利用了自己的创新研究突破和更大的人工智能生态系统中最先进的解决方案来构建这些工具。它们解决了在 1D(脚本)、2D(表面)和 3D(空间)中个体资产的创作问题。我们在各种国际研究会议上展示了我们 3D 几何生成和编辑实验室的一些成果,包括我们自己的 Roblox 开发者大会。
在整个行业中,1D 和 2D 已经是艺术的最新成果,而 3D 正处于生成式人工智能的前沿。每一个都是一个越来越重要的挑战,不断推动着激动人心的技术进步。由于我们生活在 3D 空间中,似乎这是终极的生成式人工智能挑战。然而,基于我们社区的需求,我们对这项工作的愿景甚至还要更远大。
我们今天所处的位置
我们正在朝着 4D 生成 AI 迈进,其中第四维是互动。Roblox 在线平台的力量在于互动——人与人之间的互动,物体之间的互动,环境之间的互动。与传统的在线视频游戏不同,Roblox 强大的运行时引擎利用了一个专注于互动的独特编程和模拟模型。这个模型受到了元宇宙概念的启发,其中元素以复杂、多对多和自发的方式相遇,而不是以规定和有限的方式相遇。
1D、2D 和 3D 生成 AI 工具产生单独的资产。我们在 4D 生成 AI 面临的挑战在于以使这些资产以适合我们平台的无限制互动的方式栩栩如生。这意味着,例如,一个化身不仅仅是形状和颜色——它还是一个骨骼、动画,以及抓取工具和平衡的能力。该化身可以穿着并不是专门为其设计的服装,并且可以自动调整以完美贴合并跟踪所有动作。我们的新 Avatar AutoSetup 工具是生成 AI 如何帮助自动化这种创作的早期示例。开发者现在可以在几分钟内完成这个过程,而不是几个小时或几天。
一辆跑车不仅仅是一个流线型的形状和表面涂料——它还有引擎、可移动部件和物理装置,使其能够在虚拟街道上精准控制地呼啸而过。在每种情况下,物体都是从 3D 扩展到与所有部件通过物理和用户通过他们的化身进行互动。
每一个丰富互动的 4D 元素都可以被添加到一个更大的环境中,生成 AI 可以协调每个元素的风格,并在物体之间以及与环境之间注入互动支持。现在用户通过他们的化身可以参加街头赛车比赛,进行损坏调整(amage modifiers)并获得高分,并在品牌时尚商店滑行停下,在那里他们可以购买新服装来庆祝胜利。
今天,创建这样的体验需要手动创建脚本源代码、工作区和数据模型结构、3D 几何、动画和材料。现有的生成性 AI 工具帮助了流水线的每个部分。Roblox 正在构建一个系统,将连接所有这些元素并同时生成它们。
为了实现这一点,必须以多模态方式训练 4D 生成性 AI 系统,这意味着同时跨多种类型的数据。这已经对图像和文本完成了,它们为 Material Generator 提供了动力。启用交互并添加针对物理的专门优化器,Roblox 认为其将达到 4D 能力的下一个级别。
在过去的一年里,我们在 Roblox 上创建内容的方式发生了巨大的变化。展望未来,我们看到了这样一个未来:任何人、任何地方都可以通过简单地输入或说出命令将一个想法变为现实。为了实现这一点,我们需要开始解决我们将在道路上遇到的一些挑战。
面临的挑战
我们在上面分享的实验将在不久的将来可用。更远的未来,我们将面临三个明显的挑战需要解决:
1. 功能性:未来生成式人工智能工具创建的对象需要具备功能性。它需要能够查看卡车或飞机等具有3D形状的物体,并将其视为非封闭的不透明对象。而且无需创作者干预,它可以自动识别出需要有关节的部分,或者需要打开网格的位置。
这是这些系统需要解决的一个类似人类水平的人工智能问题——例如寻找正确的车轮位置,然后为车轮添加轴,使其在物理世界中的运行方式相同。并且寻找门的位置,然后切割一个开口并添加铰链,使门能够打开和关闭。
2. 交互性:使用未来生成式人工智能创建的物品不仅需要能够独立运行,还需要能够与环境中的其他物体进行交互。因此,现在系统已经为我们创建了一辆车,它有一个可以打开的门和可以转动的车轮,它需要理解放置在其中的汽车所处环境的物理规律。车辆在地形上如何移动?如果撞到一个大石头,它会如何变形,这取决于石头的大小和车辆的速度?
这个复杂的挑战要求被创建的物体以及它所交互的环境或物体都能理解彼此的物理规律。幸运的是,Roblox在这方面有优势,因为该平台是作为一个物理引擎构建的,这意味着体验中的所有物体都是物理性的。当生成式人工智能创建一个4D物体时,也将添加物质、质量和强度等物理特性,以便它能够与世界中其他基于物理的物体进行交互。
3. 可控性:今天,我们使用提示与生成式人工智能进行互动。这是一门不完美的科学,类似于寻宝游戏。有人要求一张兔子的图片,可能会收到各种各样的结果:真实的兔子、巧克力复活节兔、卡通兔、一幅兔子的绘画,或者是一幅穿着外套的兔子的插图。因此,我们不断完善提示,要求获得逼真的图像或者“以某种风格”的图像,以便更精确地表达我们心中的愿景。这需要时间和反复尝试,才能更接近我们所期望的结果。
想象一下,尝试按照上面示例中的卡车这样的 3D 物体进行这个过程。在这个层面上进行提示工程将会变得非常复杂,不是任何人都能轻易使用的。为了将创作者的想法变成现实,我们需要更快、更轻松地沟通和完善,基本上与一个更像合作伙伴而不是寻宝游戏的 AI 助手合作。
这是一个全行业范围内的挑战,许多公司正在努力将更多的可控性引入到生成式人工智能中。我们已经在这方面取得了一些进展,比如通过 ControlNet 等工具增加了控制力,使创作者可以提供除了文本提示之外的其他输入条件。我们目前正在探索其他显示出满意工作流前景的方法,比如在关键步骤之后让 AI 暂停等待用户输入。但要实现无缝体验,我们还有很长的路要走。
我们对迄今为止所看到的影响感到兴奋,对未来更加兴奋。与没有使用材料生成器测试版的创作者相比,使用测试版的创作者增加了对基于物理的渲染(PBR)材质变化的使用量超过了 100%——从 2023 年 3 月的一千多种增加到了 2024 年 6 月的两千多种。截至 2024 年 6 月 2 日,创作者已经采纳了大约 5.35 亿个由代码辅助建议的字符。
在我们开始解决通往 4D 的挑战时,我们的创作者将能够更快地创造更多作品。我们也期望在 Roblox 上看到更多多样化的体验,因为我们让更多人成为创作者成为可能。他们建造的东西以及建造的方式将指导我们在哪些地方投资新的工具和人工智能算法,以赋予这些新创作者力量,同时与我们现有的社区一起。
通过 4D 生成式人工智能,Roblox 已经为体验和资产创作开辟了新的领域。虽然挑战是新的,但我们的创新过程已经非常成熟。我们结合了顶尖的内部研发团队、大学合作伙伴关系,以及与社区合作快速迭代原型机制。