刚拿 10.5 亿美金,创始人谈为何「具身智能」是下一代 AI 的最佳应用场景
Wayve 今天宣布完成了 10.5 亿美金的 C 轮融资,由软银集团 (SoftBank Group) 领投,英伟达和微软跟投,以加速 Wayve 通过「具身智能」重新构想自动驾驶的使命。
融资发布的同时,Wayve 联合创始人兼 CEO Alex Kendall 写了这篇文章,详细阐述了为何「具身智能」是下一代人工智能的最佳应用场景。这里做一下分享:
今天是 Wayve 的一个重要里程碑,我们自豪地宣布获得 10.5 亿美元的 C 轮融资。
自成立以来,我们一直坚信端到端人工智能将使自治成为可能。这是针对市场其他部分的一种深度逆向策略,我们很高兴看到我们的进步和这笔资金对我们愿景的大力认可。本文反映了 Wayve 为何处于关键时刻,以及我们的新合作伙伴软银集团和 NVIDIA ,以及我们现有合作伙伴微软的 C 轮投资将如何帮助 Wayve 推出我们的首款「具身智能」汽车产品。
什么是「具身智能」(Embodied AI)?
今天对人工智能的兴奋往往集中在认知人工智能上,比如大型语言模型。它们是一个惊人的突破,将对我们的生活产生巨大影响。但它们仍然受到它们所活动的领域的限制——文字、数据和知识,一个抽象的现实。
我们生活的现实是物理世界,这是我们最重要的互动发生的地方。这就是「具身智能」所实现的,为物理世界带来人工智能的非凡影响。
「具身智能」有望成为人工智能最有价值的应用,有望改变我们与技术的互动。这将开创一个新的技术时代,它将比之前的任何时代都更具影响力。认知人工智能只能释放人工智能最终潜力的一小部分。
展望 20 年后,如果你向某人询问人工智能,大多数人都会将其与改善他们生活的物理机器人联系起来,比如做家务的机器人或自动驾驶汽车。这些应用程序经常出现在科幻小说中,并且是「具身智能」的示例。
在 Wayve,我们正在创建「具身智能」技术,该技术将使自动驾驶汽车等应用能够与人类安全共存,并让人们专注于真正重要的事情,从而改善我们的日常生活。
为什么自动驾驶是实现「具身智能」的最佳途径?
自动驾驶是人工智能的重大挑战,也将是「具身智能」的首次大规模部署。当然,「具身智能」的机会要大得多,那么为什么要从这里开始呢?
从技术角度,我们观察到近十年来各领域驱动的人工智能演进:
- 2012-2018: ImageNet 等计算机视觉数据集推动了深度学习的突破,包括 AlexNet、BatchNorm 和 Residual Connections
- 2018-2024 年:自然语言处理——诸如 Transformer、Attention 和 AI 扩展等发展是通过具有 15T 代币的 Fineweb 等多样化的大规模数据集实现的
- 未来:机器人和自动驾驶——开放世界部署、安全性和更大规模数据的独特挑战将推动人工智能创新的前沿
每一项突破都是由当时最具影响力和挑战性数据的领域推动的。这就是为什么「具身智能」正在成为下一个前沿领域。
语言和视觉数据集正在饱和,转向视觉语言模型等多模态来寻找更多数据,而认知人工智能技术正专注于商业开发。相比之下,「具身智能」因其独特的挑战和机遇而继续受到自动驾驶的推动,超越了语言和视觉等领域:
1. 自动驾驶大规模解锁全球多样化数据。视频、雷达和激光雷达数据已达到世界上所有语言数据的数倍。每年,数以百万计的车辆都会配备必要的传感和计算功能,用于训练和部署「具身智能」。这些车辆今天已经投入运行,做有用的工作,这意味着与其他机器人应用不同,可以以较低的运营成本实现数据收集。这些车辆在世界各地运行,体验开放式、无约束的环境,并具有丰富的边缘情况的长尾。
2. 自动驾驶需要 AI 安全解决方案。自动驾驶领域是人工智能安全创新的主要驱动力,推动人工智能系统处理复杂、不可预测的现实场景。 L5 级别自动驾驶将在开放世界环境中运行,可以说需要通用的、无限的推理。这一安全关键挑战要求人工智能系统达到无与伦比的安全水平。其他形式的人工智能,例如封闭仓库操作或在线生成内容,缺乏这些严格的安全要求,并且没有动力去解决这些问题。「具身智能」的成功取决于达到可接受的信任和安全水平,而自动驾驶提供了最终的动力。
3. 自动驾驶带来了可行的商业模式:自动驾驶市场提供了巨大的商业潜力,即使在实现完全自动驾驶之前,高级驾驶辅助系统(ADAS)的商业潜力预计也将超过 1000 亿美元。这个行业可以支持稳定的技术进步和业务增长,逐步引入人工智能驱动的驾驶自动化,以随着时间的推移(甚至在 L4 级别部署之前)建立消费者的接受度和信任。
4. 自动驾驶带来宝贵的社会效益:每年约有 120 万人死于交通事故,另有 20 至 5000 万人遭受非致命伤害,其中许多人导致残疾。自动驾驶提供了保留汽车优势的机会,同时显着减少甚至消除了我们为这些优势所支付的成本。此外,通过在 ADAS 等主动安全系统中实施「具身智能」,我们甚至可以在实现自动驾驶之前通过为驾驶员提供必要的支持来增强道路安全。
自动驾驶领域是人工智能安全创新的主要驱动力,推动人工智能系统处理复杂、不可预测的现实场景。
为什么不关注其他形式的「具身智能」,比如人形机器人?
与可以利用数百万辆汽车的自动驾驶不同,其他形式的「具身智能」(例如制造业或人形机器人)通常缺乏现有的安装基础或引人注目的商业模式。
如今,道路车辆已在全球范围内使用,无需额外的资本成本即可收集车队规模的数据。此外,受控仓库环境中更简单的拾取和放置机器人任务就像 5 年前亚利桑那州凤凰城的自动驾驶专注于最简单的环境一样。
它产生的解决方案集根本无法扩展到一般环境,并且降低了推进人工智能功能的紧迫性。这使得自动驾驶成为开创通用「具身智能」基础模型的理想领域。
通过应对自动驾驶的挑战,我们推进人工智能技术,并为各行业更智能、更安全的「具身智能」应用铺平道路。但「具身智能」从哪里开始呢?
「具身智能」的起源和演变
「具身智能」早在 Wayve 之前就拥有丰富的历史,具有几个关键的里程碑:
- 20 世纪 50 年代,英国:机器人技术可以说始于英国的 Cyber netic Tortoise,它展示了基本的交互能力。
- 20 世纪 60 年代,美国:斯坦福大学的机器人 Shakey 是第一批能够根据环境观察做出决策的机器人之一。
- 1973 年,日本:第一个人形机器人是 WABOT-1,由日本东京早稻田大学于 1973 年开发。
- 1989 年,美国:第一批自动驾驶汽车之一是 ALVINN(神经网络中的自主陆地车辆),它使用端到端神经网络来概括从东海岸到西海岸穿越美国的驾驶。
ALVINN 走在了时代的前面。不幸的是,在 ALVINN 之后,机器人技术的学术和商业焦点都转向了非机器学习方法,这些方法最初依赖于手工编码的规则,如今继续依赖于重量级传感、感知和高清 (HD) 地图。 2004 年至 2007 年 DARPA 的重大挑战以及随后谷歌自动驾驶汽车项目(现称为 Waymo)的商业化就是这一点的缩影。
Wayve 是第一家全力投入 「具身智能」端到端深度学习的公司,自 2017 年以来一直是这项技术的先驱:
- 2015 年:在 Wayve 成立之前,Vijay Badrinarayanan(我们的 AI 副总裁)、Roberto Cipolla 和我提出了 SegNet,这是第一个通过端到端深度学习进行语义分割的实时方法,无需 HD 即可理解复杂环境地图。随后,我们于 2017 年与 Yarin Gal 教授一起展示了如何通过多任务学习来理解场景语义、几何和运动,并量化深度学习的安全不确定性。
- 2018 年:首次展示使用无模型强化学习完全驾驶车辆的端到端机器学习策略,标题为“一天学会驾驶”;
- 2018 年:推出世界上第一个基于模型的驾驶强化学习系统,该系统于 2023 年演变成驾驶的生成式人工智能世界模型 GAIA;
- 2019 年:展示了如何使用合成数据在 sim2real 场景中学习驾驶汽车,而无需实际经验;
- 2020 年:开始在伦敦繁忙的交通中运营,展示了安全的部署和测试框架;
- 2022 年:展示了我们的技术在不同车辆和地理位置上推广的能力;
- 2023 年:推出 LINGO-2,这是第一个可以驾驶汽车并同时用语言进行对话的视觉 - 语言 - 动作模型,开辟了许多新的可控性和可解释性机会;
「具身智能」领域的其他著名研究贡献包括:
- NVIDIA 展示了使用模仿学习通过数据增强进行转向辅助的端到端学习;
- 英特尔的 Vladlen Koltun 团队开发了条件模仿学习技术;
- 麻省理工学院和苏黎世联邦理工学院的团队提出了通用导航方法;
- Uber ATG 的 Raquel Urtusan 团队将端到端学习与高清地图集成,以实现先进的端到端运动规划;
- OpenDriveLab 因其在端到端驾驶学习方面的工作而获得 CVPR 2023 最佳论文奖;
最近,从 OpenAI 的 ChatGPT 开始,大型语言模型和生成式 AI 的功能得到了显着扩展。 2023 年,特斯拉发布了 FSD v12,转变了技术策略,拥抱端到端学习。我们还开始看到业界探索非驾驶「具身智能」应用,例如 Tesla 的 Optimus 和 Covariant 的 RFM-1。
这些里程碑展示了「具身智能」的技术演变和范围的扩大,从基本机制到复杂的交互式系统。
Wayve 首款采用 AV2.0 的「具身智能」产品
第一届 DARPA 大挑战赛点燃了自动驾驶汽车的发展,距此已经过去了近 20 年,但进展似乎已经停滞不前。尽管投资了上千亿美元、进行了数百万英里的道路测试以及数十亿英里的模拟驾驶,但该行业仍然感觉距离实现安全、可持续且易于使用的自动驾驶汽车的未来还很遥远。一些科技巨头已经能够在非常有限的场景中展示自动驾驶,但在新的驾驶领域却放弃了他们的自动驾驶汽车,他们举步维艰。
随着行业炒作开始消散,挑战变得更加清晰:经典的机器人方法(称为 AV1.0,依赖于复杂的传感器、劳动密集型高清地图和手工编码规则)被证明越来越麻烦,并且建造成本高昂。仍然存在的技术差距是行为预测和规划,特别是在安全处理罕见“边缘情况”事件的长尾方面,这只能通过更强大的智能来解决。
自 2017 年以来,我们率先推出了 AV2.0,这是一种能够快速、安全地适应全球新驾驶环境的下一代自动驾驶系统。我们的技术在其他人难以胜任的领域表现出色:通过仅摄像头导航来掌握复杂城市环境中的驾驶,并适应训练期间看不见的城市,就像你我的驾驶方式一样。要取得这样的成就,需要愿意打破传统思维并尝试勇敢的新解决方案。
AV2.0 的主要特点:
- 采用端到端深度学习构建
- 不再需要高清地图
- 以安全为设计核心,符合行业安全期望
- 传感器灵活性:兼容各种架构,从仅摄像头到雷达和激光雷达
- 通过数据驱动的泛化可扩展
- 基于机器学习的验证和确认 (V&V) 技术,例如我们的神经模拟器 Ghost Gym
- 在全球范围内经济可行
除了克服技术障碍之外,该行业在将视音频技术转变为全球范围内适销对路的产品方面仍然面临着未解决的挑战。出现了两种策略:
1. 从受限环境开始,使用昂贵的传感器和地图基础设施强力解决方案。这种方法通常被 AV1.0 机器人出租车服务采用,成本超过 1000 亿美元,但没有明确的经济可行性或可观的收入。尽管该技术令人印象深刻,但成本降低、可行的单位经济性和制造挑战仍未解决。
2. 创建一个能够在全球范围内运行并逐步提高驾驶自动化水平的可扩展解决方案。这种方法利用软件定义的车辆将「具身智能」集成到现有的 ADAS 中,以产生收入、收集数据并建立消费者信任。这为利用来自全球安装基础的数据来训练和验证完全自主驾驶铺平了道路——通过向车辆提供无线更新来升级其驾驶自动化水平并促进向无人驾驶未来的过渡,从而逐步增强“无需关注”的驾驶能力。
Wayve 专注于第二条道路
我们专注于部署可扩展且经济上可行的人工智能驱动解决方案,以加速从驾驶员辅助系统到完全自动驾驶的过渡,并与领先的汽车原始设备制造商和车队合作,将我们的技术集成到他们现有的产品中。
重要的是,我们为 OEM 提供在安全关键环境中部署端到端深度学习模型的专业知识。我们的技术可以支持 NCAP 和 GSR 主动安全测试协议,作为我们全面的自动驾驶安全架构的一部分,并且在设计上符合 FuSa 标准,同时还提供前所未有的驾驶流程、实用性和安全性。
由于支持技术的融合,这种方法现在成为可能:
- 软件定义的车辆:汽车行业已经开始部署能够进行无线更新和广泛的车队数据收集的车辆;
- 先进的传感技术:全面、冗余的摄像头和雷达传感技术正在成为高端车辆的标准配置,预计很快将被应用到所有车型中;
- 增强型车载计算:NVIDIA Orin 或 Thor 等设备现在提供必要的计算能力 (TOPS),可以直接在车辆上运行大型 AI 模型;
- 人工智能能力:人工智能具有从 PB 级数据中学习并推广到以前在训练中未遇到过的场景的表达能力;
- 市场动态:汽车行业已经摆脱了“幻灭低谷”的怀疑,现在正在积极争夺自动驾驶的新战场。
值得注意的是,这一策略对于 AV1.0 技术来说仍然无法实现,该技术所需的计算和传感器布置目前对于大规模生产的消费类车辆来说过于复杂且成本高昂。
通过应对自动驾驶的挑战,我们推进人工智能技术,并为各行业更智能、更安全的「具身智能」应用铺平道路。我们的战略很明确,我们现在很高兴宣布新的投资,这将推动我们前进。
我们 10 亿美元的 C 轮融资和未来之路
我们很高兴宣布与软银集团、NVIDIA 和微软合作推出 C 轮融资。此轮融资由软银创始人兼首席执行官孙正义领投。孙正义是一位令人难以置信的有远见的企业家。他对人工智能和机器人技术的坚定信念和承诺与我们的长期目标完美契合。
微软和英伟达是全球最大的两家公司,但更重要的是,他们对人工智能的信念对塑造这个新兴行业产生了深远的影响。我们很高兴欢迎软银和 NVIDIA 成为新股东,并感谢微软增加对 Wayve 的投资。
在有远见的投资者和战略合作伙伴的支持下,我们准备加速我们的 Embodied AI 产品。我们与 Microsoft 和 NVIDIA 的合作,利用 Microsoft Azure 扩展我们的 AI 模型和先进的嵌入式计算平台(例如 NVIDIA Drive Orin 和 Thor),突显了我们致力于引领汽车技术领域 AI 驱动转型的承诺。
凭借这笔新资本,我们开启了将「具身智能」技术转化为有影响力的商业产品的新篇章。我们近期的计划包括推出首款采用 L2+ ADAS 的产品,这为消费类汽车带来了重大机遇。这只是我们旅程的第一步,我们将继续深化对人才、计算和数据基础设施的投资,以推进「具身智能」科学的发展。最终,这将打造丰富的「具身智能」产品生态系统,实现 L5 级自动驾驶汽车等。
Wayve 一直致力于建立一种文化,将最具使命感、全球多元化和卓越的人群聚集在一起,共同创造「具身智能」(Embodied AI)。这是一个真正的跨职能问题,我们努力构建一个环境,让 Wayve 的员工能够从事决定他们职业生涯的工作。我们继续大力投资突破性的「具身智能」科学,同时发展严谨和协作的工程文化,以交付「具身智能」产品来取悦世界。
我们很荣幸成为少数几家有机会将我们的技术转化为令世界满意的产品的深度科技公司之一。凭借坚实的资本、文化、计算和数据基础,我们很高兴与世界领先、最具创新性的汽车制造商和车队运营商合作,通过人工智能实现下一代驾驶体验。