OpenAI 首位风险投资人投了一个华人团队,要做基于 AGI 的下一代 OS
23-07-31
AGI 的最大想象力在于彻底改变了人和机器的交互方式
AI 发展到今天,大模型 LLMs、中间层、应用层、Copilot、Agent 各种新概念和新机会不断涌现,如今又出现了一个新的平台型机会:AI for OS,基于 AGI 的下一代操作系统。
之前微软和 Google 两大巨头已经开始将 AI 能力直接整合到操作系统中,微软已经将 GPT-4 嵌入 Windows 系统推出 Windows Copilot,Google 则在最新的 Android 14 中集成了各种 AI 能力,都希望在操作系统层面整合 AI 能力。
不过创业公司也希望抓住这块的机会,昨天,由前渡鸦科技创始人吕骋创立的 AI 创业公司 Cyber Manufacture Co.,就希望做基于 AGI 的下一代 OS,正式宣布获得了由 Vinod Khosla 领投的新一轮千万美金级投资,老股东 Synergis Capital 继续跟投。
2019 年 Vinod Khosla 作为首位风险投资人投资了 OpenAI,此次投资 Cyber Manufacture Co.,Vinod Khosla 看中的也是一种颠覆性机会:
There are so many things that this can go wrong, but if it went right, it's gonna be an empire.(这个项目面临着很多风险,但如果一旦做成了的话,那将成就一个商业帝国)
吕骋在 2014 年创立了渡鸦科技,2017 年被百度收购后出任百度智能家居硬件总经理,离职后去美国继续创立了现在的 Cyber Manufacture Co.。
今年 1 月份的时候我曾对其做过简单介绍,那时他们刚发布了一个技术预览版 Quantum Engine,应用场景是游戏领域,用户可以用自然语言随意与 NPC 角色互动,由 AI 来实时生成剧情互动。
现在,基于 Quantum Engine 和其它技术的积累,Cyber Manufacture Co.想开发基于 AGI 的下一代操作系统 OS2,并打算在今年底或者明年初发布搭载 OS2 系统的消费级 AI 硬件设备。作为多年的朋友,我跟吕骋简单聊了一下他对于这块的构想。
根据官网的介绍,OS2 是一款个性化的操作系统,其感觉更直观、友好和强大。它能像跟真人一样进行交流,完成各种任务,提供了一种自然地与技术互动的新体验。OS2 现在包括了两个核心技术 kernel 和 rabbit,吕骋说它们都已申请了专利。
其中 kernel 是其自研的一种 AI 底层技术,可以将任何语言模型应用到实时、多模态、多智能体、多平台的用户场景中。通过 kernel 可以将基于语言模型的语音交互延迟从行业平均标准的 4.5-6 秒优化至 500 毫秒内,提供接近真人的语音对话体验。
另外,kernel 还能有效提升大语言模型在用户端的搜索体验,能搜索实时信息,并且拥有持续的长记忆,这两点也针对性地解决了目前大语言模型的通用弊端。下图是其整体的一个交互示意图:
同时,kernel 充分利用云平台的灵活优势,在客户端算力方面几乎无需求,算法轻量无依赖,可同时支持与数百万用户互动。
rabbit 则是一种能够深度理解用户意图的智能体( Agent ),通过学习与模仿用户使用应用, rabbit 会实时在云端代替用户自动操作多种不同的应用与界面来满足用户的意图。也就是模拟人去执行相关的操作,而不是基于传统 API 那种单纯的执行某项命令。
目前 rabbit 支持大部分网页端的产品和服务,不依赖于具体应用的 API,未来还会增加对专业级桌面应用的支持。比方说你现在可以直接在 os2.ai 提供的 Demo 产品上用自然语言或文字输入来操作听歌的各种命令,它会在云端使用 Spotify 来实时传输音乐,第一次使用需要你登录一下 Spotify 账号。
整个实现过程分为 3 个步骤:
-
首先,rabbit 要了解意图,明白你说的话是什么意思。人类的意图非常个人化,有层次,表达的可能不完整,并且可能会随心所欲地改变。通过了解意图这一步骤,rabbit 利用其对你的长期记忆,将你的请求转化为 OS2 可以实时利用的可操作步骤和响应;
-
其次是接口,rabbit 可以理解你日常使用的应用和服务,它们不依赖于应用的 API,而是可以像人类一样学习看待和处理世界;你甚至可以通过简单记录你的操作过程投喂给 OS2 来教 rabbit 使用一个新的应用,随着时间的推移,所有用户对接口的理解形成了一个有价值和通用的 rabbit “农场”;
-
第三步就是互动,rabbit 通过互动来完成这些任务,包括一些简单的如预订航班、预订餐馆,或者像在 PS 修图这样稍微复杂一些的任务。为了保护用户的隐私,rabbit 不会存储你的密码等信息,而是通过获得你的访问授权,然后模拟你在云上所做的操作。
吕骋说,AGI 的最大想象力在于彻底改变了人和机器的交互方式,在大语言模型出现后,人们将从“鼠标点击、手指触摸来操作系统的交互方式”切换成“用自然语言对话的方式来驱动系统交互”。
为了让这种交互具有更好的用户体验,吕骋说他们还将探索更适配 AGI 操作系统的硬件研发,通过软硬件结合的研发路线,寻找下一代操作系统的最佳用户体验,最快预计会在今年底或者明年初发布一款搭载 OS2 系统的消费级 AI 硬件设备。
下一代人机交互方式以及与硬件的集合,一直是吕骋这些年在探索的方向,无论是之前渡鸦科技做的智能音乐 APP 乐流、智能交互系统 Project Flow 还是智能家居硬件设备 Raven H/H-1,都是用对话方式去实现搜索、音乐、导航、打车等各种任务场景。
甚至更早在 2013 年的一次 TEDx 演讲分享中,他就认为下一代操作系统不应该是由 APP 组成的,而是去掉 APP 的外壳、通过自然语言进行交互。不过限于当时的技术条件和市场环境,具有很多限制。
如今随着 AI 的爆发,无论是技术还是市场的认知,现在已经完全不一样了。
在此次融资完成后,借助 Khosla Ventures 跟 OpenAI 的投资关系,以及 OpenAI CEO Sam Altman 在 YC 时对吕骋的支持,未来 Cyber Manufacture Co. 也会和 OpenAI 共同探索面向消费用户的产品创意,并率先应用 OpenAI 最新的技术能力。
经过吕骋同意,我把跟他聊的内容整理了出来,主要聊了这么几个问题:
-
基于 AGI 的下一代 OS 可能会是什么样的?
-
如果类比于 PC 和移动端 OS,基于 AGI 的下一代 OS 最大的特点会是什么?
-
OS2 本身会选择开源还是封闭,如何做生态?
-
现在做这个 OS 最大的挑战是什么?又有哪些相对成熟的条件?
投资实习所:在你的预想中,基于 AGI 的下一代操作系统可能会是什么样的?
吕骋:我对操作系统演进的理解可以归纳为两个⽅⾯:
-
⽤户与机器之间的输⼊/输出通信;
-
⽤户界⾯和交互;
1)我们先看⽤户与机器之间的输⼊/输出通信
计算机最初被设计为⾮直观的⼯具。直观的⼯具 (例如榔头,你拿起来就可以敲钉⼦)本⾝不会处理或计算任何信息、数据或逻辑。直观⼯具的输出只取决于外部⼒量和物理基本规律,⽽计算机操作系统本⾝,是⾮直观的。
它接受⽤户的输⼊(⽂字、语⾳、点击、输⼊、拖拽等等)操作,在芯⽚和代码层⾯进⾏运算后,再将结果以声⾳、⽂字、图形等⽅式输出给⽤户。
如果我们只关注⽤户与机器之间的输⼊/输出通信,在传统的操作系统⾏业内主要关注以下三个要素:
-
速度和效率
-
易于访问
-
数据存储和同步
上述所有要素都相对容易理解。然⽽,我常常相信,⼀个操作系统能否成为决定性产品往往取决于前端⽤户界⾯和⽤户交互。
2)其次,⽤户界⾯和⽤户交互
计算机的输出是间接的,它是基于算法和语义计算出的经过计算、处理和推导的结果。⼈类⼤脑并不是为了阅读⼆进制代码⽽设计的,⾃然⽽然,我们更容易对语⾔、图形和声⾳产⽣共鸣。
回顾整个⽤户界⾯/⽤户体验的进展,我们可以观察到⼀个有趣的模式:
-
穿孔纸带 - GUI(图形⽤户界⾯ - 可以将穿孔孔洞视为图形模式的⼀种形式)
-
DOS - LUI(语⾔⽤户界⾯)
-
Windows/Mac OS/iOS/Android - GUI
-
ChatGPT - LUI
似乎每隔⼀段时间,主导的操作系统都会在在 GUI 和 LUI 之间跳跃,为了真正理解我们发现的这⼀有趣模式的后端逻辑,我们可以从以下⽅⾯进⾏考察:
-
⼈类以越来越直观的⽅式与操作系统交互;
-
⼈类最终,⾄少是⼤多数终端⽤户,不再需要了解其⼯作原理;
总之,我们可以合理推断基于这些发现下⼀代操作系统的特点。以下是我的⼀般想法:对于⼈类来说,最有效、最频繁、最直观的输⼊/输出⽅式是通过⾃然语⾔。
⼈类的⼤脑根据谁、在哪⾥、做什么、何时和如何进⾏编程处理任务。
如果我们仔细审视这五个要素,谁、在哪⾥和何时已经由现代设备负责。我们不再需要记住所有联系⼈的电话号码或⽣⽇,⽽机器在任何地理位置或导航任务⽅⾯都胜过我们。我们总是依赖⼯具进⾏时间管理。
因此,显著改进终端⽤户体验的关键,或者下⼀代操作系统的关键,将是“做什么”和“如何”的机制。
投资实习所:如果类⽐于电脑或者⼿机时代的操作系统,基于 AGI 的操作系统最⼤的不同(特点)是什么?
吕骋:我曾经在⼗年前做过⼀个预测,我认为未来的操作系统是没有 App 的,⽤户的需求可以直接通过⾃然语⾔(⽂字或语⾳)告诉设备,设备会明⽩⽤户的意图,并且执⾏相关的操作。
我为什么坚定地认为 App 已经死亡 - 很简单,因为 App 不符合⼈类的⼤脑逻辑和思维直觉,举个⽼例⼦,如果你想约朋友吃饭,你可以打个电话⽤两分钟跟你的朋友以⼈和⼈的⾃然语⾔交互确定所有安排。但如果换在 App 基础的操作系统上, 可能需要五到六个 App 之间的不停跳转和协同才能完成。
更简单的例⼦是,我们以前打⻋,看到出租⻋招⼿即可,⽽在⼿机 App 上打⻋,还需要先下载 App、注册,继⽽在愈加繁琐的菜单中找到相应选项。⽽⼈机交互发展的必然趋势是⼈与设备的交流⽅式越来越趋近⼈与⼈之间的交流方式。所以 App 为架构的操作系统必将被淘汰。
⼗年前当我在渡鸦设计我们的操作系统 Project Flow 时,我们采取的逻辑是:
-
⽤户意图判断 - 通过 NLP,加以⼤量⼈⼯的标注。
-
链接服务 - 通过 API
-
输出结果或服务
⼗年后我们再来看,我在 OS2 的设计中划分了这样三个阶段:
-
⽤户意图判断 - 通过⼤语⾔模型,彻底地解决了⽤户任意意图的判断。
-
操作界⾯ - 放弃 API, 直接开发 rabbits (AI Agent)
-
输出结果和服务
相⽐较⽽⾔,主要的⾰新在于两点, ⼀是⼤语⾔模型彻底取代了 NLP,⽽是我们使⽤了 rabbits (AI Agent)这样的全新技术。反观 GPT4 的 Plugin Store, 其实就是当年我们连接服务采⽤的 API 架构。
由于 rabbits 还处于襁褓阶段,我们暂时不展开讲能⼒和优势。但是我可以⾮常确信的⼀点是,rabbits 才是未来,才是 OS2 ⽤户体验突破的核⼼。
投资实习所:这个操作系统是封闭的还是开放的?如何做⽣态?
吕骋:我从⽬前市⾯上和历史上的经验和教训中推理出,开源的操作系统往往很好的控制终端⽤户体验的⼀致性,同时也⾯临着版本碎⽚化的挑战,⽐如今天的 Android ⽣态,作为⼀个开源的操作系统,被各种硬件⼚商魔改,相⽐于 iOS ⽽⾔,Android 在终端消费者⼼中⼀直没能形成统⼀标准的体验认知。
我们认为 OS2 作为操作系统本⾝应该是闭源的,这是基于对终端⽤户体验负责的⾓度做出的考量。同时,我们坚信 OS2 rabbit 的开发者⽣态系统必须是开放的,事实上我们正在积极设计⼀种崭新的,基于⾃然语⾔的开发流程,帮助各位开发者和⼩⽩⽤户以最低的开发门槛,加⼊到 OS2 rabbits 的开发者⽣态系统中来,未来我们的⽬标是能够让每个⼈都可以 0 代码开发属于⾃⼰的 rabbits 功能。
投资实习所:现在做这个操作系统最⼤的挑战是什么?相对成熟的条件⼜是什么?
吕骋:做操作系统最⼤的挑战,我从⼗年前创⽴渡鸦的时候就深深体会到了。作为创业公司,谈操作系统的梦想,是很难被正视,被认可的。本质上来说,操作系统不是⼀个短平快的创业,⽽是需要⻓期探索,试错和积累沉淀的。
这往往与传统 VC 5-7 年的退出逻辑有冲突,所以能够找到真正找到愿意⽀持伟⼤愿景的疯狂理想的投资⼈和团队,往往是我们会遇到的第⼀个,也是最致命的挑战。
我感到很幸运,⽆论是渡鸦、百度,还是现在的 Cyber Manufacture Co., 我的背后都有⼀群我真正仰慕和敬佩的团队与投资者并肩作战,使我能够在⼗年⾥持续不断地探索⾃⼰最初的理想,尽管中间有过不少挫折,但最后都成为了我⾃⼰获得的宝贵经验和教训。毕竟,what doesn't kill you makes you stronger。
说到机遇,我觉得拆开来看,分别讲讲天时、地利和⼈和:
-
天时:⼤语⾔模型的诞⽣彻底解决了 user intention 的判断,这是 OS2 系统能够彻底理解⽤户意图的先决条件。
-
地利:我不后悔来到海外进⾏这段创业,能够更直接地感受到 AI 这个领域的⼀线厮杀和演变,使我⾮常清醒和审慎,按照国内的话说,“不能卷”。
-
⼈和:⽬前 Cyber Manufacture Co. 虽然是⼀个很⼩的团队,但是⼤家真的都很强,⾮常强,⼜聪明,⼜执⾏⼒超强的团队是很可怕的。我很荣幸能够跟他们共事,使我也成⻓了很多。
总的来说,虽然操作系统是⼀个很⼤的梦,但是我们依旧信⼼满满地去迎接这个挑战,继续实现⼗年前的愿景,现在看看也没有那么远了。
目前这块的类似产品,由苹果前高管出来做的 Humane 既采用了软硬件结合,也采用了新的交互方式,应该说路径有点类似。
Humane 在今年 3 月份完成了 1.3 亿美金的新一轮融资,吸引了包括 Tiger、微软、SK Networks、LG、沃尔沃汽车、高通以及 OpenAI CEO Sam Altman 等投资人的支持,使得其总融资额达到了 2.3 亿美金。