最强 AI 软件工程师来了,华人团队拿了一堆顶级投资人 2100 万美金
经过近半年的测试,以及最近产品整体重构和数据迁移的完成,我的这个小产品 Memo(vcsmemo.com) 将于下周正式上线了, 会员价格也将在下周一从之前测试期间的399 元/年恢复为原价599 元/年,感谢测试期间数千位读者朋友的支持。
正式上线后,Memo 的内容可能会更加多元化一些,也会做更多其它尝试,但仍然会坚持Signal,Not Noise的理念提供独特的价值。
昨天的文章,简单介绍了一下 AI 对客服行业工作的取代趋势,随着越来越多大公司开始用 AI 取代外包的客服,创业公司也迅速加入这个趋势,仅 YC 最新一期孵化的项目中,就至少有 5 家针对这块的项目,并且从通用解决方案延伸到了细分行业(具体参见《AI 取代人类的工作,正在从客服行业开始》)。
正如 Klarna CEO 所说,他们公布 AI 取代客服工作的数据是希望让决策者认识到,这不是未来才会发生的事情,而是现在就在发生的事情,社会必须开始思考这一重大变革。
而 AI 对程序员工作的取代,也是大家一直非常关注的话题。今天,一个由华人团队创立的 Cognition Labs 推出了第一个 AI 软件工程师 Devin,就是冲着最终取代人类软件工程师的目标来的,从目前公布的信息来看,说它是目前最强的 AI 软件工程师似乎一点也不过分,今天直接在 X 上刷屏了。
根据 Cognition 官方博客,
Devin 是世界上第一个完全自主的 AI 软件工程师,它可以计划和执行需要数千个决策的复杂工程任务,可以在每一步中回忆相关的上下文,随着时间的推移学习并纠正错误,以及主动与用户协作的能力;而且 Cognition 还为 Devin 配备了通用的开发人员工具,包括 shell、代码编辑器和沙盒计算环境中的浏览器——人类完成工作所需的一切。
其博客公布的 Devin 能力展示的几个案例视频,它可以学习如何使用不熟悉的技术,比方说在阅读一些博客文章后,Devin 在 Modal 上可以运行 ControlNet,生成带有隐藏消息的图像。
它可以端到端地构建和部署应用程序,比方说展示案例里 Devin 制作了一个模拟生命游戏的互动网站,它逐步添加用户请求的功能,然后将应用程序部署到 Netlify。
另外,它还可以自主查找并修复代码库中的错误,训练和微调自己的人工智能模型,比方说你只需给出 GitHub 上研究存储库的链接,它就可对大型语言模型进行微调;
同样,在解决开源存储库中的错误和功能请求这块,也只需提供 GitHub 问题的链接,Devin 就可完成所需的所有设置和上下文收集,它甚至可以在 Upwork 上完成真正的工作,这已经非常类似一个真实的人类软件工程师了。
根据他们对 Devin 在 SWE-bench 上做的测评,Devin 端到端正确解决了 13.86% 的问题,远远超过了之前 1.96% 的最好水平,即使提供了要编辑的确切文件,以前最好的模型也只能解决 4.80% 的问题。
随着 Devin 的推出,Cognition Labs 也宣布完成了 2100 万美金的 A 轮融资,由 Funders Fund 领投,跟投的投资人里包括了 Stripe 的两位兄弟创始人 Patrick Collison 和 John Collison,超强 Solo VC Elad Gil,Conviction 的 Sarah Guo,Together AI 的联合创始人 Chris Re,Ramp CEO Eric Glyman 和 CTO Karim Atiyeh,Better 创始人 Erik Bernhardsson, DoorDash 创始人 Tony Xu 以及 Coinbase 联合创始人 Fred Ehrsam 等。
而 Devin 今天在 X 上完全刷屏了,Patrick Collison 说,Devin 展示的那些案例视频不只是精选的案例,在他实践的过程中,Devin 的表现都非常出色。
OpenSea 前 CTO Alex Atallah 说,这是他使用过的第一个让他感觉像是在与真实、有用的人交流的 AI 代理。比方说像"查阅文档以了解如何设置 Docker 容器"和"修复连接数据库的问题"这样的状态更新,再加上能看到 Devin 正在看到的内容,使这成为一个真正独特的体验。
Coinbase 联合创始人 Fred Ehrsam 说这是他第一次看到一个 AI 接手复杂任务,将其分解为步骤,完成它,并向人类展示沿途的每一步,到达可以完全接替人类任务的地步。
其它一些 AI 创始人在体验其产品后,认为 Devin 是一次飞跃,因为它不像一个帮助编写代码的助手,而更像是一个真正的工人在做自己的事情。Founders Fund 创始人 Peter Thiel 直接将 Cognition 类比于 DeepMind、OpenAI 和 Scale AI。
相比于 GitHub 的 Copilot,Devin 不只是提供编程的建议和自动完成一些任务,它还能独立承担并完成整个软件项目。并且在工作过程中,Devin 会显示它正在执行的所有任务,并在测试编写的代码时自行发现和修复错误。这比 Copilot 以及目前所有的 AI Agent 都往前走了很大一步。
Cognition 的团队目前 10 个人,其中包括了 CEO Scott Wu、CTO Steven Hao 以及 CPO Walden Yan,根据 Bloomberg 的报道,其中 Steven Hao 是 Scale AI 的顶级工程师之一,而 Scott Wu 的兄弟 Neal Wu 也在团队,他们都以其编程能力而闻名于世。以下是 Bloomberg 发布的 Cognition 团队合照:
Cognition 的官方介绍称,整个创始团队拥有 10 枚 IOI 金牌,大家之前在 Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo 和 Nuro 等公司从事 AI 前沿工作。
Scot Wu 认为教 AI 成为一名程序员实际上是一个非常深入的算法问题,需要系统做出复杂的决策,并展望未来的几步,以决定应该选择什么路线。而这些一直就像他们多年来一直在脑海中玩的游戏,现在他们有机会将其编程到 AI 系统中。
对于是如何实现 Devin 这样的能力,Scot Wu 没有透露太多信息,只是说他的团队找到了将 OpenAI 的 GPT-4 等大型语言模型 (LLM) 与强化学习技术相结合的独特方法。
不过除了这种天赋能力外,Cognition 的团队同样非常努力, Sara Guo 透露称,当所有人都在谈论 AI Agent 没什么用时,Cognition 的团队连续 3 个月 996 编程写代码证明了那些人是错的。
37signal 的 CTO DHH 甚至发推文称留给手动写程序敲代码的时间不多了,你应该享受这最后几年作为手动程序员的奢华和风格,然后以一种烈焰燃烧的荣耀方式结束。
目前 AI 正在各个领域试图取代或者说加强人类的工作,脑力劳动这块的编程、法律、会计、写作、客服等领域都已经有不错实践;而体力劳动这块,最近大火的 AI 人形机器人正在试图解决这块的问题;即使是精神情绪这块,各类 AI 伴侣也在给人类提供情绪价值。
就像我在昨天文章里说分享的那个报告数据所说那样,仅仅一年时间,大家对 AI 取代(加强)人类工作的进程预测就已经大大提前了。以后的招聘,或许有大部分工作将变成购买或者订阅 AI Agent 或者AI 机器人了。