a16z万字长文:我们正在进入计算的第三个时代
这波 AI 的发展,其影响蔓延到各个领域的速度之快,确实超出了大部分人的预期。上周,Sequoia(红杉美国)认为 AI 已经开启了第二篇章,并从应用场景的角度绘制了新的 AI 图谱和 LLM 开发者栈(stack)图谱。
不过从资金的走向来看,目前 AI 的发展似乎仍然处于神仙打架阶段,并且这个格局好像已经差不多成型了。在 OpenAI 拿到微软等差不多 110 亿美金的钱估值近 290 亿美金后,其竞争对手 Anthropic 昨天宣布与 Amazon 结盟,Amazon 最高将为其投资 40 亿美金,在融资这块 Anthropic 成为仅次于 OpenAI 的 AI 创业公司。
此次融资后,除了苹果(Apple)外,AI 行业基本上形成了这样一个神仙打架的格局:
- 微软 + OpenAI
- Google + DeepMind
- Meta + MetaAI
- Amazon + Anthropic
- Tesla + xAI
当然作为更底层基础设施提供者的英伟达,其策略显然是我都要,没有非常重度的站队具体的某一家。下面是 15 家 AI 独角兽的一个大致情况,从估值和融资来看,大模型 LLMs 占据了很大一部分,而 50%的 AI 独角兽都成立于 2021 年之后:
今天,a16z 分享了他们跟多位顶级 AI 公司创始人的对话,认为我们正处于计算的第三个时代,并从 AI 的当下、未来以及开放性角度探讨了 16 个有意思的话题。这次对话的参与者包括了:
- a16z 合伙人 Martin Casado
- OpenAI CTO Mira Murati
- Roblox Cofounder & CEO David Baszucki
- Figma Cofounder & CEO Dylan Field
- Anthropic Cofounder & CEO Dario Amodei
- Microsoft CTO & EVP of AI Kevin Scott
- insitro Founder & CEO Daphne Koller
- Databricks Cofounder & CEO Ali Ghodsi
- Character.AI Cofounder & CEO Noam Shazeer
由于文章太长差不多 1 万字,我用 AI 简单做了一下编译,一些术语可能不一定准确,感兴趣的朋友可以去阅读英文原文:
Martin Casado,a16z:
我真的认为我们可能正在进入第三个计算时代。微芯片将计算的边际成本降到了零,互联网将分发的边际成本降到了零,现在大型模型实际上将创作的边际成本降到零。当以前的时代发生时,你不知道会有什么新公司被创建出来。没有人预测到亚马逊,没有人预测到雅虎。我们应该准备迎接一波新的标志性公司。
Noam Shazeer,Character AI:
我们确实正处于“莱特兄弟第一架飞机”的时刻。我们已经有了一些可行的东西,并且现在对于大量应用场景很有用。它的扩展性看起来非常好,并将会变得更好。但还会有更多的突破,因为现在世界上所有的人工智能科学家都在努力让这些东西变得更好。
Kevin Scott,微软:
特别是在过去的几年里,也许特别是在过去的 12 个月里,随着 ChatGPT 和 GPT-4 的推出,你可以真正看到该平台与个人电脑或智能手机一样的潜力。一系列技术将使大量新事物成为可能,许多人将在这些新事物之上构建事物。
要使技术创新引发市场转型,经济效益必须具有强大的吸引力。虽然以往的人工智能周期中有许多技术进步,但缺乏变革性的经济效益。在当前的人工智能浪潮中,我们已经看到了一些应用案例中经济效益提升了10,000倍(甚至更高)的早期迹象,并且由此带来的人工智能采纳和发展似乎比以往任何一个转变都快得多。
Martin Casado,a16z:
市场转型并不是通过十倍的经济改善来实现的。当它们比原来好一万倍时,它们就会被创造出来。假设我想要创造一个将我自己变成皮克斯角色的形象。如果我使用这些图像模型之一,推理成本是十分之一美分,并且假设需要 1 秒钟的时间。如果与雇佣一位平面艺术家相比,我们假设每小时费用为 100 美元。在成本和时间上,你会发现有 4 到 5 个数量级的巨大差异。对于经济学家来说,这就是他们寻找的类型转折点,当实际上存在着一个巨大的市场错位时。如果你想要一个例子来说明这会变得多么疯狂,我认为你没有理由不能生成一个完整的游戏——3D 模型、角色、声音、音乐、故事等等。现在的创业公司正在做所有这些事情的,如果将数亿美元和数年的成本与几美元的成本进行比较,我们现在在经济学上存在互联网和微芯片级别的不对称。
幻觉是当今大模型 LLMs 的一个众所周知的问题,但对于某些应用场景来说,编造事情的能力是一个功能而不是一个错误。与早期应用的机器学习用例相比,其中 n 级正确性至关重要(例如自动驾驶汽车),LLMs 的许多早期用例(虚拟朋友和同伴、头脑风暴概念或构建在线游戏)都具有以下特点:专注于创造力比正确性更重要的领域。
Noam Shazeer,Character.AI:
娱乐是一个每年达到 2 万亿美元的产业。而这个不为人知的秘密是,娱乐就像是你并不存在的虚拟朋友。这对于通用人工智能来说是一个很酷的首要应用案例。比如,如果你想推出一款医生,那会慢得多,因为你需要非常、非常、非常小心地避免提供错误信息。但对于朋友来说,你可以做得很快速,它只是娱乐而已,编造事物也成了一种特色。
David Baszucki,Roblox:
在 Roblox 上的 6500 万用户中,大多数人并没有以他们希望的水平进行创作。很长一段时间里,我们想象过一个《Project Runway》的模拟游戏,在游戏中你可以使用缝纫机和面料,并且都是 3D 模拟的,但即使对于我们大多数人来说,这也有点复杂。我认为现在当《Project Runway》出现在 Roblox 上时,它将会是一个文本提示、图像提示或语音提示。如果我正在帮助你制作那件衬衫,我会说:我想要一件蓝色牛仔衬衫,需要一些纽扣,并让它更修身合体一些。实际上,我认为我们将会看到创作加速的趋势。
Dylan Field,Figma:
现在,我们正处于一个人工智能可能完成初稿的阶段,但要从初稿到最终产品还是有些困难,并且通常需要一个团队来完成。但如果你能让人工智能向人们提供界面元素建议,并以一种真正合理的方式进行操作,我认为这将开启一个全新的设计时代,创造出根据用户意图响应性的上下文设计。我相信这将是所有设计师与这些人工智能系统合作共事的一个迷人时代。
尽管人工智能有潜力在许多领域增强人类工作,但编程“副驾驶”已成为首批广泛采用的 AI 助手,原因有几个:
首先,开发人员通常是新技术的早期采用者——对 2023 年 5 月/6 月的 ChatGPT 提示进行分析发现,30% 的 ChatGPT 提示与编程相关。其次,最大的 LLMs 接受过包含大量代码的数据集(例如互联网)的训练,这使得他们特别擅长响应与编程相关的查询。最后,循环中的人是用户。因此,虽然准确性很重要,但拥有人工智能副驾驶的人类开发人员可以比单独的人类开发人员更快地迭代到正确性。
Martin Casado,a16z:
如果你必须保持正确,并且有很多复杂的使用情况,要么你自己完成所有技术工作,要么雇佣人员。通常我们会雇佣人员。这是一个可变成本。其次,由于解决方案的尾部往往非常长——比如自动驾驶中可能发生的许多异常情况——为了保持领先地位所需的投资增加了,价值却降低了。这就产生了一种反向规模经济效应。
过去在公司的循环人员现在是用户(That human in the loop that used to be in a central company is now the user),因此它不再是企业的可变成本,也不再是这项工作的经济成本。循环中的人已经移出,因此,你可以做正确性很重要的事情,比方说开发代码,因为它是迭代的,所以累积的错误量会减少,因为你不断地得到来自用户的反馈和修正。
当开发人员可以查询人工智能聊天机器人来帮助他们编写代码并对其进行故障排除时,它会以两种显著的方式改变开发的方式:1)它使更多的人更容易在开发中进行协作,因为它是通过自然语言界面进行的,2)人类开发者生产更多产品并保持更长时间的流动状态。
Mira Murati,OpenAI :
编程变得越来越不抽象。我们实际上可以用自然语言与高带宽的计算机交谈。我们正在使用该技术,该技术正在帮助我们了解如何与其协作,而不是对其进行“编程”。
Kevin Scott,微软 :
GitHub 是我们正在尝试构建的这种副驾驶模式的第一个例证,即:如何利用某人正在做的知识工作并使用人工智能来帮助他们在完成特定类型的认知工作时显着提高生产力?根据我们对开发人员的观察,最重要的是,人工智能可以帮助他们比其他方式更长时间地保持心流状态。
当你编写一大段代码并思考时,不要遇到阻碍,“我不知道如何完成下一件事情。我得去查阅文档。我得去问问另一位可能正忙着某事的工程师。”在你脱离心流状态之前,能够让自己摆脱束缚是非常有价值的。对于那些正在考虑为软件开发以外的其他用途而构建的生成式人工智能工具的实用性的人来说,这种心流状态的概念是一个值得考虑的有用的东西。
Dylan Field,Figma:
最好的设计师开始更多地考虑代码,而最好的开发人员也开始更多地考虑设计。除了设计师和开发人员之外,例如,如果你考虑产品人员,他们以前可能一直在制定规范,但现在他们更多地研究模型,以更有效地传达他们的想法。基本上,这将允许组织中的任何人更快地从想法到设计,甚至可能到生产。但你仍然需要磨练每一个步骤。你需要有人认真思考,“好吧,我们要探索什么想法?我们要如何探索它们呢?”你会想要调整设计,你会想要正确地处理它们,从初稿到最终产品。
生物学极其复杂——甚至可能超出人类思维的完全理解能力。然而,人工智能与生物学的交叉可以加速我们对生物学的理解,并带来我们这个时代一些最令人兴奋和最具变革性的技术进步。人工智能驱动的生物学平台有可能解锁以前未知的生物学见解,从而带来新的医学突破、新的诊断方法以及更早发现和治疗疾病的能力,甚至有可能在疾病发生之前阻止它。
Daphne Koller,insitro :
在我们历史上的某些时期,某些特定的科学学科在相对较短的时间内取得了令人难以置信的巨大进步。在 20 世纪 50 年代,这个学科就是计算,我们使用这些机器来执行计算,直到那时,只有人类能够执行这些计算。然后在 20 世纪 90 年代,出现了这个有趣的分歧。一方面,数据科学和统计学最终为我们带来了现代机器学习和人工智能。另一方面是我所认为的定量生物学,这是我们第一次开始以超过在耗时 5 年的实验中跟踪 3 个基因的规模来测量生物学。
现在,2020 年是最后两个学科真正融合的时代,为我们带来了数字生物学时代,即以前所未有的保真度和规模测量生物学的能力;使用机器学习和数据科学工具解释令人难以置信的海量数据、不同的生物尺度和不同的系统;然后使用 CRISPR 基因组编辑等工具将这种理解带回到工程生物学中,这样我们就可以让生物学做它本来不想做的事情。
现在,我们终于可以在细胞水平(有时是亚细胞水平)和生物体水平上大规模测量生物学。这使我们第一次能够在以下领域部署机器学习:真正有意义的方式。
我们建立了生物学语言模型。它就像 GPT,但针对的是细胞。我们有细胞的语言和细胞的样子。你测量不同状态下的数亿个细胞,然后就像自然语言的大型语言模型一样,用少量的数据,你可以开始问:“好吧,疾病如何将致病基因从一个地方移动?到另一个?治疗如何让你有希望地从疾病状态回到健康状态?”这是超级强大的。与其他语言模型一样,您提供的数据越多,它就会变得越好。
之前的人工智能模型迭代旨在在某些任务上超越人类,而基于 Transformer 的 LLMs 则擅长一般推理。但仅仅因为我们创建了一个良好的通用模型并不意味着我们已经破解了如何将其应用于特定用例。正如让人类以 RLHF 形式参与循环一样,对于提高当今人工智能模型的性能至关重要,将新技术交到用户手中并了解他们如何使用它,将是确定要构建哪些应用程序的关键这些基础模型的顶部。
Kevin Scott,微软 :
我们必须记住:模型不是产品。作为一个创业者,你的理解是:你的用户是谁?他们的问题是什么?你能做些什么来帮助他们?然后确定人工智能是否确实是解决用户问题的有用基础设施——这是不变的。人工智能就像一个新的、有趣的基础设施,可以让你以更好的方式解决新类别的问题或解决旧类别的问题。
Mira Murati,OpenAI :
我们并不确切地知道未来会是什么样子,因此我们正在努力向许多其他人提供这些工具和技术,以便他们可以进行实验,我们可以看看会发生什么。这是我们从一开始就一直在使用的策略。在我们推出 ChatGPT 的前一周,我们担心它不够好。我们都看到了发生的事情:我们把它放在那里,然后人们告诉我们它足以发现新的用例,你会看到所有这些新兴的用例。
虽然数据、计算和模型参数为 LLMs 的一般推理提供动力,但上下文窗口为他们的短期记忆提供动力。上下文窗口通常通过它们可以处理的令牌数量来衡量。如今,大多数上下文窗口约为 32K,但更大的上下文窗口即将到来,随之而来的是通过 LLMs 运行具有更多上下文的更大文档的能力。
Noam Shazeer,Character.AI :
目前,我们提供的模型使用数千个令牌的上下文窗口,这意味着你的终生朋友会记住过去半小时发生的事情。如果你可以转储大量信息,事情将会变得更好。它应该能够了解关于你的十亿件事。 HBM 带宽就在那里。
Dario Amodei,Anthropic :
我认为仍然被低估的一件事是更长的背景和随之而来的事情。我认为人们脑海中会想到这样的画面,“有这个聊天机器人。我问它一个问题,它回答了这个问题。但是你可以上传一份法律合同并说,“这个法律合同中最不寻常的 5 个条款是什么?或者上传一份财务报表并说:“总结这家公司的位置。与这位分析师两周前所说的话相比,有什么令人惊讶的?所有这些知识操纵和处理大量数据,人们需要数小时才能阅读。我认为这比人们正在做的事情更有可能。我们才刚刚开始。
今天,大多数人以聊天机器人的形式与人工智能互动,但这是因为聊天机器人通常很容易构建,而不是因为它们是每个用例的最佳界面。
许多构建者专注于开发用户通过多模态 AI 与 AI 模型交互的新方法。用户将能够以与世界其他地方交互的方式与多模态模型进行交互:通过图像、文本、语音和其他媒体。更进一步:具身人工智能(embodied AI)专注于可以与物理世界互动的人工智能,比如自动驾驶汽车。
Mira Murati,OpenAI:
我认为今天的基础模型在文本中对世界有很好的表现。我们正在添加其他模式,如图像和视频,因此这些模型可以更全面地了解世界,类似于我们理解和观察世界的方式。
Noam Shazeer,Character.AI :
也许你想听到一个声音,看到一个面孔,或者只是能够与多个人互动。就像你被选为总统一样,你得到了耳机,还有整个朋友或顾问团队。或者就像你走进“欢乐酒吧”,每个人都知道你的名字,他们很高兴你来了。
Daphne Koller,insitro:
人工智能可能产生的下一个影响前沿是人工智能开始接触物理世界的时候。我们都看到了这有多难。我们都见过,与制造聊天机器人相比,制造自动驾驶汽车是多么困难,对吧?我们在构建聊天机器人方面取得了很大进展,自动驾驶汽车仍在旧金山阻挡消防车。了解这种复杂性,但也要了解影响的规模,这一点很重要。
哪些用例最适合更大的“更高智商”的基础模型或较小的专用模型和数据集?就像十年前的云和边缘架构辩论一样,答案取决于你愿意支付多少费用、你需要输出的准确性以及你可以容忍的延迟程度。随着时间的推移,这些问题的答案可能会发生变化,因为研究人员开发了计算效率更高的方法来微调特定用例的大型基础模型。
从长远来看,我们可能会在哪些模型用于哪个用例的问题上过度轮换,因为我们仍处于构建基础设施和架构的早期阶段,以支持即将到来的人工智能应用程序浪潮。
Ali Ghodsi,Databricks:
现在有点像2000年,互联网即将主宰一切,最重要的是谁能建造出最好的路由器。Cisco在2000年曾经市值达到5万亿美元的峰值,当时超过了微软。所以,谁拥有最大的LLM(语言模型)呢?显然,能够构建最大并对其进行充分训练的人将拥有所有AI和未来人类的掌控权。但就像互联网一样,后来会有其他人想到像Uber和出租车驾驶这样的创意。还会有其他人想着,“嘿,我想看看我的Facebook上朋友们都在干什么。” 这些都可能成为巨大的商业机会,并不只是OpenAI、Databricks或Anthropic等公司构建一个模型就能主导所有应用场景。需要投入很多努力才能打造一个你信任的医生。
Dario Amodei,Anthropic:
最大的因素就是投入更多资金。现在制造的最昂贵模型的成本约为1亿美元左右,加减一个数量级。明年我们可能会看到来自多个参与者的价值约10亿美元左右的模型,而到2025年,我们将看到数十亿甚至100亿美元规模的模型。这个100倍的差距再加上H100s计算速度本身变得更快——由于降低精度而带来了特别大的飞跃。把所有这些因素放在一起,如果扩展定律继续适用,能力将会有巨大提升。
Mira Murati, OpenAI:
这取决于你想做什么。显然,AI系统将会越来越多地承担我们所做的工作。就 OpenAI 平台而言,你可以看到即使在今天,我们通过 API 提供了许多模型,从非常小的模型到前沿模型都有。人们并不总是需要使用最强大或最能胜任的模型。有时候他们只需要适合其特定用例的模型,并且更加经济实惠。我们希望人们在我们的模型基础上进行构建,并为他们提供简化此过程的工具。我们希望给予他们越来越多的访问和控制权限,以便您可以携带自己的数据并自定义这些模型。您真正需要关注超出模型范畴、定义产品层面上的事情。
David Baszucki, Roblox:
在像 Roblox 这样的任何公司中,可能有 20 或 30 个最终最终用户垂直应用程序是非常定制的 - 自然语言过滤与生成 3D 非常不同 - 在最终用户那里,我们希望所有这些应用程序都运行。当我们沿着[堆栈]向下走时,在像我们这样的公司中,可能会自然地聚集 2 或 3 个更大,更胖类型的模型。我们对我们想要的学科进行了非常精细的调整,能够为这些学科训练和运行大量推理。
生成式人工智能对企业的影响仍处于起步阶段——部分原因是企业通常行动较慢,部分原因是他们已经意识到其专有数据集的价值,并且不一定想将数据移交给另一家公司,无论他们的模型多么强大。大多数企业用例需要高度的准确性,企业有 3 种选择来选择 LLM:构建自己的 LLM,使用 LLM 服务提供商为他们构建,或微调基础模型 - 构建自己的 LLM 并不容易。
Ali Ghosdi, Databricks:
在 CEO 和董事会的大脑中发生的一件事是,他们意识到:也许我可以击败我的竞争对手。也许这是杀死敌人的氪金石。我有生成式人工智能的数据,所以他们在思考,“我必须自己建立它。”我必须拥有知识产权。你想要从零开始建立自己的 LLM 吗?这并不是一件轻松的事情,仍然需要大量的 GPU,需要花费很多钱,并且取决于你的数据集和使用案例。
我们有很多客户希望拥有更便宜、更小、精度和性能非常高的专用模型。他们说,“嘿,这就是我想做的。我想从这些图片中很好地对制造过程中的这种特殊缺陷进行分类。在那里,准确性很重要。你能给我的每一盎司准确性都很重要。在那里,如果你有一个好的数据集来训练,并且可以训练一个更小的模型,你会更好。延迟会更快,更便宜,是的,你绝对可以拥有击败真正大型模型的准确性。但是你建立的模型也不能在周末娱乐你,帮助你的孩子做作业。
LLM 目前遵循 Scaling 法则:即使你添加更多数据和计算,模型性能也会提高,即使架构和算法保持不变也是如此。但是,这个法则能持续多久?它会无限期地持续下去,还是在我们开发 AGI 之前达到自然极限?
Mira Murati, OpenAI:
没有任何证据表明,当我们继续在数据和计算的访问中扩展它们时,我们不会获得更好、更强大的模型。这是否将 你一直带到 AGI - 这是一个不同的问题。在此过程中可能需要其他一些突破和进步,但我认为在 Scaling 定律方面还有很长的路要走,并且要真正从这些更大的模型中获得很多好处。
Dario Amodei, Anthropic:
即使这里没有算法改进,并且我们只是扩大了迄今为止的规模,Scaling 法则也将继续下去。
Noam Shazeer, Character.AI:
我们的目标是成为一家 AGI 公司和产品优先的公司,而实现这一目标的方法是选择正确的产品,迫使我们从事通用化的事情,使模型更智能,使其成为人们想要的东西,并大规模廉价地提供服务。Scaling 法则将带我们走很长的路。从本质上讲,计算并不那么昂贵。如今,运营成本约为10-18美元。如果你能有效地做这些事情,那么成本应该远远低于你的时间价值。那里有能力将这些东西扩大几个数量级。
虽然有些人很快就注销了生成人工智能的能力,但人工智能在执行某些任务方面已经比人类好得多,并且将继续改进。最好的构建者已经能够识别人工智能最有前途的新兴功能,并建立模型和公司,将这些功能扩展到可靠的功能。他们认识到,规模往往会提高新兴能力的可靠性。
Mira Murati, OpenAI:
关注这些新兴功能很重要,即使它们非常不可靠。特别是对于今天正在创建公司的人来说,你真的想要思考,“好吧,今天有什么可能吗?今天你看到了什么?”因为很快这些模型就会变得可靠。
Dario Amodei, Anthropic:
当我们发布GPT-2时,当时被认为最令人印象深刻的是,“你将这5个英文到法文翻译的例子直接输入到语言模型中,然后再输入第六句英文句子,它实际上会翻译成法文。就像哦,天啊,它竟然理解了这种模式。”对我们来说那真是太疯狂了,尽管翻译得很差劲。但我们的观点是,“看吧,这只是一段惊人之旅的开始,因为没有限制,并且可以继续扩大规模。”以前我们见过的那些模式为什么不能继续存在呢?预测下一个单词的目标如此丰富,并且有很多你可以挑战它们的东西,所以它肯定能行。然后有些人看着它说:“你做了一个非常糟糕的机器人翻译工具。
计算成本是扩展这些模型的主要限制之一,而当前的芯片短缺通过限制供应而推高了成本。然而,如果 Nvidia 明年生产更多的 H100,这应该会缓解 GPU 短缺问题,并可能降低计算成本。
Noam Shazeer, Character.AI:
我们现在提供的模型去年花费了大约 200 万美元的计算周期来训练,我们现在可能会重复五十万美元。因此,我们将在今年年底之前推出几十个智商点更智能的东西。我看到这些东西正在大规模扩大规模。只是没那么贵。我想我昨天看到一篇文章,说英伟达明年将再制造1.5M H100,也就是是 2M H100。
这大约是每人每秒四分之一万亿次操作。这意味着对于地球上每个人,在一个拥有 1000 亿参数的模型上,它可能会每秒处理 1 个单词。但实际上并不是每个人都能使用它,因此它并不那么昂贵。如果你做得对,这个东西的可扩展性非常大,我们正在努力实现这一点。
Dario Amodei, Anthropic:
我的基本观点是,推理不会变得那么昂贵。Scaling 定律的基本逻辑是,如果将计算增加 n 个因子,则需要将数据增加 n 的平方根因子,将模型的大小增加 n 的平方根因子。这个平方根基本上意味着模型本身不会变大,而且在你这样做的时候硬件会变得更快。我认为这些东西将在未来 3 或 4 年内继续发挥作用。如果没有架构创新,它们会变得更贵一点。如果有架构创新,我希望有,他们会变得更便宜。
但是,即使计算成本保持不变,模型级别的效率提升似乎也是不可避免的,尤其是在如此多的人才涌入该领域的情况下,人工智能本身可能是我们改进人工智能工作方式的最强大工具。
Dario Amodei, Anthropic:
随着人工智能变得更加强大,它在大多数认知任务上表现得更好。其中一个相关的认知任务是判断人工智能系统的安全性,并最终进行安全研究。这其中有一种自我参照的组成部分。我们可以通过解读神经网络内部来看到这一点,比如可解释性领域。强大的人工智能系统可以帮助我们解读较弱的人工智能系统中的神经元活动。而这些可解释性洞察力通常会告诉我们模型是如何运作的。当它们告诉我们模型是如何运作时,往往会提出改进或提高效率的方法。
最有前途的研究领域之一是针对特定用例微调大模型,而无需运行整个模型。
Ali Ghodsi, Databricks:
如果你制作了一千个在一千种不同事物上都擅长的LLM版本,并且你必须将每一个加载到GPU并提供服务,那将变得非常昂贵。现在大家都在寻找的最大目标是:是否有技术可以只进行小幅修改就能获得非常好的结果?有很多技术,比如前缀调优、LoRA、CUBE LoRA等等。但还没有一个真正完美无缺的解决方案被证实有效。但总会有人找到的。
当我们扩展这些模型时,我们如何知道人工智能何时成为通用人工智能?当我们经常听到 AGI 这个术语时,它可能是一个很难定义的东西,部分原因可能是它难以测量。
像 GLUE 和 SUPERGLUE 这样的定量基准长期以来被用作衡量 AI 模型性能的标准化指标。但就像我们给人类进行的标准化测试一样,AI 基准引发了一个问题:在多大程度上你正在衡量 LLM 的推理能力,以及在多大程度上你正在衡量它通过考试的能力?
Ali Ghodsi, Databricks:
我有点觉得所有的基准都是胡扯。想象一下,如果我们所有的大学都说:“我们会在考试前一晚给你答案让你看。然后第二天,我们会让你来回答问题,然后评分。”突然间,每个人都能轻松通过考试了。
比方说,MMLU 是许多人用来评估这些模型的基准。MMLU 只是一个在网络上的多项选择题。提出一个问题,答案是A、B、C、D或E?然后它会告诉你正确答案。它可以在网上进行训练,并创建一个能够击败它的 LLM 模型。
AGI 最初的定性测试是图灵测试,但让人类相信人工智能是人类并不是难题。让人工智能去做人类在现实世界中所做的事情是一个难题。那么,我们可以使用哪些测试来了解这些系统的功能呢?
Dylan Field, Figma:
从这些系统中我们现在看到,让人相信你是人类很容易,但实际上做出好的事情却很难。我可以让GPT-4制定一个商业计划并来向你推销,但这并不意味着你会投资。当你真正面对两个竞争的企业——其中一个由AI运营,另一个由人类运营——而你选择投资AI企业时,那就令我担忧了。
David Baszucki, Roblox:
我有一个图灵测试问题要问 AI:如果我们将 AI 放在 1633 年,并让其基于当时所有可用的信息进行训练,它会预测地球还是太阳是太阳系的中心——即使 99.9% 的信息都说地球是太阳系的中心?我认为5年时间正好处于边缘位置,但如果我们在 10 年后进行这个 AI 图灵测试,它可能会说太阳。
新技术通常会取代一些人类工作和工作,但它们也开辟了全新的领域,提高了生产力,并使更多的人可以从事更多类型的工作。虽然很容易想象人工智能使现有工作自动化,但想象人工智能带来的下一个问题和可能性要困难得多。
Martin Casado, a16z:
非常简单地说,杰文斯悖论指出:如果需求是弹性的,并且价格下降,需求将会超过补偿。通常情况下,远远超过补偿。这绝对适用于互联网。您可以获得更多价值和更高生产力。我个人认为,在任何创造性资产或工作自动化方面,需求都是弹性的。我们制造得越多,人们消费得就越多。我们非常期待生产力的大规模扩展、大量新岗位以及许多新事物的出现,就像我们在微芯片和互联网时代所见到的一样。
Kevin Scott, Microsoft:
我在弗吉尼亚州中部的农村长大,那里的经济主要靠烟草种植、家具制造和纺织业提供动力。当我高中毕业时,这三个行业都刚刚崩溃。当这些社区的人们能够使用非常强大的工具时,他们往往会做出非凡的事情,为自己、家人和社区创造经济机会。他们解决了你或我无法解决的问题,因为我们没有看到世界的整个问题格局。我们没有他们的观点。这些人工智能工具现在变得比以前更加容易使用。您现在就可以使用这些工具做有趣的事情,并且可以在弗吉尼亚州小镇成为一名企业家,而无需拥有计算机科学博士学位或经典人工智能专业知识。你只需要保持好奇心和创业精神。
Dylan Field, Figma:
如果你看过迄今为止的每一次技术转变或平台转变,都会导致更多需要设计的东西。有印刷机,然后你必须弄清楚在页面上放什么。最近是移动互联网,你可能会认为,“好吧,像素少了,设计师也就少了。”但事实并非如此,那时我们看到了设计师数量最大的爆炸增长。
这是人工智能构建的一个独特而激动人心的时刻:基础模型正在迅速扩展,经济最终向有利于初创公司的方向倾斜,并且有很多问题需要解决。这些问题需要极大的耐心和毅力才能解决,迄今为止,物理学家和数学家特别适合解决这些问题。但作为一个发展迅速的年轻领域,人工智能是完全开放的——现在是构建人工智能的最佳时机。
Dario Amodei, Anthropic:
在任何特定时刻,有两种类型的领域。一种是经验和积累知识非常丰富的领域,需要多年时间才能成为专家。生物学就是一个典型例子——如果你只从事生物学6个月,很难做出突破性或者诺贝尔奖级别的工作……另一种是非常年轻或者发展速度非常快的领域。人工智能曾经,并且现在某种程度上仍然如此,属于这类领域。真正有才华的通才往往可以超越那些在该领域已经待了很长时间的人,因为事情变化得太快了。如果说有什么不同之处的话,拥有大量先前知识可能会成为一个劣势。
Mira Murati, OpenAI:
从数学的理论空间中可以得出一个要点,那就是你需要花很长时间来思考问题。有时候你入睡然后醒来时会有新的想法,在几天或几周的时间里逐渐找到最终解决方案。这不是一种快速获得回报的过程,有时它也不是一个迭代式的事情。这几乎是一种不同的思考方式,在其中你建立直觉和纪律去面对问题,并相信自己能够解决它。随着时间推移,你会对哪个问题才是真正值得努力解决的问题建立起直觉。
Daphne Koller, insitro:
随着时间的推移,不仅是机器学习在进步,我们所依赖的生物工具也在进步。过去并没有CRISPR技术,只有siRNA。然后出现了CRISPR基因编辑技术,现在又有了可以替换整个基因组区域的CRISPR prime技术。因此,我们所建立的工具也越来越好,这为我们以更有意义的方式解决更多疾病提供了可能性。人工智能/机器学习与生物学和医药领域交汇处存在许多机会。这种融合是一个时刻让我们能够利用今天已经存在但五年前还不存在的工具,在我们所生活的世界中产生巨大影响力的时刻。
Kevin Scott, Microsoft:
如果你考虑过去发生的一些大型平台转变,那么在这些平台上最有价值的事情并不是在平台改变的头两年中部署的东西。如果你想想自己在智能手机上花费时间最多的地方,它不是短信应用程序,也不是网页浏览器,也不是邮件客户端。而是在平台可用性之后几年内创造出来的新东西。
有哪些以前不可能的事情现在变得可能了?这才是人们应该思考的问题。不要去追逐那些琐碎的事情。