OpenAI的o3表明AI模型正在以新的方式扩展——但成本也在增加

24-12-24
免费
查看原文

上个月,人工智能创始人和投资者告诉TechCrunch,我们现在已经进入了“AI扩展法则的第二时代”,指出提高AI模型性能的既定方法正在显示出递减的回报。他们提出的一种有前景的新方法“测试时扩展”(test-time scaling)可能能够保持收益,这似乎是OpenAI的o3模型性能背后的推动力——但这种方法也有其自身的缺陷。

AI界的许多人将OpenAI的o3模型的宣布视为AI扩展进步并未“遇到瓶颈”的证据。o3模型在基准测试中表现良好,在一项名为ARC-AGI的通用能力测试中显著超越了所有其他模型,并在一个困难的数学测试中得分25%,而其他AI模型得分均不超过2%。

当然,我们在TechCrunch在亲自测试o3之前对这一切都持保留态度(目前尝试过它的人还很少)。但在o3发布之前,AI界已经确信发生了重大转变。

OpenAI的o系列模型的共同创造者Noam Brown在上周五指出,该初创公司在宣布o1之后的短短三个月内就宣布了o3的惊人进步——对于这样的性能飞跃来说,这是一个相对较短的时间框架。

“我们完全有理由相信这一趋势将持续下去,”Brown在一条推文中表示。

Anthropic联合创始人Jack Clark在周一的博客文章中表示,o3是AI“在2025年的进步将比2024年更快”的证据。(需要注意的是,暗示AI扩展法则仍在继续对Anthropic——尤其是其筹集资金的能力——是有利的,即使Clark是在恭维一个竞争对手。)

明年,Clark表示AI界将结合测试时扩展和传统的预训练扩展方法,以从AI模型中获得更多的回报。也许他暗示Anthropic和其他AI模型提供商将在2025年发布他们自己的推理模型,就像Google上周所做的那样。

测试时扩展意味着OpenAI在ChatGPT的推理阶段使用更多的计算能力,这是在您按下提示后的一段时间。目前尚不清楚幕后确切发生了什么:OpenAI可能是使用更多的计算机芯片来回答用户的问题,运行更强大的推理芯片,或者在AI产生答案之前运行这些芯片更长的时间——在某些情况下是10到15分钟。我们不知道o3是如何制作的,但这些基准测试是测试时扩展可能有助于提高AI模型性能的早期迹象。

虽然o3可能让一些人重新相信AI扩展法则的进步,但OpenAI的最新模型也使用了前所未有的计算水平,这意味着每个答案的成本更高。

“也许这里唯一重要的警告是理解为什么O3如此出色的一个原因是,在推理时运行成本更高——利用测试时计算的能力意味着在某些问题上,您可以将计算能力转化为更好的答案,”Clark在他的博客中写道。“这很有趣,因为它使得运行AI系统的成本变得不那么可预测——以前,您可以通过查看模型和生成给定输出的成本来计算服务一个生成模型的成本。”

Clark和其他人都指出o3在ARC-AGI基准测试中的表现——这是一个用于评估AGI突破的困难测试——作为其进步的指标。值得注意的是,根据其创造者的说法,通过这个测试并不意味着AI模型已经实现了AGI,而是衡量向这个模糊目标进展的一种方式。即便如此,o3模型在一次尝试中得分88%,远远超过了所有之前做过这个测试的AI模型的得分。OpenAI的下一个最佳AI模型o1得分仅为32%。

图表显示了OpenAI的o系列在ARC-AGI测试中的表现。图片来源:ARC Prize

但这张图表上的对数x轴可能会让一些人感到担忧。高分版本的o3每个任务使用了价值超过1000美元的计算资源。o1模型每个任务使用了大约5美元的计算资源,而o1-mini仅使用了几分钱。

ARC-AGI基准测试的创建者François Chollet在博客中写道,OpenAI使用了大约170倍的计算资源来生成88%的得分,相比之下,高效版本的o3得分仅低12%。高分版本的o3完成测试使用了超过10000美元的资源,这使得它太贵了,无法竞争ARC Prize——这是一个AI模型击败ARC测试的未被击败的比赛。

然而,Chollet表示,o3仍然是AI模型的一个突破。

“o3是一个能够适应它以前从未遇到过的任务的系统,在ARC-AGI领域,可以说接近人类水平的表现,”Chollet在博客中说。“当然,这种普遍性的代价很高,目前还不太经济:您可以支付人类解决ARC-AGI任务的费用大约是每个任务5美元(我们知道,我们做到了),同时仅消耗几分钱的能源。”

现在就这些确切的价格大做文章还为时过早——我们已经看到过去一年AI模型的价格大幅下降,OpenAI尚未宣布o3的实际成本。然而,这些价格表明,要打破当今领先AI模型设定的性能

头像
Memo AI
AI is everything!
相关文章