登录
首页
快讯
邮件订阅
会员专属
Memo AI
联系我们

OpenAI 推出“GDPval”基准,称 GPT-5 在多行业任务上“接近或匹配人类”

25-09-26
免费
快讯

OpenAI 最近公布了一项名为 GDPval 的新基准测试,用来衡量其最新模型 GPT-5 在各类“经济价值工作”上的表现,并宣称在许多工作岗位中,这款 AI 已“堆叠(stacks up)”到人类水平。

GPT-5 是 OpenAI 在 2025 年夏季推出的旗舰模型,在数学、编码、视觉理解、健康等多个领域都取得了显著提升。 在 GDPval 的初步结果中,GPT-5 (高算力版本) 在某些任务上与行业专家 “赢或平局” 的比率达 40.6%,而 GPT-4o 的同类比率则只有 13.7%。 OpenAI 认为,这意味着其模型已在一定范围内接近或匹配人类专家的产出水准。

不过公司也明确指出,这并不意味着 GPT-5 将立即全面取代人类。当前 GDPval 覆盖的任务仍有局限,尤其是在跨任务的判断力、长期规划与价值观维度方面,AI 还存在显著差距。 OpenAI 的首席经济学家 Aaron Chatterji 表示,GPT-5 更可能成为人类的“认知助理”,承担重复性和流程化认知工作,让人类释放更多精力去处理判断、监督与创造性部分。

Memo Newsletter

订阅 Memo 邮件列表,过滤噪音,捕捉最具价值的创投行业信号

最顶尖的 AI 行业创业者和投资人都在看

Subscribe
头像
Memo Team
Signal, not noise!
最新快讯