OpenAI 推出“GDPval”基准，称 GPT-5 在多行业任务上“接近或匹配人类”

25-09-26

免费

快讯

OpenAI 最近公布了一项名为 GDPval 的新基准测试，用来衡量其最新模型 GPT-5 在各类“经济价值工作”上的表现，并宣称在许多工作岗位中，这款 AI 已“堆叠（stacks up）”到人类水平。

GPT-5 是 OpenAI 在 2025 年夏季推出的旗舰模型，在数学、编码、视觉理解、健康等多个领域都取得了显著提升。在 GDPval 的初步结果中，GPT-5 (高算力版本) 在某些任务上与行业专家 “赢或平局” 的比率达 40.6%，而 GPT-4o 的同类比率则只有 13.7%。 OpenAI 认为，这意味着其模型已在一定范围内接近或匹配人类专家的产出水准。

不过公司也明确指出，这并不意味着 GPT-5 将立即全面取代人类。当前 GDPval 覆盖的任务仍有局限，尤其是在跨任务的判断力、长期规划与价值观维度方面，AI 还存在显著差距。 OpenAI 的首席经济学家 Aaron Chatterji 表示，GPT-5 更可能成为人类的“认知助理”，承担重复性和流程化认知工作，让人类释放更多精力去处理判断、监督与创造性部分。

Memo Team

Signal, not noise!

OpenAI 推出“GDPval”基准，称 GPT-5 在多行业任务上“接近或匹配人类”

Memo Newsletter