OpenAI 推出“GDPval”基准,称 GPT-5 在多行业任务上“接近或匹配人类”
25-09-26
OpenAI 最近公布了一项名为 GDPval 的新基准测试,用来衡量其最新模型 GPT-5 在各类“经济价值工作”上的表现,并宣称在许多工作岗位中,这款 AI 已“堆叠(stacks up)”到人类水平。
GPT-5 是 OpenAI 在 2025 年夏季推出的旗舰模型,在数学、编码、视觉理解、健康等多个领域都取得了显著提升。 在 GDPval 的初步结果中,GPT-5 (高算力版本) 在某些任务上与行业专家 “赢或平局” 的比率达 40.6%,而 GPT-4o 的同类比率则只有 13.7%。 OpenAI 认为,这意味着其模型已在一定范围内接近或匹配人类专家的产出水准。
不过公司也明确指出,这并不意味着 GPT-5 将立即全面取代人类。当前 GDPval 覆盖的任务仍有局限,尤其是在跨任务的判断力、长期规划与价值观维度方面,AI 还存在显著差距。 OpenAI 的首席经济学家 Aaron Chatterji 表示,GPT-5 更可能成为人类的“认知助理”,承担重复性和流程化认知工作,让人类释放更多精力去处理判断、监督与创造性部分。