OpenAI 新论文给出了 AI 幻觉问题的根源与解决方向
25-09-08
OpenAI 近日发表一篇新论文指出,人工智能(AI)系统之所以会出现“幻觉”(即生成虚假或不准确信息),是因为标准训练方法更倾向于奖励“有信心的猜测”,而非鼓励 AI“承认不确定性”。这一发现或为解决 AI 质量问题指明了一条可行路径。
论文给出了几个核心细节:
1. 幻觉产生的直接原因 :研究人员发现,AI 模型之所以会编造事实,核心问题出在训练阶段的测试评分机制——对于“侥幸猜中”的答案,系统会给予满分;但如果模型回答“我不知道”,则会得到零分。
2. 训练目标与模型行为的冲突:论文指出,这种评分机制会导致一个关键矛盾:当模型的训练目标是“最大化准确率”时,它们会学会“始终进行猜测”,即便对答案完全不确定,也不会选择承认自己的无知。
3. 实验验证:为验证上述理论,OpenAI 的研究人员让模型回答两类特定问题——“某个人的具体生日”和“某篇论文的标题”。结果显示,模型每次都会信心十足地生成不同的错误答案,而非表示“无法确定”。
4. 解决方案提议:研究人员建议,应重新设计 AI 的评估指标——对于“有信心的错误答案”,需施加明确的惩罚,且惩罚力度要大于 AI“表达不确定性”时的代价。
该研究的核心价值在于,它可能将“AI 幻觉”从一个难以捉摸的技术难题,转化为一个可在训练阶段优化解决的问题。若各大 AI 实验室调整训练策略,不再奖励“侥幸猜对”,而是鼓励 AI“诚实承认不确定性”,未来的 AI 模型或将能“认清自身局限”。这意味着 AI 可能需要在部分“性能指标”上做出妥协,但换来的却是更关键的“可靠性”——而这种可靠性,在 AI 处理医疗诊断、法律分析、金融决策等关键任务时,远比单纯的“高准确率”更重要。