OpenAI 利用游戏帮助 AI 模型更好地自我解释
OpenAI研究人员在一篇新论文中提出了一种新算法,旨在提高大型语言模型(LLMs)的可解释性,帮助它们更好地向用户解释自己是如何得出答案的。这项研究对于建立对AI系统的信任至关重要,尤其是在AI系统越来越强大并被集成到医疗、法律、能源、军事和国防等关键领域时。即使对于那些不经常处理敏感或危险材料的企业,AI模型答案的可信度不足以及它们倾向于产生错误答案的问题也可能阻碍它们采用本可以提升其运营水平的模型。
研究人员基于多伦多大学和Vector Institute for Artificial Intelligence的机器学习研究人员在2021年发表的一篇论文中首次提出并阐述的“证明者-验证者游戏”,开发了这种新算法。在这个游戏中,两个AI模型配对——一个更智能的“证明者”和一个能力较弱的“验证者”,要求它们相互竞争。
OpenAI研究人员使用两个定制的微调GPT-4系列模型进行了几轮游戏,要求它们回答已知答案的小学数学应用题。研究人员在每一轮游戏中都对游戏进行了微妙的调整:证明者模型被设置为“有帮助”的,试图向验证者提供正确答案,或者“狡猾”的,试图说服验证者接受证明者的观点,无论其是否正确。能力较弱的验证者模型不知道它是否在与一个有帮助或狡猾的证明者互动,因此只能根据它自己的训练来判断证明者的回答是否正确或错误。
研究人员在每一轮游戏后都使用他们之前轮次的表现数据重新训练了两个模型,最终提高了它们判断答案是否正确的能力,并且在证明者模型的情况下,以人类可理解的方式解释它为何选择该答案。
通过这个过程,研究人员发现验证者模型变得更擅长抵抗狡猾证明者的说服技巧,而证明者模型也变得更擅长向人类用户解释自己。
OpenAI在其博客文章中表示,希望这项工作“在开发AI系统方面发挥重要作用,这些系统的输出不仅正确,而且可以透明地验证,从而增强它们在现实世界应用中的信任和安全性。”陈寅恪对VentureBeat补充说,这种方法“有潜力使未来的模型与人类更智能的模型对齐”。
Kirchner表示,当模型超过人类智能时,“人类可能很难可靠地评估该完成是否正确或不正确”。