2025-02-05 13:34:22 | 来源: AICG工具箱
9 月 29 日消息,一项新研究发现,随着大语言模型变得越来越强大,它们似乎也越来越容易编造事实,而不是避免或拒绝回答它们无法回答的问题。这表明,这些更聪明的 AI 聊天机器人实际上变得不太可靠。
这项研究发表在《自然》杂志上,研究人员研究了一些业界领先的商业化 AI 大模型:OpenAI 的 GPT 和 Meta 的 LLaMA,以及由研究小组 BigScience 创建的开源模型 BLOOM。
研究发现,虽然这些 LLM 的回答在许多情况下变得更加准确,但总体上可靠性更差,给出错误答案的比例比旧模型更高。
瓦伦西亚人工智能研究所在西班牙的研究员 José Hernández-Orallo 对《自然》杂志表示:“如今,它们几乎可以回答一切。这意味着更多正确的答案,但也意味着更多错误的答案。”
格拉斯哥大学的科学和技术哲学家 Mike Hicks 对此进行了更严厉的评价,Mike Hicks(未参与该研究)告诉《自然》杂志:“在我看来,这就像我们所说的胡说八道,它越来越擅长假装知识渊博。”
测试中,这些大模型被问及了从数学到地理等各种主题,并被要求执行诸如按指定顺序列出信息等任务。总体而言,更大、更强大的模型给出了最准确的答案,但在更难的问题上表现不佳,其准确率较低。
研究人员称,一些最大的“撒谎者”,比如 OpenAI 的 GPT-4 和 OpenAI o1,但所有被研究的大模型似乎都呈这种趋势,对于 LlaMa 系列模型,没有一个能够达到 60% 的准确率,即使是最简单的问题。
而当被要求判断聊天机器人的回答是准确还是不准确时,一小部分参与者有 10% 到 40% 的概率判断错误。
总之研究表明,随着 AI 模型的参数规模越大(就参数、训练数据和其他因素而言),它们给出错误答案的比例就越高。
研究人员称,解决这些问题最简单的方法是让大语言模型不那么急于回答一切。Hernández-Orallo 称:“可以设置一个阈值,当问题具有挑战性时,让聊天机器人说「不,我不知道」。”
但如果 AI 聊天机器人被限制为只回答它们知道的东西,可能会暴露技术的局限性。
热门榜单
Emo-阿里巴巴的AI视频生成框架
常用AI星火绘镜
常用AI快影
常用AI文心一言
常用AI美图设计室
常用AI通义万相
常用AICanva可画
常用AIAiPPT
常用AIRunway
常用AI热门资讯
金山WPS AI新功能新玩法首发测评:不含水分,中文版「GPT+Office」真的来了!
01-07GPTs教程_怎么自己做GPTs_GPTs部署安装
01-15怎么快速给模特换装_怎么用stable diffusion给模特换装
01-17一句话让小姐姐为我换了N套衣服,谷歌卷出视频生成新高度丨Lumiere AI使用体验分享
12-30AI写真生成器妙鸭相机免费体验版实测_仅需8张自拍
01-03Ideogram更新,AI可直接生成海报丨附最新使用教程
01-07字节跳动发布豆包视频生成模型,这效果让我分不清AI虚拟与现实的边界
12-25号外!华军AI产品榜重磅首发:8月国产AI文生视频工具大爆发
12-25有哪些好用的大模型_SDXL大模型测评
01-03美图WHEE怎么样_美图WHEE怎么进行AI绘画_美图WHEE测评如何_如何利用美图WHEE进行绘画
01-06