当前位置: 首页 > article >正文

胤娲科技:00后揭秘——AI大模型的可靠性迷局

d6709245624fb4996df8d857b84c5485.jpeg

当智能不再“靠谱”,我们该何去何从?


想象一下,你向最新的GPT模型提问:“9.9和9.11哪个大?”这本应是个小菜一碟的问题,却足以让不少高科技的“大脑”陷入沉思,


甚至给出令人啼笑皆非的答案。近日,一篇由00后国人学者周乐鑫撰写的论文在国际顶尖科学期刊《Nature》上发表,


b449c130577b4564ecff58d34e4cd1bd.jpeg


犹如一颗石子投入平静的湖面,激起了层层涟漪。论文直指一个令人惊愕的发现:那些更大、更“听话”的大模型,在某些情况下,反而变得愈发不可靠了。


0ca38fc8325ef2d6f068aa356328c03b.jpeg


GPT-4在某些回答上的可靠性,竟然还不如它的前辈GPT-3!这一结论迅速在网络上发酵,20多万网友纷纷围观讨论,Reddit论坛上也是议论纷纷。这不禁让人疑惑:我们追求的智能之路,究竟通向何方?


难度迷雾:智能与预期的错位


在探索智能模型的可靠性时,论文首先揭示了一个令人困惑的现象:随着任务难度的增加,模型的正确率显著下滑,这本在意料之中。


04532aeba78bc25a0f5317ab79e0d324.jpeg


然而,令人惊讶的是,这些模型在解决一些极其简单的任务时,也同样力不从心。就像是让一个数学博士去解一道小学生的算术题,结果却错得离谱。


GPT-4与其前身相比,虽然在高难度任务上有所提升,但在简单任务上的表现并未明显改善。这种与人类预期的不一致,


7b1af2c5b21c332705ad49ce9eb98147.jpeg


让智能模型的安全操作空间变得模糊不清,让人不禁反思:我们真的能够信任这些前沿的机器智能吗?


任务回避:智能的“勇敢”与“愚蠢”


与早期的模型相比,最新的大模型似乎变得更加“勇敢”,它们不再像过去那样谨慎地回避超出能力范围的任务,而是更多地给出了错误或荒谬的答案。


70c3d414b0e701fa36facd45d41ac762.jpeg


这种“勇敢”的行为,在一些基准测试中,甚至导致了错误率的急剧上升,远超准确率的提升速度。这就像是一个初学者,明明不懂却硬要装懂,最终只会让人失望。


人类在面对困难任务时,往往会选择含糊其辞,但智能模型却似乎并不懂得这一“智慧”。


fed441aa458786ea334e52c634dc9f43.jpeg


这种不一致的规避行为,让用户对模型的依赖大打折扣,不得不亲自上阵验证输出的准确性。


d2fe202f824c06e284e7207941cc79ef.jpeg


提示敏感:智能的“玻璃心”


除了难度和任务回避,智能模型还对问题的表述方式异常敏感。同样的问题,换一种说法,就可能导致截然不同的准确性。


1662f51f4b8e68c161fb5c1d7d68ec46.jpeg


就像是一个敏感的孩子,对每一个细微的变化都反应强烈。论文发现,即使一些可靠性指标有所改善,模型仍然对同一问题的微小表述变化感到“困惑”。


这种对提示语的敏感性,使得人类在使用智能模型时,不得不小心翼翼地选择问题的表述方式,以确保得到准确的答案。


9119f5d5680faa2f99792b6038115139.jpeg


然而,即使是最优的表述格式,也可能只对高难度任务有效,而对低难度任务则可能适得其反。


智能之路,任重而道远


周乐鑫的这篇论文,无疑为我们敲响了警钟:在追求智能的道路上,我们不能仅仅关注模型在困难任务上的表现,而忽视了其在简单任务中的可靠性。


智能模型的不可靠性,不仅是一个技术问题,更是一个关乎人类信任与安全的重大问题。正如周乐鑫所说,


c56098767ede97a048124387667f89d3.jpeg


通用人工智能的设计和开发需要进行根本性转变,特别是在高风险领域,因为可预测的错误分布至关重要。


66aff9efa15293de60c13166d2b4eae6.jpeg


在未来的智能时代,我们需要更加谨慎地评估模型的能力和风险,不仅仅要关注其“聪明”的一面,更要警惕其“愚蠢”的一面。


d4d9a48620d516a6607efb9cfa731176.jpeg


或许,这正是智能发展的必经之路:在不断试错与修正中,我们终将找到那条通往真正智能的道路。而在这条道路上,人类的智慧与监督,将始终是不可或缺的力量。


14422dab0344e234ae57bee90799351d.jpeg


http://www.kler.cn/news/342098.html

相关文章:

  • Could not get JDBC Connection: wait millis 10000, active 500
  • 数字化AI新赋能,智享AI直播:开启一个全新的直播时代!
  • WPS的JS宏实现删除某级标题下的所有内容
  • 【大模型理论篇】精简循环序列模型(minGRU/minLSTM)性能堪比Transformer以及对循环神经网络的回顾
  • tp6的系统是如何上架的
  • Facebook直播分析与问题解决策略
  • 什么是「杀猪盘」?怎样能有效防范杀猪盘诈骗?
  • 带你深入浅出设计模式:十一、组合实体模式:软件世界的乐高积木
  • 日语学习零基础生活日语口语柯桥外语学校|股票用日语怎么说?
  • threejs-基础材质设置
  • 软件项目开发流程与团队分工整体认知——基于《信息系统项目管理师教程》(需求分析、系统设计、开发、测试、部署与运维、开发工具与管理软件)
  • 【C++篇】虚境探微:多态的流动诗篇,解锁动态的艺术密码
  • leetcode---素数,最小质因子,最大公约数
  • 回归分析在数据挖掘中的应用简析
  • x86 架构下一些常用的汇编指令英文全称与功能简述
  • 商标恶意维权形式及应对策略
  • nn.Identity()
  • 噪声分布 双峰,模拟函数 或者模拟方法 python人工智能 深度神经网络
  • 量化交易四大邪术终章:春梦了无痕
  • 239. 滑动窗口最大值