关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者782人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

赵露思新剧开播,直接拿下热播榜第一,硬刚资本的小花又站起来了

最爱酷影视 浏览 1478

色彩凝聚笔尖,描绘双唇明眸之美

时尚COSMO 浏览 739

手感冰凉!德罗赞19中5得到19分4板4助

直播吧 浏览 12517

俄罗斯一城市首次遭到无人机袭击 佩斯科夫证实

枢密院十号 浏览 89466

广东中山一技校倒闭 当地人社局:第一次遇到这种事

每日经济新闻 浏览 92526

“麂皮包”越来越流行,秋冬怎么搭都好看

LinkFashion 浏览 661

苹果 Vision Pro 头显媒体评论解禁:单绑带戴20分钟“感到疼痛”

IT之家 浏览 12336

普京提议在乌境内建"安全区"阻止乌炮兵火力打击

环球网资讯 浏览 16236

为新能源再投10亿,苹果为何还不造车?

BT财经 浏览 945

东风日产探陆最新消息,将于1月18日预售

天天汽车 浏览 12842

雪花丨诗一首

正经社 浏览 798

奥特曼无罪重返董事会!OpenAI内讧真相大白,调查结果公开

量子位 浏览 12433

科比去世一周年,欧文穿8号球衣纪念偶像

趣看热点 浏览 25466

张雪峰还是不服?

老斯基财经 浏览 816

郭富城三胎得女,四大天王未能迎来首个男孩,压力又给到郭富城了

扒虾侃娱 浏览 822

2023中国汽车出海德国:整体份额 2% 长城增长明显

电动车指北 浏览 13084

美日韩签联合声明 用"最强硬措辞"谈及南海问题

环球网资讯 浏览 14136

股价连跌6天,但泡泡玛特却在全球狂飙!

正解局 浏览 802

大S向柴智屏表明离婚意向,妈妈称大S说的是气话

趣看热点 浏览 27939

天越冷社交欲望越低,是我的问题吗?

时尚COSMO 浏览 325

米兰冬奥中国体育代表团领奖装备亮相,藏着李宁的奥运“双胜”叙事

时代周报 浏览 809
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1