关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者795人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普证实:已授权中情局行动

澎湃新闻 浏览 946

媒体:不客气地说 荷兰是在全球面前抢劫中国企业

环球网资讯 浏览 6003

紫光集团原董事长赵伟国涉职务犯罪被送检

界面新闻 浏览 18909

4小时票房3165万,看完《沙丘2》我想说:好莱坞大片终于赢回一局

肥罗大电影 浏览 12096

春天最怕乱穿衣,掌握这些气质打扮技巧,50岁女人也美得轻松

静儿时尚达人 浏览 12586

挥洒汗水!河南女篮球员国子璇晒训练照

直播吧 浏览 14599

巨星传奇想摆脱“周杰伦依赖”

北京商报 浏览 681

秋季开学穿搭大合集 30套标准模板快收藏

巧百搭 浏览 15132

以色列对胡塞开展投弹量最大一次空袭

环球网资讯 浏览 1513

阿维塔上市、深蓝融资 长安两大自主板块剧变

道哥说车 浏览 282

普里戈任发表讲话:撤退是为避免俄罗斯人流血

界面新闻 浏览 18823

一夜翻盘,炫富网红蓝战非复活了

TVB的四小花 浏览 1061

国产首艘大型邮轮“爱达·魔都号”完成首航

上证报 浏览 12472

1-9月百万级豪车销量:奔驰3款入榜,奥迪出局,仰望U8苦苦支撑?

AGKC阿贵艺车 浏览 737

俄沃罗涅日州起火油储基地内两个油罐发生泄漏

环球网资讯 浏览 15501

卷不动了!多位车圈大佬喊话:卷价值,不卷价格

华夏时报 浏览 11209

早春放弃穿一身黑吧!建议穿这些“显白色”,奔四奔五都爱了

静儿时尚达人 浏览 11708

TangoZ否认性骚扰称已报警:空降的脏水 百口莫辩

网易娱乐 浏览 15252

新角色?詹姆斯复出后或成湖人老三 变身加强版追梦更利好紫金军

罗说NBA 浏览 825

外媒称中国正建设第四艘航母 国防部回应

财联社 浏览 1495

以军称已有87万巴勒斯坦人从加沙城撤离

环球网资讯 浏览 980
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1