关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者2562人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

科技感爆棚 大众ID. ERA 9X内饰官图发布

车质网 浏览 768

一句话点评9月纯电车型:小米YU7反超SU7,下一步追赶Model Y?

汽车公社 浏览 2732

奇才129-126逆转雄鹿,麦科勒姆28分,KPJ空砍30分

懂球帝 浏览 2194

新势力比传统车企更乐观,2026年车市充斥着哪些挑战?

汽车头条APP 浏览 1425

销量五年连跌,转型未起色,为何日系车最“困难”的是本田?

汽扯扒谈 浏览 1659

秋季穿衣别太老气横秋,看看这27套造型,时尚舒适又显高

静儿时尚达人 浏览 2464

为什么你越保养,皮肤反而越没光?

时尚COSMO 浏览 2250

两女生称花90多元入住成都民宿 在空调管道发现摄像头

极目新闻 浏览 105051

不满国安糟糕战绩,工体北看台球迷连唱三首歌表达抗议

懂球帝 浏览 2559

小鹏汽车出海新动态:小鹏 MONA 正式发往中东非

IT之家 浏览 2469

澳方称中方军机在南海对澳军机释放干扰弹 外交部回应

澎湃新闻 浏览 2717

腾势D9将迎来第30万辆交付

大象新闻 浏览 2108

中戏否认闫学晶儿子读新疆班,曾参加全国统一考试,网传消息不实

扒虾侃娱 浏览 1613

外观有调整 新款起亚狮铂拓界实车曝光

车质网 浏览 2787

短剧男主遇上长剧男主,谁是天然帅哥谁是滤镜美男,差距一目了然

娱乐圈笔娱君 浏览 2170

顶楼住户拆除楼板升高数米加盖 一楼出现从上到下裂缝

大风新闻 浏览 12303

鲁比奥称对巴拿马涉港口裁决感到振奋 外交部回应

北京日报 浏览 93426

从北京到平壤的火车线路被指将于周四开通 外交部回应

外交部网站 浏览 30910

变阵冲决赛!U23国足VS越南首发:狂换6人 向余望先发王钰栋替补

我爱英超 浏览 1601

佩德里:我们没参与抗议,开场也静默15秒是出于对同行的尊重

懂球帝 浏览 2771

运营商 AT&T“人人免费得 iPhone 16 Pro”广告被裁定为虚假宣传

IT之家 浏览 2394
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1