关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2492人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普急于将爱泼斯坦案翻篇 仍有250万页文件未公布

极目新闻 浏览 94669

户外品牌除了炸山就没有出路了吗?

诗与星空 浏览 2625

出道十年,宋威龙终于有了花香

时尚COSMO 浏览 1314

闫学晶"哭穷"引争议被禁止关注 知名品牌终止其代言

极目新闻 浏览 6375

紫牛头条|“龙虾”控制微信发红包传言是玩笑,全民养“虾”让不少网友产生“AI焦虑”

扬子晚报 浏览 685

Here we go!罗马诺:曼城中场菲利普斯租借加盟谢菲尔德联

懂球帝 浏览 1341

鲁比奥宣布任命新任美"西藏特别事务协调员" 中方回应

扬子晚报 浏览 37291

爆火的“表演饭”,开始被年轻人避雷

餐饮老板内参 浏览 2345

MiniMax把自家“实习生”放出来了!

量子位 浏览 1580

视频:单日发射数百架 俄乌无人机互袭更趋激烈

环球网资讯 浏览 1653

佩斯科夫:"海燕"巡航导弹试验不应影响俄美互动

国际在线 浏览 2546

毛衣+衬衫、夹克+裙子,今年秋天最流行的4组搭配,时髦又减龄!

LinkFashion 浏览 2257

出行场景升级/还支持餐厅排队 方程豹钛7推送第二次OTA

网易汽车 浏览 1615

史上最强财报背后,苹果仍差临门一脚

虎嗅APP 浏览 2488

中行风险总监卸任,薪酬曾超131万元

华美财经 浏览 1667

美媒:美对伊朗行动选项"远超传统空袭"

新华社 浏览 1548

油价大跌5%,这一轮石油危机是否已经告一段落?

郭施亮 浏览 457

52岁颜丙燕官宣恋情!小20岁男友被拍

青梅侃史啊 浏览 2779

五月天力捧台独艺人惹争议!

萌神木木 浏览 2642

提升科技股估值容忍度 掘金AI“从1到10”爆发机遇

证券时报 浏览 3356

黄宗泽哭着拿双料视帝,10次提名终于熬出头

手工制作阿歼 浏览 1690
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1