关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者612人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

23岁女教师工作3个月轻生 校方否认不让家属看监控

红星新闻 浏览 80955

台湾一古宅所有正房大门都向着大陆 原因让人动容

都市快报橙柿互动 浏览 6726

美舰过航台湾海峡 解放军全程跟踪监视

东部战区 浏览 11981

坏了,看到剧本杀鼻祖了!

时尚COSMO 浏览 681

和不扫兴的人在一起多重要?看完花少7后,精神状态都被治愈了

娱乐圈笔娱君 浏览 990

被广州街拍女生惊艳了!衣装宽松、鞋穿平底,看似简约却随性高级

潮人志Fashion 浏览 13482

官员大搞"期权腐败":在任办事不收钱 退休后找人兑付

中央纪委国家监委网站 浏览 86111

夏日多巴胺演出现场,年轻人喜欢看的我们都有!

网易娱乐 浏览 16429

播放破1.6亿!我断言:“反腐剧”拍成这样,观众不会骂娘

皮皮电影 浏览 12131

智己LS9开启预售,33.69万元起颠覆大六座市场

林林Go 浏览 661

3年亏8亿?呷哺创始人回应;茅台1935暂停发货;网络水军付费冲热搜,16个企业品牌被处置丨大公司动态

第一财经资讯 浏览 10838

春晚重播,把她推上巅峰

她刊 浏览 13267

高市早苗被喊话:向中国道歉并且辞职

环球时报新闻 浏览 43113

记住三组搭配公式 时尚真的很简单

Yuki时尚酱 浏览 16948

遭天风证券"并表"终止后 恒泰证券财富管理中层"组团"离职

界面新闻 浏览 12523

巴西发起最致命反毒行动:致121人死亡 头号头目逃脱

红星新闻 浏览 7159

轻松好驾驭还自带贵气的 Tenniscore 穿搭

时装LOFFICIEL杂志 浏览 17321

特朗普自己亲口承认 中国送来的反制清单让他失去理智

头条爆料007 浏览 6625

苗圩:保障安全的前提下,科学有序推进人工智能技术落地

红星资本局 浏览 1006

马尔代夫:印度军事人员3月15日前须撤出

央视新闻客户端 浏览 12831

Apple Intelligence助推 苹果将下一代芯片的订单增加

威锋网 浏览 11068
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1