关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2499人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

刚刚!利好,直线暴涨!

中国基金报 浏览 1441

金融文化实践录丨深耕特区发展沃土 厚植金融文化根基

证券市场周刊 浏览 2475

这一天,35岁李沁秒了28岁陈哲远,才知李少红当年的眼光有多绝

温柔娱公子 浏览 2729

亏损超10.6亿,中美观众差评出奇一致,好莱坞年度票房惨案来了

靠谱电影君 浏览 2677

“美好”新国际!齐沃战胜师父,蓝黑登顶意甲

体坛周报 浏览 2704

打服了!记者:当时觉得凯恩太贵不值当,现在我愿为他铺毛巾

直播吧 浏览 3403

特朗普要求日本停止进口俄罗斯能源 高市早苗当面拒绝

鲁中晨报 浏览 8588

利昂-贝利替补出场20分钟后被换下,赛季未过半已经受伤三次

懂球帝 浏览 1911

热爱正当时,新晋蛙后唐钱婷的双面人生

时尚COSMO 浏览 1771

最火的赛道,独角兽撑不下去了?

中国新闻周刊 浏览 1831

397场,凯尔-沃克追平英超历史边后卫首发次数纪录

懂球帝 浏览 2606

老牌公募中邮基金换帅 张涛接替毕劲松面临权益短板挑战

Daily每日财报 浏览 1927

全运科技盛宴11月7日天河启幕

环球网资讯 浏览 2545

乔治亚理工和微软团队重磅推出:让AI推理更聪明的"思维开关"技术

科技行者 浏览 2564

伊朗船只逼近美航母 美连开数炮全打空

每日经济新闻 浏览 463

佩斯科夫:"海燕"巡航导弹试验不应影响俄美互动

国际在线 浏览 2555

现在穿v领毛衣,刚好

Yuki女人故事 浏览 2178

阿卡进四强上轮电子设备没收却再惹争议,生产商:这又不是类固醇

网球之家 浏览 1399

《许我耀眼》很爽,但要小心

时尚COSMO 浏览 2810

今年最狠悬疑剧,好人为何集体沉沦?

仙女事件簿 浏览 2662

亲善大使!大加转发阿贾当选MVP内容:4xMVP 继续创造历史吧!

直播吧 浏览 2898
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1