关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者619人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊姐周六热推:电视剧《不眠日》;电视剧《照镜辞》......

伊周潮流 浏览 2027

"拉面哥"谈遭网暴:曾想过自杀 但觉得有点不负责任

新民晚报 浏览 93561

瓜帅:赢得欧冠是一种解脱 参加欧超杯不容易&塞维是常客

直播吧 浏览 14511

《甄嬛传》女星扯下明星遮羞布!曝男女明星拍戏前基本都去医美

文艺圈娱乐号 浏览 12977

AI眼镜,大厂第一战

脑极体 浏览 297

河北女子每天通勤5小时到北京上班:坚持了3年 月薪近4万

潇湘晨报 浏览 104179

美媒承认乌重镇即将被攻克:俄方为此付出了很大代价

环球时报国际 浏览 5358

关掉1000家门店!通用汽车通过收购将别克品牌经销网络削减一半

网易科技报道 浏览 12651

买羽绒服,别老盯着波司登!这6个宝藏国货品牌,不坑中国人

潮人志Fashion 浏览 14708

媒体:选前两天 美智库警告赖清德恐让美国陷入危险

直新闻 浏览 76080

8月24日,世界干了一件大事!

牛弹琴 浏览 14683

迪丽热巴“扛剧女王”人设崩塌?

孟一宜 浏览 346

外媒:以色列总理恢复加兰特国防部长职务

海外网 浏览 19392

30万分手费vs3000万求婚钻戒:一个前妻的修养

Yuki女人故事 浏览 189

在掘金与开拓者的天王山之战中,利拉德爆砍55分

趣看热点 浏览 25794

了解今年早春的3个流行趋势,真是好看不挑人,再不怕显土了

静儿时尚达人 浏览 11605

掘金无缘登顶西部:约基奇9中8砍27+11+6里程悲 超越詹皇改写历史

厝边人侃体育 浏览 12917

你帮科尔挡过子弹?约瑟夫15分钟0分0板2助1失误

直播吧 浏览 12876

讴歌全新轿车专利商标注册!外观酷似TLX/明年发布

网上车市 浏览 20363

调离后"消失"2年多的宁夏"老虎"被公诉 细节首次披露

政知新媒体 浏览 78346

美国一核电站发生核废水泄漏事故 官方4个月后才通报

新京报 浏览 115289
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1