关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2490人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

凑齐“56789”!问界独占鸿蒙智行7成销量,“5界”如何共扛百万辆目标?

时代周报 浏览 1380

美客机万米高空风挡玻璃破裂 资深机长:或为陨石撞击

红星新闻 浏览 7436

一家三口被撞身亡案将宣判 家属悔恨当天喊他们来吃饭

极目新闻 浏览 12246

“玻璃大王”曹德旺提前退休,儿子曹晖接班后福耀帝国走向何方?

尺度商业 浏览 2678

中国海警:菲方侵闯中国领海 故意冲撞中国海警船

央视新闻客户端 浏览 3405

斯瓦泰克罕见两连败吞蛋落泪,波兰险胜瑞士夺得联合杯冠军

网球之家 浏览 1629

美国同意提供安全保障 美乌“和平计划”将提交俄方

环球网资讯 浏览 1944

全尺寸货运版eVTOL样机已总装下线,「蓝霄航空」完成新一轮数千万元融资,年内累计融资近亿元|36氪首发

36氪 浏览 2727

高市早苗4天上3次新闻联播:玩火者必自焚

看看新闻Knews 浏览 44897

美联储主席鲍威尔回应遭刑事调查:将继续履行职责

国际金融报 浏览 1606

事关市值4700多亿元大牛股 两位首席深夜互怼"抢地盘"

每日经济新闻 浏览 18712

《余生有涯》张彬彬身材引关注,体型差异成焦点

麦芽是个小趴菜 浏览 2787

蚂蚁集团开发的超级机器人大脑:让机器人像人一样学会做任何事

科技行者 浏览 1407

Thinking Machines人事风波全复盘:冲刺500亿美元估值添变数

DeepTech深科技 浏览 1495

《新闻女王2》首播爆开!开局高能剧情紧凑,黄宗泽演技拖后腿

萌神木木 浏览 2371

《逐玉》出圈理由:刘琳的演技,张凌赫的脸

娱乐圈笔娱君 浏览 627

vivo S50外观揭晓!全新告白配色:田曦薇同款

快科技 浏览 2062

一文读懂索提诺比率(附索提诺比率选出的牛基--普通股票型)

一地基毛 浏览 2588

琼瑶女神摘下假牙,撕碎的是流量滤镜

大龄女一晓彤 浏览 2789

降温了!羽绒服这样穿显瘦又时髦

LinkFashion 浏览 1434

著名音乐人何厚华英年早逝:终生未婚

历来纵横 浏览 3196
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1