关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11147人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

ELLE盛典红毯状况百出,有人摔倒、有人背手像逛大街,秒变菜市场

萌神木木 浏览 847

足球报:广西队将申办中甲开幕式,柏佳骏、叶重秋等有望加盟

懂球帝 浏览 12828

米体:尤文和米兰都有意金玟哉,但球员的高薪成为主要障碍

懂球帝 浏览 975

驯服动力电池这头怪兽 | 血色2023

汽车公社 浏览 12957

特朗普自首后被收押,已拍摄监狱大头照

观察者网 浏览 14456

国内存款利率再下调:3年5降 100万存3年利息少了近2万

第一财经资讯 浏览 89924

电动车的“36万辆奇点效应”

锦缎研究院 浏览 15673

雅斯特酒店回应房客发病送药不及时死亡:送药者未告知病情,隐私考虑未查看药品

封面新闻 浏览 368

比赛日前瞻:尤文力保主场晋级,巴萨剑指西超杯决赛

懂球帝 浏览 12812

空间升级/后排配腿托 豹8大五座版上市售37.98万起

网易汽车 浏览 882

文班亚马新赛季满血回归 马刺是最被低估球队?

体坛周报 浏览 856

张丹峰洪欣离婚后续:儿子改母姓 洪欣露面状态好

叶公子 浏览 18643

百度官宣“文心一言”云服务将于3月27日上线

Tech星球 浏览 19473

万达轴承:建设项目信披陷“罗生门” 已竣工背后转固金额现疑云

金证研 浏览 12485

薪资专家:火箭还能大洛和狄龙二选一 RJ:得大洛火箭能进季后赛

直播吧 浏览 15535

当整容脸混进央视司法剧,撞上天然脸演员,简直是降维打击!

肆季娱乐 浏览 10620

三战全胜,巴列卡诺主帅伊尼戈-佩雷斯当选西甲10月最佳教练

懂球帝 浏览 763

美国国防部长奥斯汀出院

界面新闻 浏览 12372

今冬高质感穿搭,很有气质!

Yuki女人故事 浏览 976

事关国家和你我,安全、安全还是安全!

牛弹琴 浏览 14600

宠物食品第一股靠贴牌赚钱,2000亿“毛孩经济”为何跑不出自主品牌?

钛媒体APP 浏览 14472
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1