关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技2701人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

终于!短剧向经典IP出手了

艳姐的搞笑视频 浏览 2694

张勇又回来了

中国企业家杂志 浏览 1612

欧盟官员:"特普会"是对欧盟外交地位的公开羞辱

澎湃新闻 浏览 7882

车企研发:小米车门锁在某些看不见的地方省去了成本

第一财经 浏览 6909

一艘船多付620万美元 美方尝到中方反制滋味后改限令

梁讯 浏览 6382

美可能供乌战斧导弹 俄方:或成俄乌局势重大升级节点

财联社 浏览 2753

特朗普:取消与普京在布达佩斯的会面

央视新闻客户端 浏览 2261

10月新势力销量爆发:零跑首破7万辆,小米稳超4万辆,理想猛跌38%

21世纪经济报道 浏览 2457

豆包手机助手宣布将部分调整AI操作能力

中新经纬 浏览 2017

年底盈利即将兑现 蔚来Q3财报公布

网易汽车 浏览 2122

上海U20男足进全运8强,徐根宝:出线是第一位,成绩是硬道理

懂球帝 浏览 2511

字节跳动:因组织调整离职的员工 过渡补贴最高7.2万元

澎湃新闻 浏览 2814

中国刚买完美国玉米特朗普就立马变脸 摆了中方一道

策略述 浏览 7329

卫报:曼苏尔和芬威集团的第三大股东曾成立一家联合投资公司

懂球帝 浏览 2432

演绎日式豪华MPV 全新日产Elgrand新车图解

车质网 浏览 2089

高市闯了大祸日方意识到大事不妙 中国有权在日本驻军

时时有聊 浏览 33775

取款被查流水 银行涉嫌侵犯个人隐私

南方都市报 浏览 2324

萝卜快跑计划将业务扩展至澳洲和东南亚

盖世汽车 浏览 3320

市场定位模糊!贝莱德基金本土化试水困局,主动权益产品边缘化

新经济e线 浏览 1460

半个娱乐圈为肖战包场,《得闲谨制》票房走俏,侯鸿亮鞠躬致谢

娱乐圈笔娱君 浏览 2079

谷歌推出开源全栈NPU新架构,旨在实现大模型在终端的低功耗运行

DeepTech深科技 浏览 2684
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1