爆点资讯

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO，试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题：如果不依赖预训练的视觉编码器，能否构建出与顶级模块化 VLM 相媲美的原生统一架构？

图丨相关论文（来源：arXiv）

在传统方法中，视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型，这些编码器虽然在视觉理解上表现出色，但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是，视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系，后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂，还需要大量的对齐数据来弥合两个模态之间的鸿沟。

高效训练新标杆！华人开源原生VLM-NEO，以少数据追平顶级模型

非法集资91...

天禧AI 3...

43岁贾玲退...

竟然人VS居...

何晴一生演遍...

俄总统新闻秘...

深圳1900亿央企换将，去年人均薪酬超51万

陈伟霆何穗官宣当爸妈！圈内仅5位明星送祝福，女方为爱放弃事业

执法过严？拓王之战首节裁判合计吹罚21次犯规并出现31次罚球

终于！短剧向经典IP出手了

张勇又回来了

欧盟官员：＂特普会＂是对欧盟外交地位的公开羞辱

车企研发：小米车门锁在某些看不见的地方省去了成本

一艘船多付620万美元美方尝到中方反制滋味后改限令

美可能供乌战斧导弹俄方：或成俄乌局势重大升级节点

特朗普：取消与普京在布达佩斯的会面

10月新势力销量爆发：零跑首破7万辆，小米稳超4万辆，理想猛跌38%

豆包手机助手宣布将部分调整AI操作能力

年底盈利即将兑现蔚来Q3财报公布

上海U20男足进全运8强，徐根宝：出线是第一位，成绩是硬道理

字节跳动:因组织调整离职的员工过渡补贴最高7.2万元

中国刚买完美国玉米特朗普就立马变脸摆了中方一道

卫报：曼苏尔和芬威集团的第三大股东曾成立一家联合投资公司

演绎日式豪华MPV 全新日产Elgrand新车图解

高市闯了大祸日方意识到大事不妙中国有权在日本驻军

取款被查流水银行涉嫌侵犯个人隐私

萝卜快跑计划将业务扩展至澳洲和东南亚

市场定位模糊！贝莱德基金本土化试水困局，主动权益产品边缘化

半个娱乐圈为肖战包场，《得闲谨制》票房走俏，侯鸿亮鞠躬致谢

谷歌推出开源全栈NPU新架构，旨在实现大模型在终端的低功耗运行