关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2736人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

加拿大新外长就任后首次访华 外交部回应

新京报政事儿 浏览 7935

特斯拉涉嫌虚假宣传驾驶辅助,或被禁售30天

汽车公社 浏览 1814

特朗普称美将管理委直至安全过渡

新华社 浏览 1346

沙特官员向德黑兰承诺:不会向美军开放领空

红星新闻 浏览 7076

柳云龙:与初恋结婚,婚后生一女,如今咋样了?

人间无味啊 浏览 2786

曝杨威与儿子失联!杨阳洋父母情绪崩溃

有趣的胡侃 浏览 2373

再见了沈腾,再见了贾玲,再见了沙溢!活得好好的已经被大家怀念

阿雹娱乐 浏览 2194

郑智化发声道歉!坦言自己情绪上头用词不当

萌神木木 浏览 2534

看看这些穿搭就知道,秋季穿衣很简单,找对方法舒适又得体

静儿时尚达人 浏览 2459

泽连斯基称俄罗斯正为更大规模冲突做准备 俄方回应

红星新闻 浏览 3240

演员狗狗“大黄”领奖,主人称其是“专业演员”

韩小娱 浏览 2122

市民举报3600平违建存续8年 官方:违建人患病不能强拆

扬子晚报 浏览 18889

韩国称朝鲜有2吨高浓缩铀 中方回应

北京日报 浏览 3242

刘嘉玲好敢说!问柯淳不谈恋爱生理没需求么?柯淳回答堪称教科书

娱乐圈笔娱君 浏览 2423

抛弃糟糠之妻和6岁儿子,李成儒后悔吗

白面书誏 浏览 2569

豆瓣逆天9.6,世间再无如此大师云集的神作!

幕味儿 浏览 1839

上海AI实验室开源书生万亿科学大模型Intern-S1-Pro

IT之家 浏览 1283

连券商首席都被妈妈“科普”,商业航天太火了

财通社 浏览 1561

达伦-本特:切尔西应该签回弟媳,他看起来依然很出色

懂球帝 浏览 1928

刘嘉玲问刘晓庆:现在接戏的角色是否有限?

红星新闻 浏览 2791

俄"默许"朱拉尼相关提案 中国在联合国动用一票否决权

梁讯 浏览 13347
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1