关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2732人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

两位民营企业家登上人民大会堂主席台

一见财经 浏览 625

委内瑞拉内政部长称美国袭击造成100人死亡

新京报 浏览 1334

海南华铁“失算”疑云:36.9亿元“三无”合约终止,阿里云前高管参与,“牛散”结伴进退

证券时报e公司 浏览 2728

中国观众认定的烂片,北美观众当成宝,首周末破4.3亿夺全球冠军

靠谱电影君 浏览 2780

郭富城夫妇合体看赛马,透露三胎预产期

疯说时尚 浏览 2679

多国欢迎加沙停火协议生效 呼吁尽快结束人道主义危机

上观新闻 浏览 2781

3D唇妆风好大,人类对唇线笔的开发不足1%

时尚COSMO 浏览 2178

知名女演员突发声明!剧方道歉:已开除涉事人员

乡野小珥 浏览 1421

郑钦文晒照新教练技改,外媒称其剑指法网阳光双赛成绩是合作关键

网球之家 浏览 741

比卢普斯律师声明:他是个正直的人,不会用自己的名誉冒险

懂球帝 浏览 2590

欧洲8国集体反击特朗普 英国首相:将与美国政府交涉

极目新闻 浏览 5752

郝蕾跟辛芷蕾杠上了?

大龄女一晓彤 浏览 2360

泽连斯基:乌美就领土问题讨论6.5小时

每日经济新闻 浏览 2087

伊姐周日热推:电视剧《生命树》;电视剧《风过留痕》......

伊周潮流 浏览 1400

达成停火18天后战火再起 以总理下令袭击加沙

国际在线 浏览 2547

在场-40遭20岁超星碾压:33岁奥迪14中5吞惨烈一战 重返NBA搁浅?

颜小白的篮球梦 浏览 2727

女子乘二等座买到"单人座":空间较宽敞 旁边能放行李

极目新闻 浏览 6049

38岁的陈晓让整个娱乐圈“沉默”了?

包饺子ai剪辑 浏览 2313

十年前的百度,聚拢了硅谷最杰出的天才,每个都比姚顺雨耀眼……

字母榜 浏览 1404

柬泰本轮冲突烈度远超以往 中国特使穿梭调停

环球网资讯 浏览 1916

47岁刘烨老来俏,让儿子诺一尴尬了?

草莓解说体育 浏览 2078
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1