关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元948人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

E句话| 恭喜,他们生三娃了!

仙女事件簿 浏览 867

17岁日乒一姐状态堪忧:亚锦赛再败苦主 近五战最远8强各种被逆转

颜小白的篮球梦 浏览 1059

外媒:越南在侵占的南海岛礁上建起对海空防御系统

环球军事时报 浏览 26911

真离了?日媒曝福原爱和年轻帅哥约会照 疑似出轨

网易娱乐 浏览 26239

黄宗泽恭喜陈伟霆当爸,怼记者别太八卦

扒虾侃娱 浏览 938

浙江为7名省管干部集中开澄清会 涉及隐私未公开详情

中国新闻周刊 浏览 91374

剑南春|国米2-1客胜维罗纳,泽林斯基破门,皮奥造乌龙绝杀

懂球帝 浏览 700

男子在火车上被杀 家属:嫌犯逃离未果 返回补了几刀

封面新闻 浏览 113701

全力向上!重庆铜梁龙赛季最后一个主场将展示全场拼图TIFO

懂球帝 浏览 853

中国灵芝第一股寿仙谷,致敬保健产业30年

证券市场周刊 浏览 1653

浙江:确保2024年全省固定资产投资增长6%左右

经济观察报 浏览 12227

控股股东拟出让超1亿股!川股德龙汇能筹划控制权变更 今年股价涨幅近60%

红星资本局 浏览 806

购置税从“免征”到“减半”,新能源车企将迎来一场考验!

百姓评车 浏览 987

恰20:今天我们运气不错,我们要努力达到我们应得的位置

懂球帝 浏览 725

虞书欣方否认与吴建豪恋情:不再陷入自证危机

网易娱乐 浏览 16926

葡媒:C罗、鲁本-内维斯和奥塔维奥将缺席葡萄牙与爱尔兰友谊赛

直播吧 浏览 11273

纽约时装周:美+好穿,不可错过的4大趋势

LinkFashion 浏览 2121

台媒:赖清德向美国表忠心 其作为或连美国人都不接受

直新闻 浏览 121382

模速为核 智领未来——徐汇人工智能产业的蝶变之路|“十四五”答卷

上观新闻 浏览 265

这些日本主妇真有品位,穿裙不露膝盖、不配丝袜,优雅到骨子里

潮人志Fashion 浏览 12925

采用全新设计语言,东风风神皓瀚PHEV申报图曝光

天天汽车 浏览 12330
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1