关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元934人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

小S两女打扮性感为大女庆生!12岁妹妹穿露肩装,热吻擦边博流量

文艺圈娱乐号 浏览 13005

专家:美方受到来自北京的迎面正击 特朗普真没招了

澎湃新闻 浏览 1004

浙大团队突破:AI实现多人脸精准生成

科技行者 浏览 902

多地房贷利率跟随LPR下调,处于近年低点

每日经济新闻 浏览 15625

四轮干不过两轮,谁偷走了电动车的利润?

汽车公社 浏览 12708

卫龙"缺斤短两"?消费者称遭背刺 创始人身价缩水超百亿

雷达财经 浏览 10956

抽签出炉!樊振东进死亡半区,与美女球手一起唱歌,孙颖莎当听众

黑色柳丁 浏览 12310

比亚迪元PLUS迎来史诗级升级,续航或超650km!

刘哥谈体育 浏览 644

也门胡塞武装称美英空袭荷台达省港口

界面新闻 浏览 12171

女护士被同居男友杀害 家属:放弃赔偿希望判男方死刑

纵览新闻 浏览 11442

特朗普与普京长时间通话 “会晤”与“战斧”成话题

极目新闻 浏览 912

俞飞鸿会穿搭,还会“凹”造型

猴娱儿 浏览 19862

赵安吉坠塘前曾向好友求助 急救人员做43分钟心肺复苏

封面新闻 浏览 69842

在深圳山中野居十多年的男子回到老家:不知父亲已离世

极目新闻 浏览 77268

惊艳世界的东方美,一直很时髦!

LinkFashion 浏览 13467

胡昌升当选黑龙江省长胡昌升个人资料介绍

趣看热点 浏览 116978

特朗普称可能将军事行动扩大到墨西哥和哥伦比亚

大象新闻 浏览 37

西甲:皇家贝蒂斯2比0奥萨苏纳

体坛周报 浏览 1425

奥尼尔:大家搞得都没见过文班这种球员一样 波尔-波尔就是

直播吧 浏览 13409

中超-阿齐兹戴帽阿奇姆彭破门+伤退 三镇3-1送深圳四连败

直播吧 浏览 15496

首艘美国船被罚之际 特朗普调2艘航母部署中国周边

现代小青青慕慕 浏览 4444
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1