关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2733人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2000万美元重注强脑科技,三七互娱落子脑机接口新纪元

钛媒体APP 浏览 2411

比亚迪连续4个季度超越特斯拉

大象新闻 浏览 2675

官方确认:歼10CE在空战中击落多架战机

北京青年报 浏览 1607

60年首次4200万美国人"断粮" 特朗普:快打民主党电话

红星新闻 浏览 8464

带着理想出发:理想汽车携手易烊千玺为时代青年发声

三言科技 浏览 3326

特朗普:我说服了自己暂缓对伊朗采取军事行动

澎湃新闻 浏览 1560

单月首次突破6万台 极氪科技10月销量61636台

网易汽车 浏览 2021

辛纳2-0德米纳尔,12连胜对手晋级ATP500维也纳站决赛

懂球帝 浏览 2609

曾获专班支持的“座上宾”,如今被追要1.4亿元投资款!光伏龙头50亿元项目推进不利,收地方政府“听证通知书”

每日经济新闻 浏览 1811

新东方员工发文吐槽「加班成奴」,账号被秒封!公司回应;负债238亿拟花1.8亿炒股?乐视网:被误读;美光停止向消费者销售存储产品

雷峰网 浏览 2054

鸿蒙座舱 华为智驾 三腔空悬 岚图泰山18号将上市

沙雕小琳琳 浏览 2423

今年秋天最流行“卡其色穿搭”,谁穿谁好看!

LinkFashion 浏览 2721

E句话| 恭喜,他们生三娃了!

仙女事件簿 浏览 2549

圣米伦夺苏格兰联赛杯,进球队员赛后采访不慎爆粗后道歉

懂球帝 浏览 2015

周深:新年巡演审批通过,创下三大历史记录

陈意小可爱 浏览 1424

技术门槛很低的增程技术,为什么越卖越贵?

少数派报告Report 浏览 893

豪掷近5000万买豪宅,曾被马云看重的男人身家68亿

雷达财经 浏览 2507

18.68万起!新款小鹏G7/P7+增程版上市

网易汽车 浏览 1713

青海女官员于媛媛被"双开":生活奢靡 大搞权钱交易

鲁中晨报 浏览 8533

一家4口爬山祈福33岁妻子坠亡 丈夫最新回应质疑

都市快报橙柿互动 浏览 41089

从猛士速度到登峰行动:猛士进击智能越野新时代

天天汽车 浏览 1763
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1