关闭广告

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

科技行者609人阅读


你有没有试过这样的体验:跟朋友聊天时,你想让他看看照片里的某个东西,但又不知道怎么准确描述它的位置?你可能会说"就是那个红色的杯子",朋友却问"哪个红色杯子?"这种沟通障碍在人工智能领域同样存在,而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队,最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上,论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"(arXiv:2510.01954v1),感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解:当你问AI"这张照片里有什么?"时,传统AI只能告诉你"有一只猫、一个杯子、一张桌子",但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是,当你要求AI找到"桌子上那个蓝色杯子"时,它往往会给出一串看起来很专业但实际上并不准确的数字坐标,比如"[245, 156, 378, 298]",普通人根本无法理解这些数字代表什么。

<
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

历史性突破!中国车市年产销首破3000万,自主品牌销量超合资,新能源狂卖886万辆

车东西 浏览 12619

奥迪A6L e-tron四驱版公布 双电机爆发405 kW

网易汽车 浏览 1062

科尔:我们有高潮有低谷 但你知道库汤追的能力&我相信他们

直播吧 浏览 12491

一年前“掐点”成立 多只基金无缘“翻倍基”

证券时报 浏览 1421

韩国人终于把自己的“国运”给彻底玩没了

浏览 23113

中国电商霸榜西班牙,阿里Miravia、Shein、速卖通成购物APP前三

网易科技报道 浏览 19607

百亿龙头股董事长获刑,已上诉!IPO关键期行贿官员,过程曝光

深蓝财经 浏览 611

李一桐穿流苏飞袖连衣裙 造型清冷优雅

王鱼鱼爱扒娱乐 浏览 19569

又爆了一部新片,他今年太火了

独立鱼 浏览 1481

街边大排档,涌进商场做“漂亮饭”

餐饮老板内参 浏览 1531

慕安会召开前特朗普提"北约过时" 欧洲盟友"心情复杂"

新民晚报 浏览 80565

中企在非洲因环境问题引争议 遭800亿美元天价索赔

澎湃新闻 浏览 37292

港股科网类产品强势吸金,港股通互联网ETF本周规模增超72亿元,年内增幅超325% | ETF规模周报

每经牛眼 浏览 1576

腾讯首次系统披露研发进展:AI生成50%新增代码,研发自动化水平同比提升67%

华尔街见闻官方 浏览 854

福建舰最新画面播出 甲板出现舰载机有深层意义

环球网资讯 浏览 13091

一周AI大事:谷歌Gemini学会“接管”你的电脑、马斯克机器人被手卡住了

网易科技报道 浏览 1041

向佐郭碧婷女儿正脸照首曝光向太抱着孙女几乎不离手

趣看热点 浏览 26726

刘荷娜晒林志颖合照 笑容灿烂梦回《放羊的星星》

网易娱乐 浏览 19947

想回款先送钱!医院反腐深入财务科

环球网资讯 浏览 14642

TA:诺丁汉森林不会因对阵曼联存在角球误判向裁判机构上诉

懂球帝 浏览 766

分羹法拍房!富滇银行落地首笔“法拍贷”,曝五部门全程配合

密探财经 浏览 1457
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1