关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者2485人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

热议中超:恶心国安放水,西海岸和英博值得尊重

懂球帝 浏览 2634

错过靳东,嫁给父亲看中的女婿,如今她怎么样了

楠楠自语 浏览 2145

媒体分析:特朗普宣称要"接管"委内瑞拉 有多大可行性

澎湃新闻 浏览 9132

男子花4万为父母升头等舱 手机遗失被安全员占为己有

鲁中晨报 浏览 2849

业主反映多户顶楼业主违规加盖房屋 持续多年无法拆除

红星新闻 浏览 6473

消息称三星Galaxy S27 Ultra将搭载更安全的Polar ID面部识别技术

IT之家 浏览 1395

韩鹏:很高兴能战胜争冠球队,全体球员的发挥都非常出色

懂球帝 浏览 2629

官方:麦克托米奈当选2025意大利足球盛典年度最佳球员

懂球帝 浏览 2111

泸天化“三合一”高管王斌因个人原因辞职,总经理傅利才暂代财务总监、董秘职务

红星资本局 浏览 762

智元精灵G2机器人正式发布,已获得数亿元订单

三言科技 浏览 2700

到底什么人还在买油车?终于我悟了

汽车公社 浏览 2206

热搜上消失的女明星,正在偷偷养鸡

Yuki女人故事 浏览 2786

三全食品:前瞻性布局即时零售业务 与淘宝、美团、京东等各大平台深化合作

证券时报 浏览 1336

短剧圈再添一枚190cm美男,尔冬升都夸他帅

喜欢历史的阿繁 浏览 1326

1-9月主流车企销量成绩单,比亚迪326万辆完成全年71%

分秒汽车 浏览 2787

小高领,现在穿刚刚好

Yuki女人故事 浏览 1430

赛季末巴黎频造新大师,这次小黑能一黑到底吗?

网球之家 浏览 2510

华为:HarmonyOS 5终端设备数量突破2000万台

大象新闻 浏览 3326

李在明送特朗普的金冠是镀金的 纯金太贵得花150万元

极目新闻 浏览 8046

聂远不让女儿雨天上学,黄磊女儿满口错别字,怪不得星二代要进圈

萌神木木 浏览 2161

张雨绮被抵制成功!辽视春晚已将她除名

萌神木木 浏览 1453
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1