关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者2481人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国因格陵兰岛问题对欧洲8国加关税 多国反击特朗普

环球网资讯 浏览 5790

白敬亭带着无限流杀回来了,这剧真的很好看!

伊周潮流 浏览 3584

老鹰124-112魔术豪取10连胜,沃克41分,杰伦约翰逊三双,班凯罗13中3

懂球帝 浏览 499

阿里正把自己装进赛博分身

虎嗅APP 浏览 1528

星海T5预售解析:10万级全场景SUV务实主义答卷

众车网 浏览 1927

苹果发布iPhone 17e:起售价4499元,支持实体+eSIM卡组合

澎湃新闻 浏览 776

谢孟伟拘留期满被释放,连发两条视频召集粉丝

娱慧 浏览 3126

中国人均负债14万!央妈发“信用修复丸”年轻人满意吗?

花朵财经 浏览 1888

国家禁止亏本卖车,价格战就能不打了?

汽车公社 浏览 1826

外媒:中法元首会谈议题十分广泛 似乎找到更多共识

环球网资讯 浏览 35215

玩换电,推增程,埃安到底要干什么

汽车公社 浏览 2318

普通人穿衣不需要太复杂!颜色恰当、搭配和谐,高级又耐看

静儿时尚达人 浏览 741

速览!假期这些大事影响节后市场

Wind万得 浏览 936

《玉茗茶骨》张慧雯啊,是最可惜的谋女郎

温柔娱公子 浏览 1598

17年的双十一底层逻辑变了?“小时达”来了,AI帮你选品

时代周报 浏览 2401

泰柬新一轮边境冲突持续一周 数十万人逃离家园

北青网-北京青年报 浏览 1923

汪小菲又幸福了!和马筱梅搂腰拥抱好缠绵

疯说时尚 浏览 2617

小鹏汽车出海新动态:小鹏 MONA 正式发往中东非

IT之家 浏览 2468

比亚迪元PLUS高功率版曝光 电机功率增至230千瓦

网易汽车 浏览 2818

‍2025年4部新片亏8亿,古天乐终于拿出这部大片

靠谱电影君 浏览 2677

球迷态度:CBA第一阶段结束,你对你的主队表现满意吗?

懂球帝 浏览 1363
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1