关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2913人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

粉色涂装 雷克萨斯Glam LX概念车发布

车质网 浏览 2848

联合国官员:加沙惨状如末日电影

上观新闻 浏览 2144

巴基斯坦防长警告阿富汗:任何袭击都将招致50倍强度的回应

环球网资讯 浏览 2520

"民营船王"33亿元入主杉杉 继母长子内斗2年双双出局

都市快报橙柿互动 浏览 2793

"最快女护士"新年第一跑夺冠获1.5万奖金 本人发声

红星新闻 浏览 16938

2月销量普跌,三大中国车企仅吉利超20万辆

驾仕派 浏览 811

微软官方确认:Windows 11任务管理器出问题了!

快科技 浏览 2438

轰-6k在黄岩岛战备警巡示意图公布

央视新闻客户端 浏览 1400

业绩承压下的豪赌:时空科技跨界收购存储芯片厂商嘉合劲威

国际金融报 浏览 2633

乐福鞋,这样穿最文艺

Yuki女人故事 浏览 2553

华盛顿大学与耶鲁大学联手:医疗数据库为何让顶尖AI模型"抓狂"

科技行者 浏览 1633

杨紫新剧《家业》改《祯娘传》!央视力推

东方不败然多多 浏览 1665

男子花3万多网购2400克银条空欢喜 付款次日店铺清空

红星新闻 浏览 16704

媒体:马杜罗大难临头仍相信"不至于" 但美却赶尽杀绝

文汇报 浏览 7654

日本计划部署导弹可攻击中国 当地民众:万分危急

环球网资讯 浏览 14897

美国因格陵兰岛问题对欧洲8国加关税 多国反击特朗普

环球网资讯 浏览 5793

他陪了林青霞21年,眼睁睁看着她嫁给别人

二妹扯娱 浏览 2546

德雷森:格雷茨卡本赛季不走;我们将择机与凯恩开启续约谈判

懂球帝 浏览 1672

表现不稳,世体:巴萨对巴尔德和孔德当前展现的水平感到担忧

懂球帝 浏览 2312

高德拿了谷歌剧本,餐饮商家想当主角

蓝鲸新闻 浏览 3195

一夜之间,矛盾又升级了!

米筐投资 浏览 2659
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1