关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2913人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

湾芯展顶流新凯来：当“隐形基建”浮出水面

北京商报浏览 2764

背靠OpenAI的机器人初创1X亮相CES展示家务机器人，售价2万美元

华尔街见闻官方浏览 1688

香港65公斤黄金被劫价值超半亿西九龙重案组深夜通报

极目新闻浏览 14933

精彩推荐

粉色涂装雷克萨斯Glam LX概念车发布

车质网浏览 2848

联合国官员：加沙惨状如末日电影

上观新闻浏览 2144

巴基斯坦防长警告阿富汗：任何袭击都将招致50倍强度的回应

环球网资讯浏览 2520

＂民营船王＂33亿元入主杉杉继母长子内斗2年双双出局

都市快报橙柿互动浏览 2793

＂最快女护士＂新年第一跑夺冠获1.5万奖金本人发声

红星新闻浏览 16938

2月销量普跌，三大中国车企仅吉利超20万辆

驾仕派浏览 811

微软官方确认：Windows 11任务管理器出问题了！

快科技浏览 2438

轰-6k在黄岩岛战备警巡示意图公布

央视新闻客户端浏览 1400

业绩承压下的豪赌：时空科技跨界收购存储芯片厂商嘉合劲威

国际金融报浏览 2633

乐福鞋，这样穿最文艺

Yuki女人故事浏览 2553

华盛顿大学与耶鲁大学联手：医疗数据库为何让顶尖AI模型＂抓狂＂

科技行者浏览 1633

杨紫新剧《家业》改《祯娘传》！央视力推

东方不败然多多浏览 1665

男子花3万多网购2400克银条空欢喜付款次日店铺清空

红星新闻浏览 16704

媒体:马杜罗大难临头仍相信＂不至于＂但美却赶尽杀绝

文汇报浏览 7654

日本计划部署导弹可攻击中国当地民众:万分危急

环球网资讯浏览 14897

美国因格陵兰岛问题对欧洲8国加关税多国反击特朗普

环球网资讯浏览 5793

他陪了林青霞21年，眼睁睁看着她嫁给别人

二妹扯娱浏览 2546

德雷森：格雷茨卡本赛季不走；我们将择机与凯恩开启续约谈判

懂球帝浏览 1672

表现不稳，世体：巴萨对巴尔德和孔德当前展现的水平感到担忧

懂球帝浏览 2312

高德拿了谷歌剧本，餐饮商家想当主角

蓝鲸新闻浏览 3195

一夜之间，矛盾又升级了！

米筐投资浏览 2659

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1