关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1101人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

徐新：新赛季全队的目标是夺冠；球迷对我的评价我都理解接受

懂球帝浏览 12286

马龙：要击败76人你得在恩比德下场休息时赢分我们今天没做到

直播吧浏览 12521

倪萍没说错结婚14年的张杰谢娜给内娱上了一课

张发林浏览 1498

精彩推荐

印度的“真正敌人” 莫迪挑明了

参考消息浏览 21957

真情侣就是好嗑，短剧界有多少“因戏生情”的cp？

仙女事件簿浏览 856

米体：米兰今夏本想租借戴维带最终失败已将他视为明年首选目标

直播吧浏览 14230

王中磊夫妇转战短视频，影视一哥到底怎么了？

BT财经浏览 261

3天6个瓜！鲜肉出轨，男星离婚，个个离谱

霁寒飘雪浏览 1002

美国一核电站发生核废水泄漏事故官方4个月后才通报

新京报浏览 115294

国家新闻出版署发布2023年进口网络游戏审批信息：共27款游戏获批

Tech星球浏览 19116

“老王”救“老王”，王慧文将光年之外托付给王兴

雷达财经浏览 15559

国米取胜后距榜首1分，罗马如果能客胜米兰将独自领跑积分榜

懂球帝浏览 755

亏损超10.6亿，中美观众差评出奇一致，好莱坞年度票房惨案来了

靠谱电影君浏览 935

英特尔第五代至强可扩展处理器发布，在CPU上跑AI更香了

量子位浏览 12864

618换机怎么选？华为Pocket S限时优惠1000元精致好看又实用

网易时尚浏览 17256

房产遇灾能获赔百万？“家财险”值得买吗？

环球网资讯浏览 14651

日系化妆品安全受质疑多家品牌回应：将确保产品安全

九派新闻浏览 14736

全明星级别＋首轮选秀权？公牛对拉文要价现在已大幅降低

懂球帝浏览 11102

新增120城蔚来城区NOP+覆盖中国大陆99%城市

网易汽车浏览 12033

多只宠物中毒死亡11人提起刑附民诉讼投毒者获刑4年

红星新闻浏览 5004

这两大业务进展，华为重磅披露！

每日经济新闻浏览 18385

综合续航超1400公里奇瑞风云T9是你的菜吗？

汽车经纬网浏览 13077

重磅！日产总部大楼被中国企业拿下！

电动知家浏览 701

工信部释放重磅信号三大主线成形!两大背离信号隐现

券商中国浏览 26295

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1