关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1101人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

印度的“真正敌人” 莫迪挑明了

参考消息 浏览 21957

真情侣就是好嗑,短剧界有多少“因戏生情”的cp?

仙女事件簿 浏览 856

米体:米兰今夏本想租借戴维带最终失败 已将他视为明年首选目标

直播吧 浏览 14230

王中磊夫妇转战短视频,影视一哥到底怎么了?

BT财经 浏览 261

3天6个瓜!鲜肉出轨,男星离婚,个个离谱

霁寒飘雪 浏览 1002

美国一核电站发生核废水泄漏事故 官方4个月后才通报

新京报 浏览 115294

国家新闻出版署发布2023年进口网络游戏审批信息:共27款游戏获批

Tech星球 浏览 19116

“老王”救“老王”,王慧文将光年之外托付给王兴

雷达财经 浏览 15559

国米取胜后距榜首1分,罗马如果能客胜米兰将独自领跑积分榜

懂球帝 浏览 755

亏损超10.6亿,中美观众差评出奇一致,好莱坞年度票房惨案来了

靠谱电影君 浏览 935

英特尔第五代至强可扩展处理器发布,在CPU上跑AI更香了

量子位 浏览 12864

618换机怎么选?华为Pocket S限时优惠1000元 精致好看又实用

网易时尚 浏览 17256

房产遇灾能获赔百万?“家财险”值得买吗?

环球网资讯 浏览 14651

日系化妆品安全受质疑 多家品牌回应:将确保产品安全

九派新闻 浏览 14736

全明星级别+首轮选秀权?公牛对拉文要价现在已大幅降低

懂球帝 浏览 11102

新增120城 蔚来城区NOP+覆盖中国大陆99%城市

网易汽车 浏览 12033

多只宠物中毒死亡11人提起刑附民诉讼 投毒者获刑4年

红星新闻 浏览 5004

这两大业务进展,华为重磅披露!

每日经济新闻 浏览 18385

综合续航超1400公里 奇瑞风云T9是你的菜吗?

汽车经纬网 浏览 13077

重磅!日产总部大楼被中国企业拿下!

电动知家 浏览 701

工信部释放重磅信号 三大主线成形!两大背离信号隐现

券商中国 浏览 26295
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1