关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2909人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

不管人情世故那一套!东风日产法务贴脸开大,直接点了友商的名

小李车评李建红 浏览 2119

纵横G700预售34.99万起 奇瑞家的高端硬派越野

网易汽车 浏览 3436

拉法口岸大批援助卡车滞留 司机:不止一次被以阻拦

北青网-北京青年报 浏览 2621

蔚来多款车型推出电池月租付一赠一限时优惠

网易汽车 浏览 1671

双子座流星雨即将引爆冬日夜空,成都“观星+”消费持续升温

红星新闻 浏览 2048

卢浮宫抢劫案两嫌疑人均30多岁 一人试图登机离境被抓

极目新闻 浏览 7563

特朗普抓获委内瑞拉总统马杜罗的前因后果

澎湃新闻 浏览 1699

账面1000多亿,却隐藏20多年,整个互联网都找不到它长什么样

壹只灰鸽子 浏览 1508

LV高管空降泡泡玛特,年薪300万港元

YOUNG财经 浏览 1966

开撕了!亲爹是首富,嫡长公主租房住?

Yuki女人故事 浏览 4321

最强越野车!搭载3.0T V6引擎 涉水深度900mm

隔壁说车老王 浏览 1515

最近很火的发型,原来这么简单!

黎贝卡的异想世界 浏览 2448

北汽集团10月整车销量160133辆 同比增长11%

网易汽车 浏览 2501

华为路由 12 月升级 HarmonyOS 6 系统,支持 AI 绿色上网 2.0

IT之家 浏览 2602

因家人病危,布里斯班狮吼主教练将缺席下轮联赛

懂球帝 浏览 1586

年薪180万!众泰汽车副总裁被罢免

经理人杂志 浏览 2896

俄罗斯核潜艇在北太平洋成功试射超音速巡航导弹

环球网资讯 浏览 3439

1399元,JBL SOUNDGEAR CLIPS琉璃扣耳机预售

IT之家 浏览 2404

特斯拉2025年交付量跌逾8%至164万辆

澎湃新闻 浏览 1694

何超莲窦骁合体撒糖,赴澳洲旅游被偶遇,有说有笑力破婚变传闻

扒虾侃娱 浏览 2365

消息称苹果计划2026年底进军智能眼镜市场,重塑全球AR光学供应链

IT之家 浏览 1382
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1