关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2618人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

秦岚自曝身体出现情况,治疗结果不尽人意

乡野小珥 浏览 767

热力公司入户测温佩戴的记录仪上印着警徽 住户报警

大风新闻 浏览 31041

苹果的大屏可折叠 iPad 可能因开发问题而延期到 2029 年

威锋网 浏览 2613

车机升级 第五代宏光MINIEV将于3月下旬上市

车质网 浏览 466

非法集资911亿元 “金融大鳄”盘继彪终审被判无期

每日经济新闻 浏览 12002

闫学晶被多个品牌解约,儿子林傲霏“新疆班”的学历也被调查

素素娱乐 浏览 1620

今年春天一定要拥有的4件衣服,太好看了!

LinkFashion 浏览 754

半场-马竞0-0马洛卡 汉茨科造点阿尔瓦雷斯失点

直播吧 浏览 2819

背靠OpenAI的机器人初创1X亮相CES展示家务机器人,售价2万美元

华尔街见闻官方 浏览 1684

3000马力!百万售价! 仰望U9赛道版比高铁快

车毂轆 浏览 3353

求求你,别再用电动车“挡风被”了!

大象新闻 浏览 2153

上海女子崩溃:前夫为泄愤下载群发三甲医院病历

极目新闻 浏览 8551

全智贤新剧跌破平台下线,迪士尼2亿投资亏本,业内直言堪称灾难

萌神木木 浏览 2356

东体:地区超重塑观众的心理认同,足协应让草根和职业贯通

懂球帝 浏览 2660

西方媒体炒作“伊朗加速生产导弹”

环球网资讯 浏览 2322

以色列再次延长对半岛电视台运营禁令

上观新闻 浏览 1455

5名共和党议员"倒戈" 特朗普"愤怒"向其打电话威胁

环球网资讯 浏览 12246

联想 moto razr 60 系列手机获中国线上市场安卓小折叠销量第一

IT之家 浏览 2724

郭宇欣拿下央媒微短剧,短剧演员的“编制”来了?

徐帮阳 浏览 1690

瞭望 | 宇宙寻亲新路径

新华社 浏览 2191

无法打破曼城百分记录,阿森纳英超两连平,本赛季最多拿98分

懂球帝 浏览 1500
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1