关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro854人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

短剧男主遇上长剧男主,谁是天然帅哥谁是滤镜美男,差距一目了然

娱乐圈笔娱君 浏览 342

3支英超球队本轮欧冠均落败,现在压力给到了曼城······

直播吧 浏览 19440

最具人气的4种女士发型 立体时尚还温柔

镜子发型 浏览 16118

波兰举行"冷战后最大规模阅兵"向俄白释放明确信息

环球网资讯 浏览 14553

中金:通胀超预期,美联储降息紧迫性下降

网易财经 浏览 12711

记者:海港抵达武里南,莱昂纳多、加布、李帅、刘若钒伤缺

懂球帝 浏览 683

141家上市大厂被AI耍了!谷歌意外成帮凶

量子位 浏览 15493

许绍雄离世,她说,老豆我很想你!但我不会再哭

振华观史 浏览 803

全新一代丰田Hilux将于11月10日正式发布

车质网 浏览 634

公牛官方:帕威左脚遭遇急性骨水肿 将在两周后进行重新评估

直播吧 浏览 12529

记忆|慕津锋:追忆杨振宁先生

上观新闻 浏览 911

成都锦里古街树木倾倒砸伤游客 目击者:树木是空心的

上游新闻 浏览 6688

入职四年买第一套房,“京东物流001号员工退休”冲上热搜

南方都市报 浏览 12670

无糖饮料可能更增强食欲,它才是你减肥计划的内鬼!

趣看热点 浏览 25846

它家包包超越爱马仕,成了新晋Dream Bag之首

《买手客buyerkey》 浏览 15335

俄罗斯终于发现 福建舰服役后做中国的朋友很有面子

现代小青青慕慕 浏览 5290

乌拉圭世预赛名单:努涅斯、巴尔韦德、佩利斯特里在列

直播吧 浏览 14311

韩美首脑讨论推动建造核动力潜艇 外交部回应

北京青年报 浏览 6005

马克龙寻求赴南非出席金砖峰会 俄方:法国应解释原因

环球网资讯 浏览 92438

基德:东契奇不想让人们觉得他只是进攻出色 他想打出强硬防守

直播吧 浏览 12690

雷军称小米汽车SU7尾标已修改 感谢大家支持和关心

智车情报局 浏览 12652
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1