关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2621人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普对伊朗新任最高领袖感到"不高兴"

新华社客户端 浏览 614

美最新两种无人战斗机完成首飞 空战新时代正加速到来

澎湃新闻 浏览 6606

冬季不臃肿穿搭指南来了,奔五奔六照着穿,拿捏温暖与高级感

静儿时尚达人 浏览 1579

独栋别墅被拆除业主原地偷建 城管局:他"打游击"施工

扬子晚报 浏览 11800

山东济宁一商家芒果礼盒藏试卷、课本 商家回应

极目新闻 浏览 3848

负债亏损盈利:三家央企新能源谁更胜一筹?

汽车公社 浏览 2116

马斯克2025最新深度长访谈:从政府效率到宇宙尽头

不看车bukanche 浏览 1964

杭州男子花1600万元买别墅 拒缴7万元水费被物业停水

1818黄金眼 浏览 8632

精致詹詹,美媒晒出詹姆斯更衣室座位边摆满护肤品的照片

懂球帝 浏览 2235

伊朗:摧毁近10部美国先进雷达

极目新闻 浏览 604

货不对版!京东国民好车陷「批量退订潮」;李想承认犯错,理想汽车将回归创业模式;黄仁勋内部讲话泄露:少用AI?你们疯了吗?

雷峰网 浏览 2166

将于北京车展首发 奕境旗下首款量产车路试谍照曝光

网易汽车 浏览 1590

【IT之家开箱】口袋中的完全体哈苏:OPPO 哈苏专业影像套装图赏

IT之家 浏览 2797

美国或"最快本周"再次对俄罗斯动手 已和27国讨论计划

澎湃新闻 浏览 12446

65岁钟楚红近况曝光!老公去世18年未再嫁

代军哥哥谈娱乐 浏览 1578

中期改款奔驰AMG SL曝光 前脸焕新 依旧多种动力

汽车公告板 浏览 1510

阿隆索:我们在安菲尔德跑动太少?不能凭一场比赛下结论

懂球帝 浏览 2494

宁波网友投诉到理发店理发被诱导消费:1次花了6万元

潇湘晨报 浏览 6853

曝曼联与沙特谈B费转会价格!B费想自己主宰未来,拜仁或加入争夺

罗米的曼联博客 浏览 2721

马斯克宣布脑机接口将量产,特斯拉自动驾驶挑战引发安全质疑

红星新闻 浏览 1809

兹维炮轰巴黎场地速度:太慢,弹跳忽高忽低,阿卡出局或与此有关

网球之家 浏览 2408
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1