关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2620人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

八位堂推出“任天堂 NES 游戏机 40 周年”主体限定外设硬件

IT之家 浏览 2774

马杜罗:美国对委内瑞拉威胁是"老调重弹"

国际在线 浏览 2180

同样是悼念亡妻,把具俊晔和辛柏青放一起比较,差别怎么这么大!

娱乐圈笔娱君 浏览 2531

火速认错!孙怡驾驶法拉利跑车违规

今古深日报 浏览 1683

4战狂胜266分!韩旭14+8四川全运女篮大胜辽宁 头名进八强

醉卧浮生 浏览 2454

腾讯 AI 实现肺癌基因突变预测,精度最高 99%

IT之家 浏览 2733

威少:梦想打橄榄球的我从未想过能有如今成就,希望我能激励到其他人

懂球帝 浏览 1836

租客死亡4年后房东以"房屋贬值"把中介告了 法院判了

封面新闻 浏览 8352

传奇数学家放弃美国高校终身教职 为00后中国女孩打工

新民周刊 浏览 17003

柬泰边境冲突:柬埔寨宣布退出本届东南亚运动会

上观新闻 浏览 1996

天空:西汉姆联将继续信任努诺,俱乐部今天开会讨论引援问题

懂球帝 浏览 1570

“超级周”来袭!美联储,降息稳了?

券商中国 浏览 2600

MINI与Paul Smith合作推出设计师款 东京车展首秀

网易汽车 浏览 2507

半夏投资创始人李蓓新“战场”:12888元卖课、“下凡”小红书!

独角金融 浏览 1511

以防长称摧毁哈马斯在加沙的地下隧道是当前核心任务

北青网-北京青年报 浏览 2309

刘嘉玲怒怼肉娱小鲜肉?

港剧叔 浏览 2504

宋伊人新剧被传谣,是要逼人“剖腹取粉”吗?

麻辣婊 浏览 2330

315风波后续来了!鹿哈取消直播被追着维权

萌神木木 浏览 446

罗马诺:尤文等5队有意明格萨,塞尔塔目前不想将其出售

懂球帝 浏览 1620

NBA碎碎念合集(2)

静易墨 浏览 2547

哈梅内伊次子当选伊朗最高领袖 以色列扬言要"追杀"

国际在线 浏览 673
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1