关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro855人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

疑似中介曝郑爽欠代孕服务费,几乎当两个孩子不存在

趣看热点 浏览 26944

TOP TOY,成不了泡泡玛特?

斑马消费 浏览 1489

乌国家科学院人口研究所:乌人口规模或将下降三成

红星新闻 浏览 71

著名音乐人何厚华英年早逝:终生未婚

历来纵横 浏览 1458

队记:范弗里特&狄龙被保证了主力位置 申京预计担当首发中锋

直播吧 浏览 15022

徐静蕾穿超短裙打高尔夫身材好 黄立行也罕见发声

麦大人 浏览 18743

美军遇重大伤亡 拜登政府发声明:不寻求与伊朗开战

环球网资讯 浏览 12596

智驾下一个关键挑战,是不被别人摘“桃子”?

虎嗅APP 浏览 351

他入行30年不温不火,回村务农却火了

艳儿说电影 浏览 817

西芒杜铁矿石准备装船,榨取中国钢企利益的时代该结束了

北向财经 浏览 690

3nm制程M3芯片将上线?消息称苹果或于下半年更新iMac产品

财联社 浏览 19288

中年女性穿衣别太复杂 这些冬季穿搭保暖又大方

虎哥说衣不二 浏览 13246

跌麻了!2024年猪价能回暖吗?

证券时报e公司 浏览 12729

贾玲《热辣滚烫》宣传失误,评论区大批质疑,火速调整营销亲情

萌神木木 浏览 12431

乘联分会崔东树:2025年汽车以旧换新规模预计超1800亿元

IT之家 浏览 40

赵继伟三分16中8爆砍37分 一战创两项生涯纪录

网易体育 浏览 26711

欧洲进入对俄开战准备阶段,美国也有异动

浏览 11026

41岁宋慧乔现身米兰看秀 纯素颜出镜状态好

巧百搭 浏览 19665

双子座流星雨即将引爆冬日夜空,成都“观星+”消费持续升温

红星新闻 浏览 41

一名德国男子因涉嫌为俄罗斯从事间谍活动被捕

环球网资讯 浏览 14692

美股纳指、标普转涨,特斯拉大涨超10%,英伟达曾跌约2.6%

华尔街见闻官方 浏览 10810
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1