爆点资讯

当我们训练人工智能写代码或解数学题时，就像教小孩做作业一样，需要给它很多练习题。但问题来了：有些题目太简单，AI一下就会了；有些题目太难，AI怎么也学不会。更麻烦的是，按照传统方法，不管题目难易，我们都给每道题分配同样的练习时间和次数。这就像让学霸和学渣都花同样时间做同一套题——既浪费了学霸的时间，也帮不到学渣。

来自伊利诺伊大学香槟分校、微软研究院和阿姆斯特丹大学的研究团队，在2025年10月发表了一项名为"Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training"的研究。这项研究就像给AI学习装上了"智能调节器"，让它能够根据题目难度自动分配练习时间，既不浪费计算资源，又能确保每道题都学得扎实。

研究团队的核心发现是：当前主流的AI训练方法GRPO（组相对策略优化）存在一个严重问题——当AI对某道题的所有尝试都得到相同结果时（要么全对要么全错），系统就收不到有用的学习信号，就像老师看到学生交上来的作业要么全是满分要么全是零分，无法判断学生的真实水平。

为了解决这个问

AI让机器写代码变得更聪明：伊利诺伊大学团队破解训练瓶颈新方法

伊姐周日热推...

41岁张靓颖...

带伤作战，王...

9系大六座旗...

破局“影子A...

仅10%援助...

大鹏工业：外购标准件采购占比超七成自研的被评奖项目背后现客户

药品存在被污染可能，印度最大药企一仿制药被暂停进口，用于治疗阿尔茨海默

日企从中国进口稀土被要求提供经销商信息中方回应

官方：新疆足球超级联赛5月至7月举办，分为南北区共14支球队

魏牌再换CEO，哈弗一把手赵永坡兼任！长城冲击高端化需要更多牌？

丹麦尴尬：抵制美国代价高昂却眼睁睁看着格陵兰离开

两集飙上9分，今年又一神剧出现了

技嘉X870E X3D超级冰雕主板图赏：超大彩屏，五彩斑斓的白

退休警察举报11年前交通事故：当年鉴定疑未勘验实车

阿森纳10月最佳候选：加布里埃尔、赖斯、萨卡、廷贝尔

河北农村老人挨冻，取暖费为何贵上万

节后戒断太难，屏障修复实验室自有招

某券商首席炒黄金期货大赚14亿？本人报警了

新增激光雷达 2026款比亚迪夏官图发布

突发！万科郁亮辞任

大咖对话：从L2到L4，如何破解高阶智驾落地难题

轮圈选择丰富/金标开放选装新一代SU7更多细节

2026年全明星球衣曝光！美国队两款+世界队一款：设计致敬洛杉矶

车企增收不增利，钱到哪儿去了

丹麦后悔在格陵兰岛部署F-35战机：美国或断供零部件

“男人的衣柜”跨界卖水？

演艺圈中最没有“父子相”的几对艺人父子

郑智化吐槽大陆机场，评论区沦陷

英伟达发布Alpamayo汽车大模型平台黄仁勋：这是机器理解现实世界的转折点