爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

助力AI全民...

设计大调整，...

持股市值惨遭...

台海巡艇被目...

宗馥莉辞职4...

降价当头、新...

特朗普寻求加快大型电力项目，以满足AI需求

怼周鸿祎＂翻车＂的程前访谈视频收费几十万

中印巴令人意外地站在了同一边反对美方举措

乌军挡住俄军攻势，后面还有更狠的招数

警惕！日本巨头密集收购中国中药企业

智己汽车11月销量13,577台，连续三个月刷新历史纪录

范弗里特新秀年薪水54万美元，接下来三年每场比赛薪水53万

韩媒：金正恩用手指指着首尔举行重要军事会议

卢拉：不希望美国对委发动“地面入侵”

8699元学习机成“大板砖”！维修要2499元，家长：交了智商税

200多斤小伙落水漂浮7小时钱塘江大潮来临之际获救

抗日名将孙立人次子已正式向大陆申请将父亲迁葬故里

又一个汽车新品牌要来了，背靠五菱，首款车型微型车

谢霆锋现实长什么样？路人镜头暴露真实身高，突然理解李诞了

《赴山海》：一集至少两个漏洞

燃烧等离子体国际科学计划项目启动及研究计划发布

谷歌百人“复仇者联盟”出击！将发对标GPT-4的大模型

传祺向往系列的“降价术”：低配车型弱化华为标签启用Momenta智驾

表情装天真，发言迷惑，这位谋女郎翻身了吗？

美军阿利伯克级驱逐舰＂霍华德＂号日裔舰长被解职

事关国家和你我，安全、安全还是安全！

驱动绿色智算筑牢AIDC基石：华为携液冷热管理控制器TMU亮相2025CDCC大会

突发！5000亿元巨头涨价

硬件不会绑定新特性：荣耀 Magic6 / 7 全系将支持追色和胶片功能