爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

新马王就位 ...

美职联官方列...

《逍遥》大结...

或将于202...

号称“租手机...

鸿蒙与它的1...

“勃肯鞋”今年冬天爆火！这几双怎么搭都好看

泰国在建高铁事故致数十人死亡外交部表态

“吹哨人”，最高奖励100万！

预售31.98万起吉利银河V900即将上市

非洲杯决赛裁判组：主裁来自民主刚果，VAR裁判来自加蓬

最高降价30万！宝马中国回应:并非打价格战

增长神话暂停，理想“尖子生”光环失效？

安赛龙回应发球争议：我采用这种发球方式已有多年

“末日鱼雷”目前“无法拦截” 俄一周内测试两种战略武器

邵佳一：我们应该配得上三分，在休息室里我祝贺了队员们

京东首款汽车定了！埃安UT迎泼天流量，能否逆天改命？

集成双4K摄像头与AI，雷蛇Project Motoko概念耳机亮相CES 2026

E句话| 在西藏办烟花秀的品牌已道歉？

曹西平告别葬礼举行，灵堂布置很温馨，小S送花篮哀悼

俄最新核潜艇下水可搭载“末日鱼雷”

比巴恩风更火的“富家千金风”来了！高级又气质

万科三季度净利润亏损160.69亿，深铁今年第十次“输血”

美股半导体板块，集体下跌

MCON推出滑盖外接手柄，致敬PSP Go/Xperia Play滑盖掌机

看大疆做全景相机，不要只看两份报告

林心如曝霍建华消费观

拯救“衰老”，这么护肤才有效率！

双星鞋业84岁创始人宣布断绝父子关系:儿子抢公章夺权

国产车强的可怕！德日韩法美系车，全线溃败