爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

【亚冠精英】...

车企“灵魂论...

MiniMa...

特朗普上台后...

石破茂讲话让...

斯基拉：尤文...

杭州巨准斥资超8亿入主华是科技，能否力挽狂澜？

汤唯最刻骨铭心的那段情，我每年都想重温

移动联通重押雷鸟创新背后：智能眼镜发出“独立宣言”，欲告别“手机附属品”标签

这波操作太狠了！剪辑连夜删除邓莎路行镜头

这才是打开秋季的穿衣方式！衣服不贪多、搭配得体，养眼舒适

千问App宣布投入30亿元启动春节活动，2月6日上线

后排配娱乐屏/还有拖挂资质理想i6将于9月26日上市

超千万元罚单屡见不鲜！第三方支付机构这些“坑”别再踩了

男生最讨厌的4种女生发型！

告别奥博穆时代，保时捷加速落子研发＂中国棋＂

雪落航天城！航天员呵护航天娃，航天人守护航天城

杨紫新剧邀林志玲演上海名媛，两人11年前亲吻

世体：马竞不会轻易放走拉斯帕多里，未来几天罗马将加大攻势

老牌公募中邮基金换帅张涛接替毕劲松面临权益短板挑战

日企从中国进口稀土被要求提供经销商信息中方回应

专家:特朗普望通过武力威胁让伊朗不敢对示威做反应

中国公民需谨慎前往日本四大原因披露

追觅俞浩内部放狠话：造车PK理想，手机跟华为小米三分天下；TP-Link芯片事业部全员解散；马斯克用亲信管理AI公司引发冲突丨雷峰早报

白百何声明翻车！晒对接聊天记录漏洞百出，工作室评论区沦陷

泰国在建高铁事故致数十人死亡外交部表态

全球1~8月电池装机量，韩系继续败退

拜仁26/27赛季客场球衣谍照：白色主色调，队徽内EV字样回归

女人过了40岁穿衣别老气横秋，看看这些日系穿搭，得体又显瘦

英超积分榜：热刺伯恩茅斯分列二、三狼队全败维拉西汉姆5轮3分