关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者846人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

乌代表团“换将”赴美 佩斯科夫:俄方只和美国谈

每日经济新闻 浏览 262

大理网红稻田被游客踩出坑,人数众多工作人员拦不住

趣看热点 浏览 25998

长安汽车董事长:行业营销无底线 车子非要说上千万

智车情报局 浏览 12852

女子发现前夫用其就诊卡开上千片精神类药物 医院回应

大风新闻 浏览 9683

张本智和惨遭逆转!痛失4个赛点+连丢3局,无缘法国冠军赛男单8强

乒谈 浏览 763

你咋看?美媒列联盟30队首发控卫排名:库里第1 哈登第5 穆雷第10

直播吧 浏览 15956

全新奥迪A6L实车:外观大变样轴距超3米,带智能辅助驾驶小蓝灯?

Nice好车 浏览 1035

瓦格纳结束休假 北约东欧成员国和乌克兰"如临大敌"

红星新闻 浏览 86064

46岁郭柯宇气质真好 发型飘逸穿着简单

形象设计师飞飞 浏览 19526

高市早苗曾叫嚣台湾有事日本必入

极目新闻 浏览 873

周定洋社媒庆祝绝平申花:让我们继续拼、继续冲,一场一场来!

直播吧 浏览 1660

杉杉股份:涉原实控人郑永刚遗产继承事项,宁波青刚51%股权已处于冻结状态

界面新闻 浏览 18338

外媒:法国称“已准备好”向乌克兰派兵

参考消息 浏览 779

《大话西游3》中刘导演把前几部的线索串联起来,解答了影迷们一直困扰的的问题

趣看热点 浏览 26840

国家新闻出版署发布2023年进口网络游戏审批信息:共27款游戏获批

Tech星球 浏览 19092

起亚EV5新版本将于3月份上市 续航可超700km

行车视线 浏览 12931

首次写入政府工作报告! 商业航天发展按下“加速键”

海外网 浏览 12074

拜仁26/27赛季客场球衣谍照:白色主色调,队徽内EV字样回归

懂球帝 浏览 1051

为朝廷鞠躬尽瘁,绝对中兴之臣,死后却险遭皇帝鞭尸,原因很简单

趣看热点 浏览 26299

独家|我们与淘宝闪购管理层聊了聊增长的持续性问题

虎嗅APP 浏览 910

吉利缤越L Battle版上市 售价9.78万元

车质网 浏览 562
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1