关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者1389人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马斯克宣布重启特斯拉Dojo 3超级计算机项目

不看车bukanche 浏览 1537

小米汽车超级工厂供应商,斯坦德机器人赴港IPO|港E声

时代周报 浏览 1652

美团紧急发文

大象新闻 浏览 2489

台北攻击事件嫌犯携满箱汽油弹欲纵火 被男子舍命拦下

红星新闻 浏览 7401

理查兹:道曼和萨卡位置重叠,为球员未来发展应该将他外租

懂球帝 浏览 2486

鸿蒙智行L3,从架构革命到出行方式重构

汽车公社 浏览 1844

伊朗高级军官:以色列威胁言论暴露其“动荡和软弱”

上观新闻 浏览 1861

父母先后失联兄弟流浪4岁弟弟又失踪 36年后母子团圆

红星新闻 浏览 6890

雷军们没来,这届广州车展有啥看头?

道哥说车 浏览 2117

小德:我的25个大满贯冠军和C罗的1000个进球也许能一起实现

懂球帝 浏览 1852

AGI for Science:关于科学未来的6个问题

知识分子 浏览 3179

吕焯毅:我们踢得很团结有韧劲,大家都满意这场比赛

懂球帝 浏览 2543

利物浦官方:库伊特、斯科特尔等人参加对多特传奇的慈善赛

懂球帝 浏览 1360

美以袭击伊朗 中东军事冲突持续升级

国际在线 浏览 751

齐沃:阿森纳和拜仁是目前欧洲最强,但这不意味着我们输定了

懂球帝 浏览 1543

今日热点:电影《飞驰人生3》定档春节;大麦否认与黄牛挂钩……

伊周潮流 浏览 1859

法新社:姆巴佩与巴黎之间的财务纠纷将在17日举行听证会

懂球帝 浏览 2541

她不靠穿搭谋生,却因穿搭走红,在穿衣上找到主体性是什么体验?

黎贝卡的异想世界 浏览 2445

她与名导同居多年被抛弃,如今复出却无人问津

吴蒂旅行ing 浏览 2098

特朗普开价10亿美元招募 被指试图用新机构替代联合国

极目新闻 浏览 5855

2025年全国居民健康素养水平达到33.69%

央视财经 浏览 1689
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1