关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者2545人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

韩国知名潮牌宣布将关闭中国全部门店 陆续打折清仓

潇湘晨报 浏览 8258

美国驻冰岛大使候选人:冰岛或成为美国"第52个州"

环球网资讯 浏览 12242

阿拉维斯vs西班牙人:德尼斯-苏亚雷斯、阿莱尼亚首发,鲁文-桑切斯、基克-加西亚出战

懂球帝 浏览 2450

创维抄袭格力,为何低级得如此赤裸裸?

正经社 浏览 1565

抖音:卖茅台低于市场行情价将被处罚

第一财经资讯 浏览 2455

秋季穿衣别太老气横秋,看看这27套造型,时尚舒适又显高

静儿时尚达人 浏览 2466

柬埔寨"太子集团"资产又遭冻结 豪车公寓总值超35亿元

红星新闻 浏览 14197

60岁阿姨靠穿搭火了!“简约款”穿出高级感,自然老去也很美

静儿时尚达人 浏览 2831

张彬彬红毯帮毛晓彤提裙子,被导演打手

韩小娱 浏览 1954

大盘五连涨!今年3次五连涨后发生了什么?

每日经济新闻 浏览 1926

目送阿卡大满贯全四强,德米纳尔第七次卡八!

网球之家 浏览 1468

硬核揭秘!福建舰“一马当先”底气何在

环球网资讯 浏览 981

恩里克:这场比赛对登贝莱有帮助;我们希望继续赢得更多奖杯

懂球帝 浏览 1901

退赛5个月,全红婵传喜讯,人民日报亲自官宣

揽星河的笔记 浏览 2678

“钢铁大亨”投资“口罩大王”,两个月浮盈近10亿

侃见财经 浏览 2445

徐峥这一出手,若不出意外,这部耗资7亿的大片估计得“封神”

娱乐圈笔娱君 浏览 1299

问界M9 2024款开放华为ADS小蓝灯升级服务

网易汽车 浏览 2822

郭宇欣刘萧旭太原盛典现场互动 太甜了

生性洒脱 浏览 2196

斯诺克威尔士赛:江俊爆冷逆转塞尔比,吴宜泽4-0完胜晋级

懂球帝 浏览 948

梁小龙一生太精彩!曾被封杀20年,公开承认出轨,还跟周星驰反目

萌神木木 浏览 1556

E句话| 他们都离婚了?

仙女事件簿 浏览 2262
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1