关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者2543人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

泡椒凤爪“塌房”,有友食品躺枪

斑马消费 浏览 506

E句话| 他们都离婚了?

仙女事件簿 浏览 2262

财政负担持续累积,“节油意识”难以培养,岛内担忧“冻油价”加剧能源困局

环球网资讯 浏览 461

杰哈德指责加沙“和平委员会”组成服务于以方利益

极目新闻 浏览 1574

E句话| 爱马仕继承人被曝坐廉航,150亿美元下落不明?

仙女事件簿 浏览 1643

托辛:很荣幸在队内是资深球员;“叔叔”的外号来自马杜埃凯

懂球帝 浏览 2613

合富中国的六连板“泡沫”

北京商报 浏览 2474

关键时刻伊朗欧盟关系生波澜 欧盟"站队"美以惹怒伊朗

澎湃新闻 浏览 3796

乌镇大佬聚会现场有好多人 被瘦下来的郝蕾惊艳了

娱乐圈笔娱君 浏览 2548

83岁的何享健再度冲击IPO,美的系第十子即将诞生?

BT财经 浏览 3394

“这件大衣”今年冬天又火了,怎么搭都高级!

LinkFashion 浏览 2003

委内瑞拉强烈反对“美国封锁空域”

国际在线 浏览 2184

百万粉丝博主“稚晖君”在账号发介绍公司机器人视频,引发监管问询!公司紧急回应

红星资本局 浏览 1598

4岁女童在温泉酒店泳池溺水 两名女子跪地抢救20分钟

红星新闻 浏览 91213

推15款新车,鸿蒙智行的野心,是2026年正式超过奔驰?

路咖汽车 浏览 2059

媒体:中国该如何在军事部署上经营台湾 如今值得思考

新民周刊 浏览 6919

罗斯柴尔德家族现遗产之争:93岁婆婆与60岁儿媳打官司

红星新闻 浏览 18728

牛弹琴:针对16岁以下的孩子 澳洲干了件前所未有的事

现代快报 浏览 6924

锋寻生物完成近6000万元种子轮及天使轮融资,加速体内CAR-T疗法临床转化 | 融资首发

钛媒体APP 浏览 2449

美财长挑拨中阿关系称"米莱要将中国赶走" 阿根廷回应

澎湃新闻 浏览 6732

63.3度电池+60L油箱 小鹏X9增程版续航1602公里

网易汽车 浏览 2696
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1