关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12509人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

22岁女模特遭男网友下药迷奸 随后被送给多人发生关系

花点时间 浏览 76209

推广|| 你们都在催的鞋子,终于来了!

黎贝卡的异想世界 浏览 822

VR 交互升级:Quest 3应用现支持手势和控制器混合操作

IT之家 浏览 12352

白色搭配这4个颜色 优雅又提气质

猫姐品衣有道 浏览 19699

看演唱会的“多巴胺穿搭”,时装周帮你拿捏

上海时装周 浏览 17131

伊朗外长:美国要求伊朗与黎真主党沟通

澎湃新闻 浏览 12544

以军方:一名以军士兵在加沙城遭哈马斯袭击身亡

环球网资讯 浏览 1564

“沙僧”刘大刚去世!生前最后露面消瘦,去年师徒合体表演成绝唱

萌神木木 浏览 706

阿的江:赛前有球员去医院了 参加比赛的队员有3名发高烧

直播吧 浏览 19457

林正英、钱小豪在拍摄《僵尸先生》时,有几场戏是在台湾取景

趣看热点 浏览 28559

伊姐十一热推:电影《震耳欲聋》;电视剧《三更雪》......

伊周潮流 浏览 1052

专家:俄乌“和平计划”应触及冲突发生深层原因

环球网资讯 浏览 267

父子在亲戚公司上班遇爆炸全身烧伤花费百万 亲戚回应

潇湘晨报 浏览 1020

瑞银汪涛:2024年中国经济展望——在房地产下行中“企稳”

Wind万得 浏览 12812

7家茅台冰淇淋旗舰店暂停营业?门店回应:正常营业中,小程序无法下单

红星资本局 浏览 10808

马自达EZ-6官降2万!起售价低至11.98万元

车评网 浏览 730

华为和赛力斯联盟再深化 成立AITO问界销服联合工作组

21世纪经济报道 浏览 15160

最近很火的5条裤子,腿粗、腿不直女孩一定要试试!

Yuki女人故事 浏览 2081

王思聪现身网红生日会没带小女友 桌上红酒值20万

盖饭娱乐官方号 浏览 19305

一位基金经理的真情告白

金石杂谈 浏览 12560

李迅雷:黄金暴涨、股市波动,普通人机会在哪?

首席经济学家论坛 浏览 929
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1