关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12486人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

黑龙江五常米农:我们害怕暴雨洪水 更害怕绝收谣言

中国新闻周刊 浏览 86156

迪士尼第三财季营收223.3亿美元 Disney+订阅用户数低于预期

界面新闻 浏览 14094

CDS复兴?“AI发债潮”重燃了市场的“次贷回忆”

华尔街见闻官方 浏览 551

"鱼鹰"复飞时间未定 美国海军用"灰狗"来凑

观察者网 浏览 12789

2-2!英超疯狂之战:1-2落后 10人曼联压哨绝平 0分变1分

叶青足球世界 浏览 660

男子残忍杀害未婚妻被判死缓 监狱管理局否认其将出狱

红星新闻 浏览 4950

看点超多!本周9只新股发行,主打“算法芯片化”的技术玩家、“快充”概念股一起来了......

证券时报e公司 浏览 19393

新设计 兰博基尼Manifesto概念车官图发布

车质网 浏览 977

德国法院驳回对诺基亚的专利诉讼,OPPO回应称坚决反对高价收费

IT之家 浏览 15481

春天的第一件针织衫,就选它吧 | 好物

LinkFashion 浏览 13292

透视以胡“超音速博弈”背后的攻防密码

浏览 4664

Rain东京塔被偶遇,又高又壮又拉风

缘木不求娱 浏览 12476

外卖小哥蹊跷失踪22天:凌晨独自到水库 现场找到电动车

极目新闻 浏览 975

“小黑靴”今年冬天又火了!这4组搭配照着搭就很时髦

LinkFashion 浏览 692

日本主妇真会穿!衬衫T恤也能穿得洋气

八分搭配 浏览 16229

车导的瓜没吃完 孟桐的瓜又来了 那英如何反击?

动物奇奇怪怪 浏览 1577

美方对中国官员实施签证限制 外交部回应

环球网 浏览 68058

美团数据:理发搜索量同比增长160%,理发团购销量增长超200%

网易科技报道 浏览 11130

伯顿·马尔基尔:不要押注科技股泡沫破裂

巴伦周刊 浏览 11378

关于李湘为什么总披着外套?

甜柠聊史 浏览 916

刚刚,工行、中行、建行同时官宣!

中国基金报 浏览 19413
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1