关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12519人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

周鸿祎、冯仑等企业家组团找董宇辉学习网红经济

三言科技 浏览 12085

阿尔特塔:厄德高和因卡皮耶身体状况不足以进入替补,好在有萨卡

直播吧 浏览 1562

吹不动了!美职联官推崩溃,网友求梅西放水,名嘴:足坛奥本海默

我爱英超 浏览 14635

霍启刚带老婆与友人聚会,郭晶晶微笑用手比心

盖饭娱乐官方号 浏览 16394

中年女人要想穿出女神范,选择时尚单品时,注重展现气质美

静儿时尚达人 浏览 11230

69岁赵雅芝真实面容曝光 生图眼尾皱纹炸花显老态

盖饭娱乐官方号 浏览 19228

特斯拉 × 百度地图 V20 实测视频公布:支持 3D 车道导航等

IT之家 浏览 11127

同样被网友玩梗,李湘给张纪中“上了一课”?

深析古今 浏览 725

集度变极越,百度还造车吗?

刺猬公社 浏览 14534

钟楚曦到底僭越了什么

虎嗅APP 浏览 737

闭店风波后,实探“上上谦”仅存门店:薛之谦曾入股,周末用餐高峰仍需排队

时代周报 浏览 658

尹红星中将履新 已任西藏自治区“戎装”常委

上观新闻 浏览 20629

放弃“模仿”,小米汽车的价值才能显现

盖世汽车 浏览 10944

30 万一块的蔚来电池是怎么来的?

晚点LatePost 浏览 12885

余承东:华为没有必要自己下场造车,不会涉及20万价位以下市场

界面新闻 浏览 19419

一杯酸奶,估值1422亿

投中网 浏览 721

普京:“海燕”核动力巡航导弹完成“决定性试验”

极目新闻 浏览 794

22个州经济正在萎缩,消费者信心持续下跌,多家机构警告美国经济衰退

环球网资讯 浏览 1016

92岁默多克第6次订婚 未婚妻第一任丈夫为俄石油大亨

新民周刊 浏览 70291

外卖救了全聚德?

BT财经 浏览 14672

埃迪-豪7次面对伯恩茅斯场均积分0.7分,仅比对阵曼城、红军更多

直播吧 浏览 1678
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1