爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

石破茂讲话让...

机器人不约而...

23岁富家女...

受好莱坞罢工...

彻底凉了！华...

“弯刀裤”今...

海哈金喜更新离婚后动态，状态不错

保时捷全新卡宴发布确认零百加速不到3秒

现场视频：美英空袭也门胡塞武装

黑龙江五常米农：我们害怕暴雨洪水更害怕绝收谣言

迪士尼第三财季营收223.3亿美元 Disney+订阅用户数低于预期

CDS复兴？“AI发债潮”重燃了市场的“次贷回忆”

＂鱼鹰＂复飞时间未定美国海军用＂灰狗＂来凑

2-2！英超疯狂之战：1-2落后 10人曼联压哨绝平 0分变1分

男子残忍杀害未婚妻被判死缓监狱管理局否认其将出狱

看点超多！本周9只新股发行，主打“算法芯片化”的技术玩家、“快充”概念股一起来了......

新设计兰博基尼Manifesto概念车官图发布

德国法院驳回对诺基亚的专利诉讼，OPPO回应称坚决反对高价收费

春天的第一件针织衫，就选它吧 | 好物

透视以胡“超音速博弈”背后的攻防密码

Rain东京塔被偶遇，又高又壮又拉风

外卖小哥蹊跷失踪22天:凌晨独自到水库现场找到电动车

“小黑靴”今年冬天又火了！这4组搭配照着搭就很时髦

日本主妇真会穿！衬衫T恤也能穿得洋气

车导的瓜没吃完孟桐的瓜又来了那英如何反击？

美方对中国官员实施签证限制外交部回应

美团数据：理发搜索量同比增长160%，理发团购销量增长超200%

伯顿·马尔基尔：不要押注科技股泡沫破裂

关于李湘为什么总披着外套?

刚刚，工行、中行、建行同时官宣！