爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

中国第一代超...

热巴辟谣怀孕...

专家：胡塞武...

特斯拉将在明...

美国自动驾驶...

PPE平台打...

郭碧婷爸爸“打脸”向太：郭碧婷一人承担俩孩子开销

内娱最疯红毯，评出“年度抠门艺人”榜单

超频三 RT620Pro TC ARGB 风冷 239 元上市，配备家族化一体顶盖

周鸿祎、冯仑等企业家组团找董宇辉学习网红经济

阿尔特塔：厄德高和因卡皮耶身体状况不足以进入替补，好在有萨卡

吹不动了！美职联官推崩溃，网友求梅西放水，名嘴：足坛奥本海默

霍启刚带老婆与友人聚会，郭晶晶微笑用手比心

中年女人要想穿出女神范，选择时尚单品时，注重展现气质美

69岁赵雅芝真实面容曝光生图眼尾皱纹炸花显老态

特斯拉 × 百度地图 V20 实测视频公布：支持 3D 车道导航等

同样被网友玩梗，李湘给张纪中“上了一课”？

集度变极越，百度还造车吗？

钟楚曦到底僭越了什么

闭店风波后，实探“上上谦”仅存门店：薛之谦曾入股，周末用餐高峰仍需排队

尹红星中将履新已任西藏自治区“戎装”常委

放弃“模仿”，小米汽车的价值才能显现

30 万一块的蔚来电池是怎么来的？

余承东：华为没有必要自己下场造车，不会涉及20万价位以下市场

一杯酸奶，估值1422亿

普京：“海燕”核动力巡航导弹完成“决定性试验”

22个州经济正在萎缩，消费者信心持续下跌，多家机构警告美国经济衰退

92岁默多克第6次订婚未婚妻第一任丈夫为俄石油大亨

外卖救了全聚德？

埃迪-豪7次面对伯恩茅斯场均积分0.7分，仅比对阵曼城、红军更多