关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012431人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

绿色+棕色,今年秋天最美配色!

LinkFashion 浏览 4296

央视这波选剧真是绝了!整部剧均是整容脸,能看下去的都是能人!

肆季娱乐 浏览 1424

定位顶级奢华MPV 奔驰VLE测试谍照曝光

车质网 浏览 2259

基准新规划定过渡期!近75%基金“及格线”或需调整

券商中国 浏览 2488

惠若琪拟任新职!父母没生儿子被轻视

东方不败然多多 浏览 1947

传祺向往S9正式上市,22.99万起就能入手

车扯 浏览 3435

面见查尔斯后,哈里夫妇首度合体亮相

草莓解说体育 浏览 3350

身价第一的全球大网红“野兽先生”哭穷,为啥?

喜欢历史的阿繁 浏览 3224

北汽新能源与小马智行达成全面深化战略合作

观察者网 浏览 1649

美国国务院要求美国公民立即离开伊朗

新华社 浏览 1438

中国游客滞留迪拜:巨型邮轮变临时避难所 5千人被困

极目新闻 浏览 765

泽连斯基向特朗普展示俄境内潜在打击目标地图

环球网资讯 浏览 2665

缺席训练!曝25岁主力门将遭申花“三停”,上轮中超赛后通宵泡吧

我爱英超 浏览 2680

被霍尔木兹海峡"困"住 中国货代2周损失140万焦头烂额

新京报 浏览 77750

格陵兰岛"任何情况下都不接受美接管"

新京报 浏览 1586

保时捷下一代电动 718 Cayman 原型车路测图曝光

IT之家 浏览 2799

伊朗最高领袖重申“将向敌人索赔”

国际在线 浏览 456

这部创造口碑和票房奇迹的悬疑佳作十周年啦

幕味儿 浏览 2786

林俊贤景区打工,如今成了这样

动物奇奇怪怪 浏览 2711

与欧洲领导人通话 特朗普“言辞强硬”

环球网资讯 浏览 1997

意乙巴里队球迷诅咒自家球员全家得癌症,球员妻子已报警

懂球帝 浏览 1800
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1