爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

每体：西甲启...

A股公司老总...

女人到了60...

C罗再谈曼联...

女主播被伪装...

900万粉丝...

以总理发视频自证仍“在世”

特朗普:美对贩毒集团陆地打击行动可覆盖墨西哥等地区

男子认亲1年后被警方告知＂亲哥找到了＂：那家里的是谁

当35岁李沁遇上28岁陈哲远，CP感是门玄学

剧组撞死猫风波持续发酵

商业火箭勇闯A股！已有IPO进入辅导验收

当前最火的五部电视剧，《老舅》跌至第二

集微咨询发布《2025中国电源管理芯片行业上市公司研究报告》

上海市委原常委朱芝松被公诉曾长期从事军品工作

维斯塔潘：赛车的驾驶感受很糟糕，不指望在周六雨战有明显提升

29岁女孩感谢蔡磊:使用其团队研发药物后病情没再发展

梁婷为辛芷蕾发声：没什么可质疑的

74岁张纪中与年轻妻子结婚，真的过得幸福吗

美媒披露：美空军8天内向中东地区调派至少42架重型运输机

杨紫，值得一个肯定！

发现4种春季很衬肤色的办法，照着穿

中方回应是否会向伊朗提供军事支持

退出春晚、被综艺开除，贾玲的下场竟然如此?

“林下生金”，看生态与产业如何共振

美媒询问缅甸大选后中国会否同缅甸深化关系中方回应

87家央企＂一把手＂薪酬信息披露：年薪90万元以上19人

省委书记暗访次日市委书记赴现场办公要求加快整改

以色列对胡塞开展投弹量最大一次空袭

王菲没想到女儿窦靖童，会以头秃理由嫌弃亲爹