网易首页 > 网易号 > 正文 申请入驻

美国知名测评:继DeepSeek后,通义千问也追上OpenAI

0
分享至

中国不仅有DeepSeek,还有通义千问。

阿里云通义团队于大年初一发布旗舰模型“Qwen2.5-Max”,已成为继深度求索(DeepSeek)后,第二家可以比肩美国OpenAI公司o1系列的中国大语言模型。

近日,三方基准测试平台LMArena的大语言模型盲测榜单(“ChatBot Arena LLM”)最新排名显示,“Qwen2.5-Max”以1332分排总榜第7名,超过了深度求索的“DeepSeek-V3”以及OpenAI的“o1-mini”。而在数学和编程方面,“Qwen2.5-Max”则排名第1,在Hard prompts方面排名第2。

“ChatBot Arena LLM”榜单由美国加州大学伯利克分校天空计算实验室与LMArena联合开发,通过用户盲测的方式,覆盖了对话、代码、图文生成、网页开发等多维度能力评估,最终基于260万票结果反映出197个模型在真实体验下的排名情况,也是业内公认的权威榜单。

该榜单最新的更新时间为当地时间的2月2日,其中OpenAI的多个版本模型占据高位,比如第3位的“ChatGPT-4o”,同时还有谷歌的“Gemini-2.0”、xAI的“Grok-2”等,但这些模型均为闭源模型。

而在开源模型方面,“DeepSeek-R1”一骑绝尘,与“ChatGPT-4o-latest”并列榜单第3,紧随其后的就是排名第7的阿里云通义“Qwen-max-2025-01-25”(即Qwen2.5-Max),“DeepSeek-V3”和中国智谱模型“GLM-4-Plus-0111”则分别排名第8、第9,而阶跃星辰的“Step-2-16K-Exp”模型则与“o1-Mini”并列第10。榜单前10名中有5个中国大语言模型,也体现出中国人工智能团队在全球范围内的强技术竞争力。

去年6月、9月,阿里云通义模型也曾两度登顶全球最强开源模型的宝座,但由于未能追平超越闭源模型,讨论热度不及12月的DeepSeek-V3。今年1月29日凌晨1时,阿里云通义团队正式对外发布“Qwen2.5-Max”,该模型采用超大规模混合专家(MoE, Mixture of Experts)架构,训练数据超过20万亿tokens,并在知识(测试大学水平知识的MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等主流权威基准测试上,展现出全球领先的模型性能。

值得注意的是,“Arena-Hard”项主要测试模型在复杂指令理解和多轮对话中的表现,涵盖了各种领域的知识和任务,并且打分的时候要严格对齐人类偏好。其中,对游戏开发、数学证明等专业项会给予较高分数,而对类似全球餐厅推荐、送礼创意等答案会出现模棱两可情况的问题给予较低权重,“评委”则通常也由国外模型担当。而这种情况下,“Qwen2.5-Max”在该基准测试中仍能够迅速分析问题,整合相关知识,给出全面且准确的回答,最终以89.4分超越全部对比模型(DeepSeek-V3、Llama-3.1-405B-Inst、GPT-4o-0806、Claude-3.5-Sonnet-1022)。

据阿里云称,由于无法访问“GPT-4o”和“Claude-3.5-Sonnet”等闭源模型的基座模型,通义团队将“Qwen2.5-Max”与目前领先的开源MoE模型“DeepSeek V3”、最大的开源稠密模型“Llama-3.1-405B”,以及同样位列开源稠密模型前列的“Qwen2.5-72B”进行了对比。在包括MMLU等所有11项基准测试中,Qwen2.5-Max全部超越了对比模型。

对此,ChatBot Arena官方给出评价:“(Qwen2.5-Max)在多个领域表现强劲,特别是专业技术向的(编程、数学、硬提示等)。”

本文系观察者网独家稿件,未经授权,不得转载。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
利物浦核心中卫或自由身离队 国际米兰已接触其团队

利物浦核心中卫或自由身离队 国际米兰已接触其团队

坠入温柔晚风
2026-05-31 02:06:12
韩国变天!尹锡悦判无罪,朴槿惠出山公开助选,李在明大势已去?

韩国变天!尹锡悦判无罪,朴槿惠出山公开助选,李在明大势已去?

史行途
2026-05-30 18:05:39
半场1-0,阿森纳暴击欧冠卫冕冠军,26岁德国尖刀奔袭+小角度爆杆

半场1-0,阿森纳暴击欧冠卫冕冠军,26岁德国尖刀奔袭+小角度爆杆

侧身凌空斩
2026-05-31 00:53:58
爆亏23亿,理想没了“光环”!

爆亏23亿,理想没了“光环”!

互联网品牌官
2026-05-28 18:47:26
上海26岁女博士怀孕五个月查出胰腺癌,丈夫凑了200万为她治病,谁料,女子竟哭着大喊:你们再逼我化疗,我就从20楼跳下去!

上海26岁女博士怀孕五个月查出胰腺癌,丈夫凑了200万为她治病,谁料,女子竟哭着大喊:你们再逼我化疗,我就从20楼跳下去!

大爱三湘
2026-05-30 20:18:34
印度富婆看不起中国,携带200万元就来炫富,结果想在中国定居

印度富婆看不起中国,携带200万元就来炫富,结果想在中国定居

千秋文化
2026-05-29 19:52:25
我们是弃子,但我们不走!87年后松江那支全军覆没孤军必须被正名

我们是弃子,但我们不走!87年后松江那支全军覆没孤军必须被正名

浪子说
2026-05-31 00:50:03
烂透了!当下食品行业的道德底线,早已被贪婪的利益彻底碾碎。

烂透了!当下食品行业的道德底线,早已被贪婪的利益彻底碾碎。

二大爷观世界
2026-05-29 00:21:23
“司机激活智驾,双手脱离方向盘”,一轿车追尾货车致3死,调查报告公布

“司机激活智驾,双手脱离方向盘”,一轿车追尾货车致3死,调查报告公布

南方都市报
2026-05-30 10:38:10
抓住岳母把柄,女婿答应为其保密,随后提出一个要求让岳母崩溃

抓住岳母把柄,女婿答应为其保密,随后提出一个要求让岳母崩溃

麦子情感故事
2026-05-30 14:20:32
惠州惠东县农业农村局原局长李小明被查

惠州惠东县农业农村局原局长李小明被查

南方都市报
2026-05-30 18:26:15
一集三场床戏,这部成人新剧太会拍了

一集三场床戏,这部成人新剧太会拍了

i书与房
2026-05-28 12:23:55
戈登转会巴萨,拉什福德的路是堵死还是更宽?

戈登转会巴萨,拉什福德的路是堵死还是更宽?

热血体育社
2026-05-31 01:54:20
我的三星表终于连上三星手机,才懂这些年白玩了

我的三星表终于连上三星手机,才懂这些年白玩了

码上闲叙
2026-05-31 02:00:57
提醒老年人:过了70岁,宁愿天天玩手机,也不要随便做这5件事!

提醒老年人:过了70岁,宁愿天天玩手机,也不要随便做这5件事!

垚垚分享健康
2026-05-10 22:20:05
50岁李小冉机场吃面,褪去滤镜才懂,普通人的衰老藏不住

50岁李小冉机场吃面,褪去滤镜才懂,普通人的衰老藏不住

庭小娱
2026-05-13 12:06:40
曼城或成帕莱斯特拉争夺战最大热门

曼城或成帕莱斯特拉争夺战最大热门

赛场名场面
2026-05-31 02:13:48
你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

夜深爱杂谈
2026-04-09 19:39:13
景甜身材真丰腴!穿紧身T恤+短裤秒变“大号水蜜桃”,又纯又欲

景甜身材真丰腴!穿紧身T恤+短裤秒变“大号水蜜桃”,又纯又欲

蓓小西
2026-05-24 09:31:04
Apple TV+新剧大胆探讨在线性工作,三部美剧同时聚焦同一话题

Apple TV+新剧大胆探讨在线性工作,三部美剧同时聚焦同一话题

热搜摘要官
2026-05-29 01:39:05
2026-05-31 03:16:49
观察者网 incentive-icons
观察者网
全球视野,中国关怀
142206文章数 1850707关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

体育要闻

岁月不饶人!39岁德约鏖战近5小时拼到呕吐

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

本地
手机
游戏
旅游
公开课

本地新闻

用剪纸的方式,打开江苏扬州

手机要闻

REDMI K90至尊版入网?K90单品激活破200万

巫师3新DLC跨十年:年轻玩家在初发售时还是小孩!

旅游要闻

伊利亮相2026“跟着品牌去旅行”对接交流活动 以工业文旅融合彰显中国品牌力量

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版