网易首页 > 网易号 > 正文 申请入驻

烧了 300 张 H100,新版开源 LLM 排行榜发布:中国模型 Qwen-72B 仍是第一!

0
分享至

整理 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

在这场旷日持久的百模大战中,不仅各家大模型在极致内卷,大模型排行榜的评测标准也在不断迭代。

目前,Hugging Face 的开源大模型排行榜(Open LLM Leaderboard)是大模型领域最具权威性的榜单,它收录了全球上百个开源大模型——本周三,Hugging Face 宣布推出新版开源大模型排行榜(Open LLM Leaderboard):“成绩已趋于平稳,那就让排行榜再次陡峭起来吧!”

在这个更具挑战性的排行榜中,昨日 Hugging Face 的联合创始人兼首席执行官 Clem 在 X 上宣布:阿里最新开源的 Qwen2-72B 指令微调版(Qwen2-72B-Instruct),力压科技巨头 Meta 的 Llama-3 和法国著名大模型平台 Mistralai 的 Mixtral,成为新版开源模型排行榜第一名

很高兴宣布全新的开源大模型排行榜。我们烧掉了 300 个 H100,重新对所有主流开源 LLM 进行了新的评估,如 MMLU-pro! 我们发现: - Qwen 72B 仍是王者,中国的开源模型在整体上占主导地位; - 以前的评估对最近的模型来说太容易了,就像用初中问题给高中生打分一样; - 有迹象表明,AI 构建者开始过于关注主要评估,而忽略了模型在其他评估上的表现; - 更大并不一定更聪明。

“彻底改变评估方式”,推出开源大模型排行榜 v2!

开源大模型排行榜诞生之前,Hugging Face 的 RLHF 团队经历了很艰难的一段时间:想要重现和比较几个已发布模型的结果,但发现这几乎是一项不可能完成的任务——很多论文和营销文中对模型的评分,都是在没有任何可重现代码的情况下给出的,难以复现。

因此,RLHF 团队决定以完全相同的设置(相同的问题、相同的提问顺序等)对参考模型进行评估,以收集完全可重复和可比较的结果——这就是 Hugging Face 开源大模型排行榜的诞生过程。

据 Hugging Face 统计,在过去 10 个月中超过 200 万人访问过这个榜单,每月有近 30 万人以不同方式在使用它,主要是为了:

(1)寻找最先进的开源模型。因为排行榜提供了可复现的分数,可以把市场宣传与实际表现区分开来。

(2)评估自己的工作。无论是预训练还是微调,用公开的方法与现有的最佳模型进行比较,以此赢得公众的认可。

但近一年时间下来,Hugging Face 发现随着模型性能不断提高,原来那套评测基准有点不够用了。首先这套基准已被过度使用,对许多模型来说没有太大难度,其次有部分模型就是用这套基准数据或与其非常相似的数据上训练出来的,评测结果可能不公平,最后有一些评测基准还存在错误需要纠正

基于以上原因,Hugging Face 决定“彻底改变评估方式”,推出开源大模型排行榜 v2!

Qwen2-72B 第一名的位置仍然不变

根据 Hugging Face 博文介绍,新版开源大模型排行榜具有无污染、高质量数据集的新基准,使用可靠的度量标准并测量有趣的模型功能。为此,Hugging Face 决定用以下 6 个基准来涵盖测评任务:MMLU-Pro、GPQA、MUSR、MATH、IFEval 和 BBH。

从新版开源大模型排行榜来看,尽管每个大模型的综合评分都因新评测基准有不同程度的降低,但 Qwen2-72B 第一名的位置仍然不变

可以看到,Qwen2-72B-Instruct 这六项基准的平均分最高,其中 MATH 和 BBH 这两项评分第一:

  • MATH 是一份从多个来源收集的中高级竞赛题汇总,且 Hugging Face 只保留了最难的问题,用 Latex 来处理方程,用 Asymptote 来处理数字,要求输出必须符合非常特定的统一格式。在数学方面,得益于大规模且高质量的数据,Qwen2-72B-Instruct 的数学解题能力大幅提高,尽管测评难度提升也达到了 35.12 分,相较于 Qwen1.5-110B 提高了 12 分, 比知名开源模型 Llama3-70B 也高出了将近 12 分

  • BBH 是 BigBench 数据集中 23 个挑战性任务的一个子集,这些任务包括:1)使用客观指标;2)难度大,因为语言模型的性能最初没有超过人类基准;3)包含足够多的样本以具有统计意义。它们包含多步骤算术和算法推理(理解布尔表达式、几何图形的 SVG 等)、语言理解(讽刺检测、名称消歧等)和一些世界知识。整体而言,BBH 上的表现与人类偏好密切相关——Qwen2-72B-Instruct 在方面达到了 57.48 的高分

另外,在 GPQA 和 MMLU-Pro 这两项上,Qwen2-72B 也夺得第一,平均分位于总榜第三

  • MMLU-Pro 是 MMLU 数据集的改进版,质量更高、难度更大。过去 MMLU 一直是多选知识的参考数据集,但最近研究表明该数据集既存在噪声(有些问题无法回答),又过于简单(由于模型能力的发展和污染的增加)。为此,Hugging Face 推出的 MMLU-Pro 为模型提供了 10 个选项(而不是原来的 4 个),要求对更多问题进行推理,并经过专家审核以减少噪声。Qwen2-72B 成为榜单中唯一一个 MMLU-Pro 评分超过 50 分的模型

  • GPQA 是一个难度极高的知识数据集,其中问题由该领域的专家(生物学、物理学、化学等方面的博士级专家)设计,且经过多轮验证以确保难度和事实性,对于普通人来说很难回答。从模型普遍较低的整体得分来看,新版 GPQA 评测存在较高难度,Qwen2-72B 的 19.24 分目前已是最高分

值得一提的是,除了 Qwen2-72B,榜单前列还有我们许多熟悉的中国模型:零一万物的 Yi-1.5-34B-Chat 处在第 7 名,Qwen1.5-110B 和 Qwen1.5-110B-Chat 也分别位于榜单第 10 名和第 11 名——正如 Hugging Face 联合创始人兼首席执行官 Clem 所说:“中国的开源模型在整体上占主导地位。

https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

https://huggingface.co/spaces/open-llm-leaderboard/blog

由 CSDN 和 Boolan 联合主办的「2024 全球软件研发技术大会(SDCon)」将于 7 月 4 -5 日在北京威斯汀酒店举行。

由世界著名软件架构大师、云原生和微服务领域技术先驱 Chris Richardson 和 MIT 计算机与 AI 实验室(CSAIL)副主任,ACM Fellow Daniel Jackson 领衔,华为、BAT、微软、字节跳动、京东等技术专家将齐聚一堂,共同探讨软件开发的最前沿趋势与技术实践。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股重磅资金报告:周五杀跌元凶浮出水面!真相让散户无法接受!

A股重磅资金报告:周五杀跌元凶浮出水面!真相让散户无法接受!

丁丁鲤史纪
2026-05-30 13:54:27
华为“t定律”被指是过时概念,台积电高管:在业界已存在相当长时间

华为“t定律”被指是过时概念,台积电高管:在业界已存在相当长时间

风向观察
2026-05-30 19:10:22
郝军辉任中央组织部副部长

郝军辉任中央组织部副部长

中国经济网
2026-05-30 14:23:25
一张8人“全家福”4人遇难,亲历者讲述永川特大暴雨:亲眼看着亲人的房子被泥石流冲垮

一张8人“全家福”4人遇难,亲历者讲述永川特大暴雨:亲眼看着亲人的房子被泥石流冲垮

大风新闻
2026-05-30 14:32:08
上海队前往杭州!2外援没随队,怀特塞德大概率赛季报销

上海队前往杭州!2外援没随队,怀特塞德大概率赛季报销

体育哲人
2026-05-30 18:22:09
郑州有地铁站公益广告“黑着灯”,商业广告却通明,市民质疑“区别对待”;地铁方:将核查

郑州有地铁站公益广告“黑着灯”,商业广告却通明,市民质疑“区别对待”;地铁方:将核查

大风新闻
2026-05-29 20:56:19
俄乌战争,如果俄罗斯最终赢了,你我在有生之年很可能会亲历战争

俄乌战争,如果俄罗斯最终赢了,你我在有生之年很可能会亲历战争

混沌录
2026-05-29 23:26:12
大学食堂打饭阿姨因身材太好被拍照,火了!

大学食堂打饭阿姨因身材太好被拍照,火了!

微微热评
2026-05-30 09:28:52
中国没给面子,普京回国后认清现实,沉默一周后,终究还是妥协了

中国没给面子,普京回国后认清现实,沉默一周后,终究还是妥协了

吃货的分享
2026-05-30 15:32:16
03年毒杀案:苏州白衣屠夫,用2年把妻子毒成心脏病后,实施灭口

03年毒杀案:苏州白衣屠夫,用2年把妻子毒成心脏病后,实施灭口

墨策史
2026-05-29 10:47:10
耿同学又爆新料!多所985名校顶刊论文集体沦陷

耿同学又爆新料!多所985名校顶刊论文集体沦陷

网易新闻出品
2026-05-29 19:29:43
禁投美股,难得全球大国中惟一正确

禁投美股,难得全球大国中惟一正确

家传编辑部
2026-05-30 12:24:47
1.2万亿顺差创百年纪录,张燕生却警告:再赚下去,中国要有麻烦

1.2万亿顺差创百年纪录,张燕生却警告:再赚下去,中国要有麻烦

趣文说娱
2026-05-29 20:13:52
赖清德的后台终于现出原形,大陆这回铁定下手不留情!

赖清德的后台终于现出原形,大陆这回铁定下手不留情!

橙色书卷
2026-05-28 15:02:05
古巴8个鲜为人知的事实:曾迫使数万华人流亡,从富裕国家滑落至极度困难

古巴8个鲜为人知的事实:曾迫使数万华人流亡,从富裕国家滑落至极度困难

三言四拍
2026-05-30 13:05:06
印度高温近50℃!宿舍没有空调 中国留学生被热到提前回国

印度高温近50℃!宿舍没有空调 中国留学生被热到提前回国

封面新闻
2026-05-30 14:26:04
“结婚22年后发现两儿子均非亲生”当事人发声:我对他们恨之入骨!

“结婚22年后发现两儿子均非亲生”当事人发声:我对他们恨之入骨!

新民周刊
2026-05-30 17:32:14
41岁夫妻因“房事频繁”双双入院,医生提醒:每周不应超过一个数

41岁夫妻因“房事频繁”双双入院,医生提醒:每周不应超过一个数

医学原创故事会
2026-05-29 23:34:07
永别了,“千面如来”刘洵,他真的是一位好演员!

永别了,“千面如来”刘洵,他真的是一位好演员!

新民周刊
2026-05-30 14:28:40
44岁央视主持人杨帆患癌两月,已开启人生新篇章

44岁央视主持人杨帆患癌两月,已开启人生新篇章

梦醉为红颜一笑
2026-05-30 14:40:01
2026-05-30 19:20:49
CSDN incentive-icons
CSDN
成就一亿技术人
26594文章数 242292关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

伊朗浓缩铀材料将被挖出销毁 特朗普就战事最新表态

头条要闻

伊朗浓缩铀材料将被挖出销毁 特朗普就战事最新表态

体育要闻

岁月不饶人!39岁德约鏖战近5小时拼到呕吐

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

时尚
家居
房产
公开课
军事航空

2026夏天最新5款发型合集,每一款都超心动!

家居要闻

云栖 舒展如流云

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美防长参加"香会" 就美中关系最新表态

无障碍浏览 进入关怀版