网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

2024-09-11 18:22:22　来源: 爱范儿

广东举报

0

分享至

你有没有想过一个问题：AI 模型是怎么论资排辈的？

和人类的高考一样，它们也有自己的考试——基准测试（Benchmark）。

不过，高考就那么几个科目，基准测试的花样就多了，有的考察通识，有的专攻某一项能力，数学、代码、阅读理解，无所不包。

▲Google 发布Gemini 时的基准测试排名

基准测试的好处是直观，榜单这么一拉，得分高低一目了然，比大段的文字更有拉拢用户的效果。

然而，测归测，准不准就不一定了。因为最近的一个疑似造假事件，基准测试的可信度又下降了一层。

开源模型新王者，转眼被「打假」

9 月 6 日，Reflection 70B 的出现，仿佛是个奇迹。它来自名不见经传的纽约初创公司 HyperWrite，却自封了「世界顶级开源模型」的称号。

开发者 Matt Shumer 是怎么证明这一点的呢？用数据。

在多项基准测试中，参数仅有 70B 的它，打败了 GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B 等一众大佬。比顶尖闭源模型还有性价比，瞬间惊艳众人。

Reflection 70B 并非从石头里蹦出来，自称基于 Meta 的 Llama 3.1 70B，花了 3 周训练，用到了一种新的技术 Reflection-Tuning，可以让 AI 检测自身推理中的错误，并在回答之前纠正。

用人类思维类比，这有点像《思考，快与慢》从系统一到系统二的转换，提醒 AI 悠着点，别脱口而出，而是减慢推理速度，也减少幻觉，给出更合理的答案。

然而，质疑声很快就来了。

9 月 8 日，第三方测评机构 Artificial Analysis 表示，他们没能复现基准测试的结果。

比如，其中一项基准测试 MMLU 的分数，Reflection 70B 和 Llama 3 70B 相同，但明显低于 Llama 3.1 70B，更别说 GPT-4o。

Matt Shumer 回复了质疑，解释第三方的结果更差，是因为 Reflection 70B 的权重在上传到 Hugging Face 时出现了问题，导致模型的性能不如内部的 API 版本。

理由蹩脚了点，两者交锋有来有回，随后 Artificial Analysis 又表示，他们拿到了私有 API 的权限，表现确实不错，但还是没有达到当初官宣的水平。

紧接着，X、Reddit 的网友们也加入了「打假」队伍，质疑 Reflection 70B 是直接在基础测试集上训练的 LoRA，基础模型是 Llama 3，所以能在榜单刷分，实则能力不行。

甚至有人指责，Reflection 70B 套壳了 Claude，从头到尾就是在骗人。

9 月 11 日，面对舆论，Matt Shumer 团队给出了声明，否认了套壳 Claude，尚不清楚为什么基准测试的分数没法复现。

分数虚高，可能是一开始就错了，数据污染，或者配置错误，请大家再给他们一些时间。

目前事件还没有最终的定论，但至少说明一个问题，AI 榜单的可信度需要打个问号，拿刷榜的高分自我营销，对不明真相的群众而言很有迷惑性。

五花八门的大模型考试，人类的排名焦虑

让我们回到最基础的问题：怎么评价一款大模型的性能？

一个比较简单粗暴的方式是看参数量，比如 Llama 3.1 就有多个版本，8B 适合在消费级 GPU 上部署和开发，70B 适合大规模 AI 原生应用。

如果说参数量是「出厂设置」，表现模型的能力上限，基准测试则是通过「考试」，评估模型在具体任务中的实际表现，至少有数十种，侧重点不同，彼此分数还不互通。

2020 年发布的 MMLU，又称大规模多任务语言理解，是目前最主流的英文评测数据集。

它包含约 1.6 万个多项选择题，覆盖数学、物理、历史、法律、医学等 57 个科目，难度从高中到专家，是一种通用智力测试。模型回答正确的题目越多，水平就越高。

去年 12 月，Google 表示，Gemini Ultra 在 MMLU 的得分高达 90.0%，高于 GPT-4。

但是，他们也不隐瞒，提示 Gemini 和 GPT-4 的方式不同，前者是 CoT（逐步推理），后者是 5-shot，所以这个分数可能不够客观。

当然，也有测试大模型各项细分能力的基准测试，列举起来就太多了。

GSM8K 主要考察小学数学，MATH 也考数学，但更偏竞赛，包括代数、几何和微积分等，HumanEval 则考 Python 编程。

除了数理化，AI 也做「阅读理解」，DROP 让模型通过阅读段落，并结合其中的信息进行复杂推理，相比之下，HellaSwag 侧重常识推理，和生活场景结合。

▲ HellaSwag 基准测试的测试题

虽然英文居多，中文大模型也有自己的基准测试，比如 C-Eval，由上海交通大学，清华大学，爱丁堡大学共同完成，涵盖微积分等 52 个学科的近 1.4 万道题目。

▲ 中文基准测试 SuperCLUE 测试逻辑与推理

那么「评卷老师」是谁？大概分为三种，一是自动化程序，比如编程的基准测试，模型生成的代码通过自动执行验证正确与否，二是用 GPT-4 等更强大的模型做裁判，三是人工。

混合拳这么一打，比四书五经六艺全面多了。但基准测试也存在严重的隐患。背后的公司「既当裁判又当运动员」，和老师怕学生作弊的情况如此相似。

一个隐患是容易泄题，导致模型「抄答案」。

如果基准测试的测试集是公开的，模型可能已经在训练过程中「见过」这些问题或答案，导致模型的表现结果不真实，因为模型可能不是通过推理解答问题，而是记住了答案。

这就涉及到数据泄露和过拟合的问题，导致模型的能力被高估。

▲ 人民大学等高校的研究指出，与评估集相关的数据偶尔会用于模型训练

还有一个隐患是花样作弊，这里有很大的人为操作空间。

Reflection 70B 在 X 被讨论得如火如荼的时候，英伟达高级研究科学家 Jim Fan 发帖表示：操纵基准测试，不难。

比如，从「题库」入手，基于测试集的改写例子训练模型。将测试集里的问题以不同的格式、措辞、语言重写，可以让一个 13B 的模型在 MMLU、GSM8K、HumanEval 等基准测试中打败 GPT-4，倒反天罡。

同时，也可以改变「做题方式」，增加推理的算力，通过自我反思（Self-reflection）、思维树（Tree of Thought）等，让模型减慢推理、多次推理，从而提高准确性。

Jim Fan 的态度很明确：

很惊讶，到了 2024 年 9 月，人们仍然为 MMLU 或 HumanEval 的分数兴奋。这些基准测试已经严重失效，操控它们可以成为本科生的作业。

另外，基准测试的难度，可能不一定跟得上 AI 的发展速度，因为它们通常是静态的、单一的，但 AI 在狂奔。

参与开发 MMLU 的 AI 安全研究员 Dan Hendrycks，在今年 4 月告诉 Nytimes，MMLU 可能还有一两年的保质期，很快会被不同的、更难的测试取代。

百模大战，人类社会的排名焦虑被传递给了 AI，各种暗箱操作之下，AI 排行榜成为一种营销工具，却鱼龙混杂，不那么可信。

AI 模型哪家强，用户会投票

但很多时候，有数据、有标准，事情才好办。

基准测试是一个结构化的打分框架，可以作为用户选择模型的一个因素，也可以帮助模型进步。做中文基准测试的 C-Eval 甚至直言：「我们的最重要目标是辅助模型开发。」

基准测试有其存在价值，关键是怎么变得更权威、更可信。

我们已经知道，如果测试集被用于模型训练，可能导致模型在基准测试「作弊」，一些第三方的测评，便从这个缺口入手。

数据标注公司 Scale AI 的 SEAL 研究实验室，很强调自身数据集的私密性。很好理解，「闭卷考」，才能见真章。

目前，SEAL 可以测试模型的编码、指令跟踪、数学和多语言能力，未来还会增加更多测评的维度。

▲ 今年 8 月 SEAL 的编码能力排名

除了做题、打分的模式，还有一种更接地气的基准测试：竞技场。

其中的代表是 Chatbot Arena，由卡内基梅隆大学、加州大学伯克利分校等研究人员的非营利组织 LMSYS 发起。

它让匿名、随机的 AI 模型相互竞争，并由用户投票选出最佳模型，然后使用国际象棋等竞技游戏常用的 Elo 评分系统排名。

具体来说，我们可以在线向两个随机选择的匿名模型 A 和 B 提问，然后给两个答案投个票，更喜欢 A，更喜欢 B，平局，还是都不喜欢，这时候，我们才能看到 A 和 B 模型的真面目。

我提的问题是之前难倒过很多 AI 的「9.9 还是 9.11 大」，两个模型都答错了，我点了个踩，发现抽中的幸运儿一个是 GPT-4o，一个是法国的 Mixtral。

Chatbot Arena 的长处很明显，海量用户提出的问题，肯定比实验室捣鼓出的测试集复杂和灵活得多。人人看得见摸得着用得了，排名也就更接近现实世界的需求。

不像一些基准测试，测试高等数学，测试输出安不安全，其实离研究更近，离大多数用户的需求很远。

目前，Chatbot Arena 已经收集了超过 100 万个投票。马斯克的 xAI，也用过 Chatbot Arena 的排名背书。

但也有人持反对意见，认为 Chatbot Arena 会被少数用户的偏见影响，萝卜青菜各有所爱，有些用户可能喜欢更长的答案，也有些用户欣赏言简意赅，文无第一，这怎么比？

所以，Chatbot Arena 最近做出了一个调整，区分了「风格」和「内容」这两个指标，「内容」是说什么，「风格」是怎么说。通过控制对话长度和格式的影响，排名发生了改变。

简言之，怎么测，基准测试都不能保准，也不能被迷信，它们只是一种参考，就像高考只能反映学生的部分能力。

当然，最令人不满的行为，是主观地在基准测试刷榜，为自己背书，单纯地追求华而不实的排名。

回归初衷，我们都是要用 AI 解决现实问题，开发产品，写段代码，生成图片，做个心理咨询收获点情绪价值......基准测试没法帮你回答，哪个 AI 讲话更好听。

假的真不了，用脚投票，小马过河，才是最朴素的道理。那些更主观、更个人的感受和体验，仍然要用我们的实践换取。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

机器之心Pro 2024-09-03 14:38:55
0 跟贴 0
AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

量子位 2024-09-08 13:27:35
40 跟贴 40

OpenAI重金押注，机器人NEO世界模型登场！机器人迎来ChatGPT时刻？

新智元 2024-09-18 12:35:24
27 跟贴 27

最有打工天赋的机器人出现了！一镜到底的连续大负载搬运，动态超稳，来自国产的逐际动力

量子位 2024-08-12 10:39:39
0 跟贴 0
用AI自动设计智能体，数学提分25.9%，远超手工设计

机器之心Pro 2024-08-23 10:40:17
0 跟贴 0

针对全球零工招聘的AI助手来了！基于GPT-4构建，自动化程度大幅提升

智东西 2024-09-18 21:40:09
0 跟贴 0

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

量子位 2024-07-09 12:03:11
0 跟贴 0
抢疯了，腾讯给大模型人才，定了一个前所未有的标准

机器之心Pro 2024-06-21 15:20:08
0 跟贴 0

鹅厂造了个AI翻译公司：专攻网络小说，真人和GPT-4看了都说好

量子位 2024-05-25 15:40:12
0 跟贴 0
国内开店卷不动，换上AI出海试试

量子位 2024-07-17 16:09:25
0 跟贴 0
不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

量子位 2024-09-04 13:29:57
0 跟贴 0
机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

量子位 2024-09-04 18:16:57
3 跟贴 3
甲骨文埃里森：未来10年前沿模型门槛或达千亿美元，AI训练难以全部转向推理阶段｜钛媒体AGI

钛媒体APP 2024-09-17 12:15:25
13 跟贴 13
全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

爱范儿 2024-07-04 20:41:36
0 跟贴 0
大疆前高管带6人创业，做出了类目Top1的割草机器人

钛媒体APP 2024-05-30 14:49:18
0 跟贴 0
Python爆火可视化插件来了！拖拽就成动态GUI，一行代码都不用，真·数据科学神器

量子位 2024-07-17 15:28:33
0 跟贴 0
扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

量子位 2024-08-21 21:58:10
0 跟贴 0
总投资额高达7000亿！微软、贝莱德等联合成立全球最大AI投资基金｜钛媒体AGI

钛媒体APP 2024-09-18 19:40:24
24 跟贴 24
模型开源应关注什么？开源社区如何降门槛？阿里云AI专家为你解答

量子位 2024-08-29 23:08:00
0 跟贴 0
大模型如何助力企业AI创新？阿里云AI专家为你解答哪些因素影响企业用户选择模型服务平台？检索增强R

量子位 2024-09-05 20:40:15
0 跟贴 0
AI可能造成人类灭绝，真的还是炒作？

量子位 2024-09-11 12:40:35
0 跟贴 0
45分钟造出聊天机器人？8岁女孩玩转AI代码，百万网友围观这个爆火AI编程工具Cursor真的杀疯

量子位 2024-08-28 17:41:31
0 跟贴 0
具身智能让AI直接作用于物理世界，前所未有地颠覆了生产力

智东西 2024-08-15 17:16:28
0 跟贴 0
一口气看完 WAIC百度智能云展台 WAIC现场百度智能云大秀绝活，一句话生成数字人，超低门槛搭建应

量子位 2024-07-08 19:49:57
0 跟贴 0
练习时长两年半，机器人转笔大师诞生！不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到

量子位 2024-08-05 15:34:26
0 跟贴 0
机器人独立造车真的可行吗？网友脑洞大开试验，结果来了！

量子位 2024-09-03 10:49:25
0 跟贴 0
大模型如何助力企业AI创新？阿里云AI专家为你解答

量子位 2024-09-05 23:40:00
0 跟贴 0
被AI量产的短视频营销号气疯了，于是，我也做了一个

量子位 2024-06-20 18:31:10
0 跟贴 0
Qwen2.5登全球开源王座！72B击败LIama3 405B，轻松胜GPT-4o-mini

量子位 2024-09-19 13:32:00
2 跟贴 2
几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

机器之心Pro 2024-09-04 22:17:21
28 跟贴 28
十问CPU做AI推理，伪命题还是真需求？

量子位 2024-07-16 17:16:48
0 跟贴 0
解放军仍有400万人？美国《中国军力年度报告》数据从何而来？

勇士军武闲谈 2024-09-18 00:33:45
0 跟贴 0
好家伙！巴铁利用精湛技术造假？居然把钢筋加工成了麻花钻头！

超神视界 2024-09-19 10:05:16
0 跟贴 0
大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

机器之心Pro 2024-08-16 17:22:16
0 跟贴 0
OpenAI o1可不受限自主思考人工智能会失控吗

周鸿祎 2024-09-18 14:20:47
11 跟贴 11
2004年，小伙抽中宝马被告彩票造假，警察后揭秘：只有你不是托儿

夏目历史君 2024-09-16 16:01:36
13 跟贴 13
古代银票就一张纸，为何没人造假？你看看上面那行字，怎么造假？

安稳的建建 2024-09-17 09:55:03
0 跟贴 0
实证日本妄图长期占领我国东北

央视新闻客户端 2024-09-17 15:48:46
41949 跟贴 41949
大唐不夜城我摔一跤，引来个别人发声明

司马南频道 2024-09-18 17:19:55
8181 跟贴 8181
权威发布：威海市区土地级别与基准地价调整

大众日报 2024-09-19 12:27:21
0 跟贴 0

爆笑经典姑娘搞笑笑话，与同一楼层的姑娘同乘一部电梯，她放了一个声音起伏有点夸张的屁然后！

爆笑经典姑娘搞笑笑话，与同一楼层的姑娘同乘一部电梯，她放了一个声音起伏有点夸张的屁然后！

天天明星

2024-09-18 13:12:26

贵州首席记者被注射死刑，行刑前安慰母亲：妈妈，没事的

贵州首席记者被注射死刑，行刑前安慰母亲：妈妈，没事的

莉雅细细谈

2024-09-10 22:13:52

姜萍事件惊人内幕！多个部门出丑，草台班子神造闹剧！

姜萍事件惊人内幕！多个部门出丑，草台班子神造闹剧！

阿握看历史

2024-06-24 17:19:23

中国「穷鬼」留学生，正在涌入英国...

中国「穷鬼」留学生，正在涌入英国...

INSIGHT视界

2024-09-17 22:33:20

华为Mate 70新机首秀！新一代旗舰芯片，价格已曝光

华为Mate 70新机首秀！新一代旗舰芯片，价格已曝光

小柱解说游戏

2024-09-19 08:40:15

48岁的梁咏琪坐地铁，瞧这双大脚，目测40码

48岁的梁咏琪坐地铁，瞧这双大脚，目测40码

喜文多见01

2024-09-19 10:04:21

网友吐槽农村中秋冷冷清清，年轻人都不喜欢过节吗？评论区炸锅

网友吐槽农村中秋冷冷清清，年轻人都不喜欢过节吗？评论区炸锅

看晓天下事

2024-09-18 13:14:58

黄晓明紧急否认再婚！送叶珂钻戒是感情需要，并不代表已经结婚

黄晓明紧急否认再婚！送叶珂钻戒是感情需要，并不代表已经结婚

快乐娱文

2024-09-19 11:44:19

今晚开播！又一27集都市大剧来袭，演员阵容不错，有爆款潜质！

今晚开播！又一27集都市大剧来袭，演员阵容不错，有爆款潜质！

蓝莓影视推荐

2024-09-19 13:20:38

iPhone 16 Pro Max评测，续航“逆天”，散热大提升

iPhone 16 Pro Max评测，续航“逆天”，散热大提升

北境不忘

2024-09-19 10:41:57

身患重病?42岁余文乐晒照颜值崩坏像80岁老头,疲态尽现吓坏网民

身患重病?42岁余文乐晒照颜值崩坏像80岁老头,疲态尽现吓坏网民

八卦王者

2024-09-16 22:01:00

不得不说古力娜扎太高了，赵丽颖穿了10公分的高跟鞋，却仍比她矮

不得不说古力娜扎太高了，赵丽颖穿了10公分的高跟鞋，却仍比她矮

人情皆文史

2024-09-19 00:34:04

张雨绮发表情包回应被换角风波，还是这么刚，内心很强大啊

张雨绮发表情包回应被换角风波，还是这么刚，内心很强大啊

毒舌说历史1

2024-09-19 11:30:12

美诚月饼里有没有黑松露？王海晒配料表称“三只羊”该退一赔十

美诚月饼里有没有黑松露？王海晒配料表称“三只羊”该退一赔十

现代快报

2024-09-18 19:32:07

女子写58页PPT曝光管培生男友PC，一年二三十次，一次消费5530

女子写58页PPT曝光管培生男友PC，一年二三十次，一次消费5530

辣条小剧场

2024-09-19 12:08:58

深圳日本人学校一学生被刺伤，外交部：案件还在进一步调查中

深圳日本人学校一学生被刺伤，外交部：案件还在进一步调查中

澎湃新闻

2024-09-19 00:36:26

美联储激进开启降息周期！调查：近八成投资者认为美股将继续攀升

美联储激进开启降息周期！调查：近八成投资者认为美股将继续攀升

财联社

2024-09-19 08:54:28

原来这么多人工资回到3000时代了?大家都挺能藏啊，还有开一千的

原来这么多人工资回到3000时代了?大家都挺能藏啊，还有开一千的

有趣的火烈鸟

2024-09-18 17:03:09

台风普拉桑强势来袭，大雨暴雨中心已定，今天夜间~21日天气预报

台风普拉桑强势来袭，大雨暴雨中心已定，今天夜间~21日天气预报

小虎新车推荐员

2024-09-19 08:36:22

“普拉桑”登陆点，又有上海浦东！不排除继续调整可能性！风雨影响或持续三天

“普拉桑”登陆点，又有上海浦东！不排除继续调整可能性！风雨影响或持续三天

环球网资讯

2024-09-19 13:47:24

消费科技第一媒体

36477文章数 2593935关注度

往期回顾全部

科技要闻

未来几年销量会涨，谁还在使用BP机?

头条要闻

海南三亚民企创始人家族被指"涉恶" 企业被国企"托管"

头条要闻

海南三亚民企创始人家族被指"涉恶" 企业被国企"托管"

体育要闻

全村只有282人却拥有一支顶级联赛球队

娱乐要闻

黄晓明官宣与叶珂恋情：我们在一起了

财经要闻

美联储降息50个基点对国内形成5大利好

汽车要闻

预售价33.98万腾势Z9预计第四季度上市

态度原创

本地

游戏

时尚

数码

公开课

本地新闻

中秋节都过完了，潮汕人的脑子里还在滴滴滴

类魂动作RPG游戏《艾诺提亚：失落之歌》现正发售

看来看去，还是“日杂风”穿搭更时髦耐看，更适合50+的女人

数码要闻

小米米家无雾加湿器 3（800）众筹：6L 银离子水箱，599 元

公开课

改变人生的10件小事

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版