网易首页 > 网易号 > 正文 申请入驻

【深度】谁在评价大模型?AI大模型评测榜单乱象调查

0
分享至

界面新闻记者 | 李京亚 于浩
界面新闻编辑 | 文姝琪 刘方远

“大模型”无疑仍是当下科技互联网界最大的热点。2022年末,OpenAI发布ChatGPT3.5,像一粒投入池塘的石子,迅速在国内人工智能赛道引发涟漪。

据中国科学技术信息研究所于今年5月发布的不完全统计数据,国内10亿参数规模以上的模型产品数已达79个,堪称“百模大战”。百度、腾讯、阿里、科大讯飞、商汤、百川智能等大厂或明星创业者带领的科技企业,纷纷跑步入场。

与“百模大战”一样让人眼花缭乱的是,针对大模型产品发布的评测榜单也层出不穷。理论上讲,能力相近的大模型在不同排行榜上的结果差距不该很大。但实际上,他们在不同榜单的排名结果可能是天壤之别。

8月15日,新华社研究院发布了《人工智能大模型体验报告2.0》,对国内主流大模型进行使用体验的横向测评。该榜单用500道题目评测了国内8款主流AI大模型,最终讯飞星火排名第一,百度文心一言排名第二,阿里通义千问排在倒数第二。

8月28日,SuperCLUE发布了中文大模型8月榜单这是百模大战时代出镜率最高的榜单。总榜之上,GPT-4排名第一,百川智能的Baichuan-13B-Chat排在中文榜单首位。

9月,学术界当红开源评测榜单C-Eval最新一期排行榜中,云天励飞的大模型“云天书”排在第一,而GPT-4仅名列第十。

这三个榜单分别来自权威媒体、业界、学术界,已经是各自领域较为流行的榜单,结果差异尚且如此巨大,遑论其他。

据界面新闻记者了解,现在国内外各种叫得上名的大模型评测榜单不下50个,而他们的排名结果,鲜有一致。

有趣的是,一些榜单甚至使用了相同的评测集,但排名结果依然差异很大。就像是同一批运动员们换了个场地跑步,成绩排名却迥然不同。那么问题到底是出在运动员,还是在发令枪?

两个维度评价大模型

自ChatGPT问世到百模大战,8个月以来,评价一款大模型有两个公认的显化标准:一是参数量,二是评测集。

参数量指模型中可学习的参数数量,包括模型的权重和偏置。参数量的大小决定了模型的复杂程度,更多的参数和层数,是大模型区别于小模型的标志性特点。2022年,美国一批大模型亮相,从Stability AI发布由文字到图像的生成式模型Diffusion,再到OpenAI推出的ChatGPT,模型参数规模开始进入百亿、千亿级别时代。

从表面指标看,千亿参数的模型普遍比百亿级表现更好。不过也有少量例外,而且同样参数级别的模型应该如何分辨优劣?这就需要引入大模型的第二个评测维度:评测集。

所谓评测集,是为有效评估基础模型及其微调算法在不同场景、不同任务上的综合效果,所构建的单任务或多任务的统一基准数据集,有公开和封闭两种形态。

这些评测集就像针对不同领域的考卷,通过测试大模型在这些“考卷”中的得分,人们可以更直观地比较大模型的性能高低。

在小模型时代,大多数模型机构都会使用学术类评测集效果来作为评判模型好坏的依据。现在,大模型厂商也开始更加主动地参与到学术界基准测试框架中来,视其为权威背书与营销依据。

比如Meta发布开源大模型LIama2之际,就在相关技术论文里明确介绍了其于多个学术评测集之上的表现,并公开了在GSM8K和MMLU两款评测集上与闭源GPT-3.5的对比结果。

目前,国际上用的较多的大模型评测集是MMLU。它源自伯克利大学,考虑了57个学科,容纳了从人文到社科到理工多个大类的综合知识能力,被直接用于GPT-3.5、GPT-4和PaLM系列大模型的研发过程,国内科技大厂大多数情况也都基于这个框架进行评测。

商汤在发布最新财报时,专门介绍了新模型InternLM-123B在将近30个学术评测集上的表现,也将MMLU的评测成绩放在首位,并跟Meta的llama2做了横向得分比较。

之后,学界、产业界、媒体、智库、社区以及传统ICT(信息通信技术)分析机构都敏锐地捕捉到了这一行业热点,陆续在今年上半年推出了各自的大模型评测榜单。

“评测是直观体现大模型能力的关键方式之一,学术化的榜单和市场化的榜单都得到了大家的重视。”一位大模型厂商相关负责人告诉界面新闻记者,虽然各种大模型评测榜又多又杂,但他们必须重视自家产品在各个榜单的结果。原因很简单,它会影响企业客户的采购决策。

为什么不同榜单会有不同结果?

华泰证券前资深算法工程师邱震宇近期加入了新公司南京图灵人工智能研究院,负责大模型研究应用。今年以来,他深入探究了市面上大模型的各类评测集,综合比较了各家榜单结果。他告诉记者,现在并不存在一个公认有效的评测方式。

为什么同一个模型在不同评测中的得分差异很大?评测集的侧重点不同是最重要的原因。

C-Eval——一家由上交、清华和爱丁堡大学研究员推出的当红开源评测榜单,因每周都有全新的模型进入榜单,新晋大模型经常排在GPT4之前而被抬上风口浪尖。

“现在大模型对评测集的选择非常敏感,这种状态不太合理,也不太客观。”邱震宇认为,比如在C-Eval榜单上,即使某个大模型超过了GPT4,也不代表它在中文语言上的能力就比GPT4强,只能说在做题应试上更厉害。

近期参与了很多评测工作的复旦大学计算机系教授张奇将C-Eval的问题归因为“评测从单点维度进行”,这是指每个流行学术评测集都有自己的侧重点。比如Meta最常选用的GSM8K和MMLU,是不同水平的考试集——前者是小学数学,后者则是更高级的多学科问答。

就像一个班的学生参加不同学科的考试,大模型们在不同榜单上自然排名不同。

主观题在大模型评测中比例上升也是导致评测结果差异的另一个原因。在现行海内外大模型评测榜单中,主观题与客观题结合的思路普遍被业内认可。

但主观题的挑战在于,每个人心中的评价标准是否一致。以及“人类团队评分”必然会触及题目数量的天花板,而对于大模型评测而言,题量越大得出的结论则越有效。

因此,业内也开始采用“人类+GPT4评分”的模式。国内如SuperCLUE会选择将GPT4视作“评卷老师”,让其加入人类团队辅助评分。

这一做法的背后存在着合理性支撑。3月,微软研究院发布文章称,类似GPT-4的强大LLM判别器可以很好地匹配人类偏好,达到超过80%的一致性,这是人与人之间的同级别的一致性。

此外,专用模型与通用大模型之间在垂直领域的同台竞技,是导致排名失真的另一原因。在实际落地场景中,制造业、医疗、金融等行业内企业客户在接入大模型能力时都需要根据自身数据库做二次微调。这也意味着,原版通用大模型直接参与垂直领域问答所得出的结果,并不能够代表大模型产品在垂直领域的真实表现。

榜单可以刷吗?

许多新晋大模型开始在类似C-Eval的榜单上排名超越GPT-4,揭示出开源评测集所引发的“作弊”现象。

根据界面新闻的了解,C-Eval目前只公开了题目但没有公开答案,参与测试的大模型厂商一般会采取有两种方式“刷榜”:第一种是找数据标注员把题目做一遍,第二种是用GPT-4把题做一遍,再把答案扣下来训练大模型,这样都能在相应学科测试中获得满分。

将评测题库“开源”的榜单将不得不面对大模型厂商“刷题”的做法,在某种程度上,是无法全面反映大模型真实能力的;而将评测题库进行“闭源”,虽然可以避免针对性刷题,但是对评测机构自身的权威性提出了更高的要求。

某清华系大模型初创公司技术相关负责人认为,倘若评测机构被认可是权威的,那闭源评测集更能反映相应语境下大模型的真实能力。

但闭源评测集也需要技巧才能规避“刷榜”。记者了解到,如果闭源评测集不进行更新换题,参与评测的模型可以从后台拉出历史记录进行“作弊”,重做被测试过的问题,这等同于“虚假闭源”。

来自智源研究院大模型评测组的李薇认为,刷榜现象从小模型时代就有,丰富多样的评测任务有助于全面了解模型,但“过多的榜单确实会增加研究人员和公众的理解负担,因此更亟需建立有公信力的榜单。”

随着各种各样的榜单越来越多,甚至有人质疑有些榜单可以直接花钱买排名,这让大模型评测榜的公信力进一步受损。不过,“花钱买榜”目前并无实锤,更多存在于竞品间的互相猜测中。

更好的评测需要什么?

“评测集应该是封闭的,避免被作弊,但一个好的大模型评测应该是过程公开的评测,方便大家对评测做监督。” 前述清华系大模型公司技术负责人表示。

不过,目前国内绝大部分评测不能做到“过程公开”,只有两家除外,一是上海人工智能实验室的OpenCompass,其将完整的评测流程都通过代码开源出来,包括所用的数据集;二是智源研究院的FlagEval,没有开源评测代码,但也公开了所用的数据集。

智源大模型评测组研究员李薇告诉记者,将大模型评测过程公开是很好的愿景,但考虑到评测的公平公正性,还是应有大量的封闭评测集,“闭卷考试”才能真正的评价出模型的能力。智源自有FlagEval平台就要求把待测模型部署在平台自有的服务器后再进行评测,从根源上避免了作弊和评测数据的流出。

几乎所有业界受访者都对界面新闻表示,未来更看好OpenCompass和FlagEval这样具有一定学术背景的评测机构模式,原因之一是OpenCompass和FlagEval自带算力资源,可以支持每次大模型评测;其二是OpenCompass是少见的大型综合性榜单,纳入了全球业界50余个评测集,提供了30万道题目,FlagEval也包含了8万+道题目,还把对模型潜力的指导纳入体系中。

但FlagEval和OpenCompass的模式也只是一种初探,关于如何作出真正综合全面的大模型评测,学界和产业界最前沿也呈“一头雾水”。

参考谷歌、微软、斯坦福大学、牛津大学、OpenAl等机构的研究,他们暂时将大模型评测技术按评测维度分为:模型性能、模型泛化能力、模型鲁棒性和安全性、模型能效等。

但界面新闻记者了解到,目前各大学术类榜单的评测基本围绕模型性能和泛化做文章,他们会在评测中将这些维度转化为大模型的“准确性”指标,比如知识理解、知识推理、阅读理解、知识问答、代码生成等细分类目,再通过学术考试的方式评估,但鲁棒性、安全性、效率等等影响大模型落地的维度很少能在榜单上真正体现。

邱震宇观察到,安全评测目前很难设计出可量化的方案,而“有能力做这块评测的人,除了要懂大模型,也要懂社会工程学和心理学。”

“仅仅使用学术评测集是不够的,无法全面反映用户的实际需求和实际体验,需要对学术评测集进行一定程度的改造,使其更贴近用户真实的使用场景。”深度参与了FlagEval评测工作的李薇补充称,大模型评测还一定程度上应将用户体验纳入考察范围。

在更为有效、更被认可的评测方式问世之前,大模型评测榜“各说各话”将会持续很长时间,厂商也势必会主动或被动地参与到各类榜单中来。

不过,归根结底,榜单只是工具,市场才是目的——谁能提供更贴近用户需求的产品,满足更多企业和个人的需要,谁才是“最优秀”的大模型。

(应采访者要求,文中李薇为化名。)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么关心的是消费:为什么关心的不是收入?

为什么关心的是消费:为什么关心的不是收入?

永不出场的戈多
2024-09-28 14:39:04
演员句号:2婚娶小11岁丫蛋,47岁老来得女,61岁的他直言后悔!

演员句号:2婚娶小11岁丫蛋,47岁老来得女,61岁的他直言后悔!

柴叔带你看电影
2024-09-29 10:00:09
身材极丰满却无人追!TVB性感小花大赞黄宗泽:可惜他不要我

身材极丰满却无人追!TVB性感小花大赞黄宗泽:可惜他不要我

我爱追港剧
2024-09-30 00:07:43
闹大!总负债超3万亿!14亿人养不起中国电力?怪员工福利太高?

闹大!总负债超3万亿!14亿人养不起中国电力?怪员工福利太高?

飞花文史
2024-09-03 16:51:23
湖南财政厅长遇害案追踪:坠楼时亲属在家门外

湖南财政厅长遇害案追踪:坠楼时亲属在家门外

霹雳炮
2024-09-28 23:16:24
中央批准,朱孔军履新

中央批准,朱孔军履新

新京报
2024-09-29 16:45:43
9月29日俄乌:125架无人机袭击俄多地,俄外长联合国发出核威胁

9月29日俄乌:125架无人机袭击俄多地,俄外长联合国发出核威胁

山河路口
2024-09-29 17:18:53
恭喜,霍启刚空降广东,正式走马上任,亮相新岗位

恭喜,霍启刚空降广东,正式走马上任,亮相新岗位

娱乐的小灶
2024-09-28 12:34:12
辽宁一小伙认50岁女教师做干妈,每周去其家中补课,最后酿成悲剧

辽宁一小伙认50岁女教师做干妈,每周去其家中补课,最后酿成悲剧

红豆讲堂
2024-09-24 10:14:37
什么叫裁员裁到大动脉?网友:辞职一个星期,公司就倒闭了

什么叫裁员裁到大动脉?网友:辞职一个星期,公司就倒闭了

文雅笔墨
2024-09-29 21:37:58
江苏一空姐被农村小伙子追求,结婚3年后,才意外得知丈夫真实身份

江苏一空姐被农村小伙子追求,结婚3年后,才意外得知丈夫真实身份

暖心的小屋
2024-09-30 02:28:39
他祸乱沙俄,睡遍贵族妇女,性器官因过于巨大被博物馆保存至今

他祸乱沙俄,睡遍贵族妇女,性器官因过于巨大被博物馆保存至今

魏惊蛰
2023-07-19 11:28:14
现在的孩子早恋多严重?看了评论区,有女儿的我两眼一黑

现在的孩子早恋多严重?看了评论区,有女儿的我两眼一黑

热闹的河马
2024-09-25 12:14:11
她果然是乒乓球赛事中的最不讨喜的人

她果然是乒乓球赛事中的最不讨喜的人

阿牛体育说
2024-09-29 19:14:11
中国科技大学教授杨子江:现在特斯拉自动驾驶已经比人开车更安全!自动驾驶里程数特斯拉远超其它车企总和

中国科技大学教授杨子江:现在特斯拉自动驾驶已经比人开车更安全!自动驾驶里程数特斯拉远超其它车企总和

和讯网
2024-09-29 11:07:57
震惊!湘潭大学禁止出租车入校接客,致大量出租车围堵学校大门…

震惊!湘潭大学禁止出租车入校接客,致大量出租车围堵学校大门…

火山诗话
2024-09-28 10:30:15
河南一马拉松会长心梗去世,当天还跑了22公里!家里的顶梁柱没了

河南一马拉松会长心梗去世,当天还跑了22公里!家里的顶梁柱没了

阿牛体育说
2024-09-29 23:37:38
何钰欣配文丧偶式婚姻,公开揭秘猴哥黑料,夫妻变仇人

何钰欣配文丧偶式婚姻,公开揭秘猴哥黑料,夫妻变仇人

生活小关注
2024-09-29 20:01:59
胡书记的孙女,如今在商界“大放异彩”

胡书记的孙女,如今在商界“大放异彩”

算法与数学之美
2024-09-21 19:28:48
婆婆通知我:我宝贝外孙要来过国庆小长假,我:好,他来我就走

婆婆通知我:我宝贝外孙要来过国庆小长假,我:好,他来我就走

清水家庭故事
2024-09-29 08:19:34
2024-09-30 10:50:46
界面新闻
界面新闻
只服务于独立思考的人群
672880文章数 1303648关注度
往期回顾 全部

科技要闻

六大车企围殴特斯拉Model Y 自己先打起来

头条要闻

县委书记1次收150万浑身颤抖 开车回家方向盘都把不稳

头条要闻

县委书记1次收150万浑身颤抖 开车回家方向盘都把不稳

体育要闻

布云朝克特:男网又多了一只鹰

娱乐要闻

王楚然,悄无声息中成了年度大赢家

财经要闻

沪指高开3.47% 逼近3200点

汽车要闻

焕新上市 全新凯迪拉克XT5售26.59万起

态度原创

健康
旅游
房产
数码
家居

花18万治疗阿尔茨海默病,值不值?

旅游要闻

这个黄金周哪里最热闹?哪天最不挤? 一图看懂

房产要闻

深夜重磅!广州全面放开限购!

数码要闻

PC鲜辣报:曝RTX 5090功耗达600W 英特尔修复不稳定问题

家居要闻

琴瑟和鸣 中式庭院风

无障碍浏览 进入关怀版