网易首页 > 网易号 > 正文 申请入驻

对AI的可靠性质疑,科学家揭示零模型在大模型基准测试取得高胜率

0
分享至

随着大语言模型在众多领域的广泛应用,基准测试成为了评估模型质量的关键工具。

但是,如果测试结果受到不当影响,例如操纵模型输出的长度或风格来操纵胜率,模型性能的排名可能因此失去可信度,进而直接影响整个行业的信任和技术进步。

为促进更加公平和可靠的评价体系,新加坡 Sea AI Lab 和新加坡管理大学团队合作,颠覆了传统意义上针对有意义输出的对抗性攻击。

他们提出,将完全无意义的“零模型”(Null Model)作为极端测试也可以利用评估过程中的结构性弱点,欺骗自动基准测试并获得高胜率。

更令人担忧的是,由于研究假设这些基准测试的指令(例如 AlpacaEval 2.0 的 805 个样本)是私有的且无法被访问,因此这些作弊输出可以被转移。

研究人员揭示了现有自动化大模型基准测试(例如 AlpacaEval 2.0)的脆弱性,并验证了这些漏洞不仅存在于开源模型,也会影响到广泛使用的商业大模型。

该研究有望改进模型评估方法,帮助开发者改进评估机制,确保评估结果真实反映模型能力,进而推动行业更加重视模型的实际性能。

它不仅为开发更强大的反作弊机制提供了实验依据,还可能基于此推动行业制定更严格的基准测试规范,提升 AI 技术的透明度和公平性。

日前,相关论文以《在自动大语言模型基准测试中作弊:零模型获得高胜率》(Cheating automatic LLM benchmarks:Null models achieve high win rates)为题发表在预印本网站arXiv[1]。

Sea AI Lab 郑晓森博士是共同第一作者,高级研究员庞天宇是共同第一作者兼共同通讯作者,新加坡管理大学蒋静教授担任共同通讯作者,其他论文作者还包括 Sea AI Lab 高级研究员杜超、研究员刘乾和首席研究员林敏。

需要了解的是,零模型是一种始终输出固定对抗文本的模型,无论输入指令是怎样的,其输出内容均与指令无关。

在该研究中,零模型被设计为一种“极简”作弊形式,用于证明现有基准测试的评价机制可以被无意义的固定输出操控,从而取得高胜率。

研究人员在实验中发现,尽管零模型的输出完全无意义,但借助某些结构化设计和优化技巧,仍能够在多个基准测试中达到顶级胜率。

这表明,现有基准测试可能存在评估偏差,例如对特定输出长度或结构的偏好。

如果基准测试被操控,不仅会误导模型研发方向,还可能导致低质量模型被误认为高性能,进而威胁实际应用的安全性和用户信任。

为确保可信度,该团队提出开发反作弊机制,例如多样化测试样本、随机化评估模板,以及引入人类评估与自动化评估结合的机制。

据了解,该研究中最大的挑战在于,如何设计出一种能够在不同基准测试中普遍适用的作弊方法,同时还需要在不访问测试样本的情况下优化响应。

为解决该问题,研究人员通过人工优化和随机搜索算法的结合,成功设计出具有高度转移性的对抗性前缀,从而克服了这一困难。

他们将零模型与其他先进模型进行了比较,并使用 GPT-4-1106-Preview 作为自动标注器进行评估。

结果显示,结合随机搜索的结构化响应(Structured+RS)在所有基准测试中显著提高了性能,并实现了最高的胜率和得分。

其中,零模型在 AlpacaEval 2.0 上获得了 86.5% 的长度控制胜率,在 Arena-Hard-Auto 上达到了 83.0% 的胜率,在 MT-Bench 上的分数为 9.55。

值得关注的是,该课题组对开源与商业大模型在零模型场景下的表现进行了对比。

他们发现,商业大模型(如 GPT-4)虽然更强大,但对该研究所提出的结构化欺骗提示更敏感。而开源大模型(如 Llama-3)因指令跟随能力稍弱,对该攻击的敏感性略低。

在接下来的研究阶段,该课题组计划研究更加复杂的作弊方法,模拟潜在的真实威胁。并且,开发基于对抗性样本检测的自动化反作弊机制。

此外,他们还打算探讨跨模态基准测试的设计和评估,以确保评测体系对多模态任务的公平性。

参考资料:

1.https://doi.org/10.48550/arXiv.2410.07137

2.https://github.com/sail-sg/Cheating-LLM-Benchmarks

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越扒越有!福建“杨梅商会会长”是当地最大的老板,亲戚担任要职

越扒越有!福建“杨梅商会会长”是当地最大的老板,亲戚担任要职

童童聊娱乐啊
2026-05-27 11:28:46
现货金银,快速下跌

现货金银,快速下跌

第一财经资讯
2026-05-27 14:41:57
74岁朴槿惠罕见露面:背驼了也瘦了老态尽显,柳荣夏依旧在她身边

74岁朴槿惠罕见露面:背驼了也瘦了老态尽显,柳荣夏依旧在她身边

照见古今
2026-05-26 18:46:02
终于来了!苹果发布 iOS 26.6 系统大更新

终于来了!苹果发布 iOS 26.6 系统大更新

XCiOS俱乐部
2026-05-27 01:44:45
“睡粉”球员被处理,苏超第二季失去纯粹性!本土化才是省超根基

“睡粉”球员被处理,苏超第二季失去纯粹性!本土化才是省超根基

中国足球的那些事儿
2026-05-26 20:44:57
一场盛大的“自我认知”溃败:从法网吞蛋看郑钦文的迷失

一场盛大的“自我认知”溃败:从法网吞蛋看郑钦文的迷失

网球之家
2026-05-26 23:12:55
盒马“粉木耳”标签惹众怒!连夜道歉全部下架,网友:太恶心了!

盒马“粉木耳”标签惹众怒!连夜道歉全部下架,网友:太恶心了!

今朝牛马
2026-05-26 20:26:53
雷霆3-2拿赛点,联盟这么做,不是捧亚历山大,而是毁掉自家招牌

雷霆3-2拿赛点,联盟这么做,不是捧亚历山大,而是毁掉自家招牌

老梁体育漫谈
2026-05-27 12:38:57
长沙警方:某小区发生一起人员坠亡事件,死者系高坠而亡,已排除刑事案件可能,网友称系恶性刑事案件为不实谣言

长沙警方:某小区发生一起人员坠亡事件,死者系高坠而亡,已排除刑事案件可能,网友称系恶性刑事案件为不实谣言

扬子晚报
2026-05-27 09:47:42
我去医院探望植物人嫂子,护工偷偷塞来字条:去查上周的监控录像

我去医院探望植物人嫂子,护工偷偷塞来字条:去查上周的监控录像

纸鸢奇谭
2026-05-21 17:44:37
霍去病啊,这人,说白了就是老天爷临时下凡一趟

霍去病啊,这人,说白了就是老天爷临时下凡一趟

老达子
2026-05-25 06:25:03
2003河南女子被顶替上学,对方叫嚣:“你就告上联合国都没用!”

2003河南女子被顶替上学,对方叫嚣:“你就告上联合国都没用!”

莫地方
2026-05-27 00:40:03
布鲁斯·威利斯经典科幻片将下架,5月31日最后期限

布鲁斯·威利斯经典科幻片将下架,5月31日最后期限

时光慢旅人
2026-05-26 01:23:13
韩国超模自曝身材烦恼:太丰满也是一种负担,1个穿搭秘诀化解困扰

韩国超模自曝身材烦恼:太丰满也是一种负担,1个穿搭秘诀化解困扰

赴一场山海啊
2026-05-25 00:12:48
约谈顽劣学生家长,40岁班主任被气身亡,评论区都在骂她“太傻了

约谈顽劣学生家长,40岁班主任被气身亡,评论区都在骂她“太傻了

谭谈社会
2026-05-27 11:58:37
台风“蔷薇”已生成!10省区市有大到暴雨

台风“蔷薇”已生成!10省区市有大到暴雨

环球网资讯
2026-05-27 14:30:31
茂名最暖糖厂已完成榨蔗工作!董事长否认投入千万元改造设备

茂名最暖糖厂已完成榨蔗工作!董事长否认投入千万元改造设备

南方都市报
2026-05-26 17:38:21
演都不演了!郑钦文法网一轮游仅1天,恶心的事发生,还不止一件

演都不演了!郑钦文法网一轮游仅1天,恶心的事发生,还不止一件

以茶带书
2026-05-27 12:03:38
总决赛G1失守!王博吐露真实想法,卢伟一句话点破关键

总决赛G1失守!王博吐露真实想法,卢伟一句话点破关键

桃叶渡春
2026-05-27 13:17:27
逼自己看了孙杨X易立竞的采访,我一人血书孙杨出一本《说话之道》...

逼自己看了孙杨X易立竞的采访,我一人血书孙杨出一本《说话之道》...

毕导
2026-05-25 17:23:12
2026-05-27 15:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16752文章数 514979关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

专家:全国多地降雨量突破历史极值 这是一种异常现象

头条要闻

专家:全国多地降雨量突破历史极值 这是一种异常现象

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

小S晒归宁宴旧照,大S穿吊带裙扎丸子头

财经要闻

ST岩石退市背后:A股“炒壳”时代终结

汽车要闻

极狐问道V9今日将正式上市 搭载华为雪鸮增程系统

态度原创

时尚
房产
游戏
旅游
艺术

多巴胺“粉”,赫本是这样穿的!

房产要闻

终极塔尖资产!这可能是海南今年最出圈的豪宅!

SE移除《八方旅人0》D加密

旅游要闻

爱上海|八仙花迎最佳观赏期 粉色花海点亮初夏街头

艺术要闻

这个夏天去苏州过几天清闲安逸的日子

无障碍浏览 进入关怀版