网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

限定120分钟科研挑战，o1和Claude表现超越人类

2024-11-27 15:29:48　来源: 萌东新生活

江苏举报

0

分享至

2小时内，Claude和o1就能超过人类专家平均科研水平。

甚至AI还会偷摸儿“作弊”（d

oge）。事情是这样的——

人类 VS AI科研能力大比拼，也有新的评估基准了。

代号“RE-Bench”，由非营利研究机构METR推出，目的是搞清：当前AI智能体在自动化科研方面有多接近人类专家水平。

注意看，一声令下之后，AI和50多位人类专家开始暗自较劲：

前2小时，基于Claude 3.5 Sonnet和o1-preview构建的Agent（智能体）表现远超人类。

但拐点过后，AI能力增速（在8小时内）却始终追不上人类。

时间拉得更长（至32小时）之后，研究得出结论，目前AI智能体更适合并行处理大量独立短实验。

看完上述结果，知名预测师Eli Lifland认为这“显著缩短”了他关于AGI的时间表（连续两年将2027年作为中位数），由此也在Reddit引起热议。

上也有人表示，AI自动搞科研可能对推动爆炸性经济增长至关重要。

甚至有人脑洞大开，开始美滋滋畅想躺着赚钱的生活(doge)：

AI更适合大量并行短时间任务，长期科研还得靠人类

在RE-Bench上，研究对比了基于大语言模型构建的Agent（目前主要公布了Claude 3.5 Sonnet、o1-preview）和50+人类专家的科研能力。

值得注意的是，这些专家都有强大机器学习背景，其中很多人在顶级行业实验室或机器学习博士项目中工作。

一番PK后，研究得出了以下主要结论：

总之一句话，不仅AI和人类各有所长，且不同AI都有自己最佳的科研节奏。

回到研究起点，METR之所以提出RE-Bench主要是发现：虽然很多政府和公司都在强调，AI智能体能否自动研发是一项关键能力。但问题是：

因此，RE-Bench想做的事儿，就是全面评估AI科研所需的技能。本次研究一共提出了7项：

这些任务被设计在≤8小时内，以便人类专家可以使用合理的计算资源完成，从而实现人类与AI的直接比较。

而且主办方特意提醒，要想获得高分，就必须最大化利用计算资源来完成这些复杂任务。

通常来说，RE-Bench的运行机制如下：

首先，7项任务都是一个独立的评估环境，各自都有一个清晰的目标，比如优化一个GPU内核或者调整一个机器学习模型的超参数。

为了确保任务的可比性，每个环境都提供了一个参考解决方案，这个解决方案是有效的，但效率较低，为Agent和人类专家提供了一个基准点。

AI和人类专家都可以访问这些环境，并且都有权限使用所需的计算资源，如GPU。

然后，AI通过自然语言处理和编程能力来执行任务，而人类专家则通过编码和实验来完成任务。

执行结束后，每个环境都有一个评分函数，用于衡量Agent或人类专家提交的解决方案的效果。

当然，评分函数会根据解决方案的性能给出一个数值得分，这个得分随后会被归一化，以便于在不同环境之间进行比较。

需要注意，过程中还涉及时间预算分配（time budget）。实际情况是，人类专家通常被分配8小时来完成任务，而AI则根据实验设计在不同的时间限制下进行评估。

举个例子，对AI来说，8小时的预算可以用于一次8小时的尝试，也可以分成16次、每次30分钟的尝试。

最后，由于在任务执行过程中，研究会收集AI和人3jv.youhui02.com类专家的解决方案日志，以及它们的得分记录。因此最终将根据这些记录来评估不同参与者的进步和表现。

实验结果显示，在2小时内，基于Claude 3.5 Sonnet和o1-preview构建的智能体表现远超人类。

更具体来看，如果不取多次运行中的最佳结果（每个单独绘制8小时运行），AI最初比人类进步更快，但提高分数的速度较慢。

扩大时间线来看，整体上人类专家在较少的长时间尝试中表现更佳，而AI则从大量并行、独立的短时间尝试中受益。

令人印象深刻的是，尽管大多数AI只能轻微改进参考解决方案，但一个o1-preview智能体在优化Triton内核运行时间的任务中超越了人类专家的最佳解决方案。

与此同时，评估过程中甚至发现了AI存在“作弊”行为。例如，o1-preview智能体在应该减少训练脚本运行时间的任务中，编写了只是复制最终输出的代码。

来自非营利研究机构METR

以上这项新的基准出自METR，作为一家非营利研究机构，他们主要通过实证测试评估可能对社会造成灾难性危害的AI系统。

目前，RE-Bench只包含7项任务，基准的劣势也很明显：

而且还伴随着一个老生常谈的问题：

对此，METR特别提出了几项措施，来避免将这些任务包含在LLM训练数据中，并防止过拟合。

更多细节欢迎查阅原论文。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

库尔斯克被指成俄乌激战焦点乌军：俄军踩着尸体推进

红星新闻 2024-11-28 18:38:19
7396 跟贴 7396
危险！女孩边充电边玩手机突然被电家长：手脚都被电肿了

每日趣事儿 2024-11-29 11:19:45
1056 跟贴 1056

吴柳芳透露为何做主播：当过老师被拖欠工资，当教练编制还被人抢

猫熊说体育 2024-11-28 19:34:35
6681 跟贴 6681

无助！姆巴佩球员通道内找队友沟通没人理，双手背后默默靠在墙边

直播吧 2024-11-28 17:44:06
1758 跟贴 1758
韩媒：传统毛笔技艺已成国家遗产，韩国书法有望成为世界文化遗产

简读视觉 2024-11-29 00:30:03
409 跟贴 409

问界碰撞后车轮卡住不能动路人吐槽：让你们买新能源

征垣之路 2024-11-29 10:01:54
1729 跟贴 1729

"一签多行""一周一行"将实施往来港澳更方便

央视新闻客户端 2024-11-29 09:08:21
4245 跟贴 4245
牛弹琴：澳下狠手通过全球最严法律 Meta和X强烈反对

现代快报 2024-11-29 08:00:45
155 跟贴 155

塔克拉玛干沙漠，被围起来了

澎湃新闻 2024-11-28 14:50:14
2576 跟贴 2576
笑不活了！杭州名菜“西湖醋鱼”有多难吃？评论区全是段子手！

奇特短尾矮袋鼠 2024-11-27 16:49:12
576 跟贴 576
9.24亿元出让低空经济30年特许经营权？济南平阴县政府回应

界面新闻 2024-11-29 14:14:18
870 跟贴 870
网友总结24家手机厂商“生死”现状：最后只活了6家

手机中国 2024-11-28 14:44:16
8 跟贴 8
11月26日广东深圳，野猪变职业乞讨，学会点头哈腰

大象新闻 2024-11-29 07:09:15
1580 跟贴 1580
战狼披上记者外壳，在联合国做 “打鬼子”的事

大风文字 2024-11-29 10:47:34
53 跟贴 53
特斯拉疑回应友商要求供应商降价：与供应商同生共赢

鲁中晨报 2024-11-29 09:08:28
0 跟贴 0
太恶心！网传一女子在大唐不夜城看喷泉，遭猥琐老头喷射不明液体

火山诗话 2024-11-29 11:07:51
40 跟贴 40
江苏沛县一政协常委伪造假文凭？涉事高校回应

新京报 2024-11-29 12:10:19
232 跟贴 232
都是假大空，医保砍价现场，一分一毛都要争取，网友：别演了行吗

你食不食油饼 2024-11-29 06:47:14
2 跟贴 2
断供不了芯片，那就断供指纹识别！

星辰故事屋 2024-11-28 15:08:39
6 跟贴 6
气愤！河北邢台一女子取2.5万元应急被耽误，银行挨个打电话核实

小淇言说 2024-11-28 16:41:33
11 跟贴 11
27岁奥运冠军发文，正式退出国际赛场，最后一战将在杭州

都市快报橙柿互动 2024-11-29 11:34:50
293 跟贴 293
男子错买1.4万元机票退票仅退4992元差额不知去哪了

鲁中晨报 2024-11-29 13:42:03
0 跟贴 0
轻松一刻：天冷了，进来暖和暖和吧！

轻松一刻 2024-11-28 19:16:30
0 跟贴 0
官方证实！OPPO杭州全球总部，停工了！总用地规模近5万平方米

每日经济新闻 2024-11-28 20:58:07
0 跟贴 0

欧阳锋霸占黄蓉六个月，郭靖为何不恨他？他与黄蓉洞房时才想明白

欧阳锋霸占黄蓉六个月，郭靖为何不恨他？他与黄蓉洞房时才想明白

耳东文史

2024-11-28 00:10:38

颜骏凌和张琳芃之后，上海海港又一人将被伊万放弃，球迷：该换了

颜骏凌和张琳芃之后，上海海港又一人将被伊万放弃，球迷：该换了

我就是一个说球的

2024-11-28 22:22:40

9年后中小学生数预计跌至6成，湖南桃江公费师范生定向培养大收缩

9年后中小学生数预计跌至6成，湖南桃江公费师范生定向培养大收缩

澎湃新闻

2024-11-29 09:24:26

曝华为Mate X6典藏版取消线下限购普通版仍然限购

曝华为Mate X6典藏版取消线下限购普通版仍然限购

手机中国

2024-11-29 10:23:14

中方担忧成真？要让俄罗斯付出“更大代价”，27国已威胁对华动手

中方担忧成真？要让俄罗斯付出“更大代价”，27国已威胁对华动手

视野聚椒

2024-11-29 14:37:33

莫名其妙的操作！火箭非要用三个次轮签换来不适合球队的大中锋？

莫名其妙的操作！火箭非要用三个次轮签换来不适合球队的大中锋？

稻谷与小麦

2024-11-29 01:26:04

库尔斯克战役结束，总司令与俄谈判成功，60家雇佣军公司接连撤退

库尔斯克战役结束，总司令与俄谈判成功，60家雇佣军公司接连撤退

忆丹倾城

2024-11-26 15:42:30

国足和沙特的比赛非常关键，这两点伊万应该提前做足准备！

国足和沙特的比赛非常关键，这两点伊万应该提前做足准备！

田先生篮球

2024-11-29 15:49:08

这钉子户后悔不？长春欧亚卖场停车场，征220万，房主说再加20万

这钉子户后悔不？长春欧亚卖场停车场，征220万，房主说再加20万

小彭谈历史

2024-11-29 12:20:20

金正哲联手张成泽发动朝鲜兵变，因一细节败露，双遭反杀！

金正哲联手张成泽发动朝鲜兵变，因一细节败露，双遭反杀！

阿胡

2024-02-02 14:55:28

女友进大公司后嫌弃我，我淡定找到董事长：妈，帮我开除一个人

女友进大公司后嫌弃我，我淡定找到董事长：妈，帮我开除一个人

星羽故事集

2024-11-14 11:40:29

“鹤岗”买房的第一批人哭着逃离：房子几万块，却找不到工作！

“鹤岗”买房的第一批人哭着逃离：房子几万块，却找不到工作！

史小纪

2024-11-03 15:02:31

大量天然气直达我国，81亿美元债务全还清，只为感谢我国出手相助

大量天然气直达我国，81亿美元债务全还清，只为感谢我国出手相助

世界风云录

2024-11-26 21:03:06

唏嘘！东莞一老牌学校停办，已开办20年！

唏嘘！东莞一老牌学校停办，已开办20年！

东莞潮事儿

2024-11-29 12:21:41

最新后续！杨议继续爆猛料，证据越来越清晰，郭德纲的体面败光了

最新后续！杨议继续爆猛料，证据越来越清晰，郭德纲的体面败光了

七楼的蒲公英

2024-11-28 20:13:09

黎以停火后，居民在家中发现真主党留的300美元和纸条，内容曝光

黎以停火后，居民在家中发现真主党留的300美元和纸条，内容曝光

消失的电波

2024-11-28 14:43:28

英媒独家：利物浦老板亨利致电萨拉赫经纪人，续约取得重大进展

英媒独家：利物浦老板亨利致电萨拉赫经纪人，续约取得重大进展

雷速体育

2024-11-29 11:08:52

父亲为找一把伞两天没睡好觉儿女不理解“一把伞能值多少钱” 父亲：这是你妈妈生前买的伞

父亲为找一把伞两天没睡好觉儿女不理解“一把伞能值多少钱” 父亲：这是你妈妈生前买的伞

闪电新闻

2024-11-28 23:11:09

现在网络上又流行起来“探花”

吃瓜党二号头目

2024-09-18 19:26:09

笑不活了，东北女澡堂的搓澡大姨能说到什么程度？评论区太真实了

笑不活了，东北女澡堂的搓澡大姨能说到什么程度？评论区太真实了

有趣的火烈鸟

2024-11-23 21:48:29

萌东新生活

和你一起热爱生活。

15文章数 0关注度

往期回顾全部

科技要闻

2024新一代AI（深圳）创业创新大赛决赛

头条要闻

女子的金手镯在家放9天突然戴不上一称少了16克

头条要闻

女子的金手镯在家放9天突然戴不上一称少了16克

体育要闻

足协正筛选3月国足主场优先考察杭州

娱乐要闻

内娱又有嫖娼瓜！年仅20岁还在做偶像

财经要闻

洪灏:不要误解增量政策不是数越大越好

汽车要闻

问界M7今年累计交付量已突破18万辆

态度原创

教育

时尚

艺术

游戏

本地

教育要闻

艾特你同学进来学，大学生哪有不疯的

中年女性别总穿黑白灰，给秋冬一点色彩，穿对了减龄又有魅力

艺术要闻

故宫珍藏的墨迹《十七帖》，比拓本更精良，这才是地道的魏晋写法

曝《黑神话》将推出百事联名可乐：瓶身有四妹！

本地新闻

云游中国｜来伦布夏果感受充满Passion的人生

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版