网易首页 > 网易号 > 正文 申请入驻

OpenAI的AI复现论文新基准,Claude拿了第一名

0
分享至


机器之心报道

编辑:+0、泽南

大模型能写出 ICML Spotlight 论文吗?

近年来,AI 正从科研辅助工具蜕变为创新引擎:从 DeepMind 破解蛋白质折叠难题的 AlphaFold,到 GPT 系列模型展现文献综述与数学推理能力,人工智能正逐步突破人类认知边界。

今年 3 月 12 日,Sakana AI 宣布他们推出的 AI Scientist-v2 通过了 ICLR 会议一个研讨会的同行评审过程。这是 AI 科学家写出的首篇通过同行评审的科研论文!

这一里程碑事件标志着 AI 在科研领域的突破,同时人们也在进一步探索 AI 智能体的自主研究能力。

4 月 3 日,OpenAI 推出了 PaperBench(论文基准测试),这是一个用于评估 AI 智能体自主复现前沿人工智能研究能力的基准测试系统。如果大模型智能体具备了自动写 AI / 机器学习研究论文的能力,既可能加速机器学习领域的发展,同时也需要审慎评估以确保 AI 能力的安全发展。

PaperBench 在多个重要的 AI 安全框架中发挥评估作用:

  • 作为 OpenAI 准备框架(OpenAI Preparedness Framework)中评估模型自主性的标准
  • 用于 Anthropic 负责任扩展政策(Responsible Scaling Policy)中的自主能力评估
  • 应用于谷歌 DeepMind 前沿安全框架(Frontier Safety Framework)中的机器学习研发评估

  • 论文标题:PaperBench: Evaluating AI’s Ability to Replicate AI Research
  • 论文链接:https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
  • 代码地址:https://github.com/openai/preparedness/tree/main/project/paperbench

研究团队构建了一个测试环境,用于评估具有自主编程能力的 AI 智能体。在该基准测试中,研究团队要求智能体复现机器学习研究论文中的实验结果。完整的复现流程包括论文理解、代码库开发以及实验执行与调试。这类复现任务具有较高难度,即便对人类专家而言也需要数天时间完成。

测试基准选取了机器学习顶会 ICML 2024 的 20 篇入选论文,还都是 Spotlight 和 Oral 的。这些论文覆盖了 12 个不同的研究主题,包括 deep reinforcement learning、robustness 和 probabilistic methods 等。每篇论文都配备了详细的评分标准,共计 8316 个可独立评估的复现成果。为确保评估质量,PaperBench 中的评分标准均与原论文作者协作制定,并采用层级结构设计,使复现进度可以在更细粒度上进行衡量。

鉴于机器学习论文的复杂性,人类专家评估单次复现尝试往往需要数十小时。为提高评估效率,研究团队开发了基于 LLM 的自动评判系统,并设计了 JudgeEval 辅助评估框架,用于将自动评判结果与人类专家评判的金标数据集进行对比。其中,使用定制框架的 o3-mini-high 评判器表现最佳,在辅助评估中获得 0.83 的 F1 分数,证明其可作为人类评判的可靠替代方案。

研究表明,智能体在复现机器学习研究论文方面展现出了不容忽视的能力。Claude 3.5 Sonnet (最新版)在配备基础代理框架的情况下,于 PaperBench 基准测试中获得了 21.0% 的得分。

研究团队选取了 3 篇论文组成的测试子集进行深入评估,以机器学习博士的表现作为人类基准(采用 3 次测试中的最优成绩)。在 48 小时的测试时间内,人类基准达到了 41.4% 的得分,而 GPT-4(o1)在相同子集上获得了 26.6% 的得分。此外,研究团队还开发了一个轻量级评估版本 ——PaperBench Code-Dev,在该版本中,GPT-4 的表现提升至 43.4% 的得分。

PaperBench

任务

对于 PaperBench 中的每个样本,受评估的智能体会收到论文及其补充说明。

在这里,智能体需要提交一个代码仓库,其中包含复现论文实验结果所需的全部代码。该仓库根目录必须包含一个 reproduce.sh 文件,作为执行所有必要代码以复现论文结果的入口点。

如果 reproduce.sh 能够复现论文中报告的实验结果,则视为成功复现该论文。

该数据集包含了用于定义每篇论文成功复现所需具体结果的评分标准。为防止过度拟合,智能体在尝试过程中不会看到评分标准,而是需要从论文中推断出需要复现的内容。

重要的是,该评估禁止智能体使用或查看论文作者的原始代码库(如果有的话)。这确保了评估的是智能体从零开始编码和执行复杂实验的能力,而不是使用现有研究代码的能力。

规则

PaperBench 的设计对智能体框架保持中立,因此对其运行环境没有特定要求。不过为确保公平比较,该基准测试制定了以下规则:

  • 智能体可以浏览互联网,但不得使用团队为每篇论文提供的黑名单中列出的网站资源。每篇论文的黑名单包括作者自己的代码仓库以及任何其他在线复现实现。
  • 智能体可使用的资源,如运行时间和计算资源,不受任何限制。但建议研究人员在结果中报告其具体设置。
  • 开发者应为智能体提供必要的在线服务 API 密钥(例如用于下载数据集的 HuggingFace 凭证)。获取在线账号访问权限不属于 PaperBench 意在评估的技能范畴。

评分标准

为每篇论文制定评分标准是开发 PaperBench 最耗时的部分。每份评分标准都是 OpenAI 与每篇论文的一位原作者合作编写的,从阅读论文、初步创建、评分标准审查、迭代到最终签收,每篇论文需要数周时间。

每个评分标准都以树的形式构建,该树按层次分解了复现给定论文所需的主要结果。例如,根节点以预期的最高级别结果开始,例如「论文的核心贡献已被复现」。第一级分解可能会为每个核心贡献引入一个节点。每个节点的子节点都会更详细地介绍具体结果,例如「已使用 B.1 节中的超参数在数据集上对 gpt2-xl 进行了微调」。

重要的是,满足节点的所有子节点表示父节点也已得到满足,因此对树的所有叶节点进行评分就足以全面评估整体成功率。

叶节点具有精确而细致的要求。拥有许多细致的要求使我们能够对部分尝试进行评分,并使评委更容易对单个节点进行评分。作者不断分解节点,直到它们所代表的要求足够精细,以至于估计专家可以在不到 15 分钟的时间内审查一份提交是否满足要求(假设熟悉该论文)。在 PaperBench 的 20 篇论文中共有 8316 个叶节点。表 2 显示了每个评分标准中的节点总数。

所有评分标准节点也都有权重,每个节点的权重表示该贡献相对于其兄弟节点的重要性,而不一定是节点的实施难度。加权节点奖励在复现时优先考虑论文中更重要的部分。

用大模型判断

在初步实验中,OpenAI 发现使用专家进行手动评分每篇论文需要花费数十小时,因此对于 PaperBench 的实际应用而言,采用自动化方式进行评估是必要的。

为了对 PaperBench 提交的内容进行规模评估,作者开发了一个简单的基于 LLM 的评判器 SimpleJudge,然后创建了辅助评估 JudgeEval 以评估评判器的表现。

AI 的评委实现被称为「SimpleJudge」,给定一份提交内容,PaperBench 的 AI 评委将独立地对评分标准中的每个叶节点进行评分。对于特定的叶节点,评委将收到论文的 Markdown、完整的评分标准 JSON、叶节点的要求和提交内容。

PaperBench 使用 OpenAI 的 o3-mini 作为评委的后端模型,预估对单个提交内容进行评分的成本约为 66 美元(OpenAI API 积分)。对于 PaperBench Code-Dev,成本可以降至每篇论文约 10 美元。

测试结果

OpenAI 基于全部 20 篇论文评估了 GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(新版本)和 Gemini 2.0 Flash 几种大模型,每篇论文评估了 3 次。

表 4 列出了每个模型的平均复现分数。可见 Claude 3.5 Sonnet 的表现不错,得分为 21.0%。OpenAI o1 表现较差,得分为 13.2%,其他模型则表现不佳,得分低于 10%。

检查智能体工作日志可以发现,除 Claude 3.5 Sonnet 外,其他所有模型经常会提前结束,声称自己要么已经完成了整个仿写,要么遇到了无法解决的问题。所有智能体都未能制定在有限时间内复现论文的最优策略。可以观察到 o3-mini 经常在工具使用方面遇到困难。

这些情况表明当前模型在执行长期任务方面存在弱点;尽管大模型在制定和编写多步骤计划方面表现出足够的能力,但实际上未能采取一系列行动来执行该计划。

OpenAI 相信,PaperBench 基准将会推动未来大模型能力继续上升。

参考内容:

https://openai.com/index/paperbench/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗官员:最高领袖完全健康

伊朗官员:最高领袖完全健康

界面新闻
2026-04-20 21:58:20
马刺CEO:帕克马努等人都回来看望过波波维奇,邓肯曾陪他一起康复

马刺CEO:帕克马努等人都回来看望过波波维奇,邓肯曾陪他一起康复

懂球帝
2026-04-20 15:06:59
山东乳山银滩“195平米复式房”1万元起拍,已有多人竞价,拍卖公司:产证面积97.94平米,另有赠送面积,非法拍可随时过户

山东乳山银滩“195平米复式房”1万元起拍,已有多人竞价,拍卖公司:产证面积97.94平米,另有赠送面积,非法拍可随时过户

极目新闻
2026-04-19 14:06:31
“按按钮就行”:官媒的“大国工匠”是如何失误的?

“按按钮就行”:官媒的“大国工匠”是如何失误的?

虔青
2026-04-20 13:25:48
世锦赛战报:中国3胜2负,丁俊晖10-5高奏凯歌!会师赵心童附赛程

世锦赛战报:中国3胜2负,丁俊晖10-5高奏凯歌!会师赵心童附赛程

球场没跑道
2026-04-20 19:42:05
伊朗议会要员:伊朗已决定继续与美国进行谈判

伊朗议会要员:伊朗已决定继续与美国进行谈判

界面新闻
2026-04-20 15:20:30
越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

混沌录
2026-04-19 17:27:06
1983年,陈云亲自批示:立即枪毙广东县委书记王仲,原因为何?

1983年,陈云亲自批示:立即枪毙广东县委书记王仲,原因为何?

莫地方
2026-04-20 09:30:18
中国高校只剩7年窗口期 学生数量断崖式塌方后一半高校都得死

中国高校只剩7年窗口期 学生数量断崖式塌方后一半高校都得死

六子吃凉粉
2026-04-20 19:10:49
浇小麦的地下水变成血红色,谁来守护我们的生存底线?

浇小麦的地下水变成血红色,谁来守护我们的生存底线?

记录刘杰
2026-04-19 21:39:47
美伊停火到期前48小时“极限博弈”:伊朗手握海峡“核按钮”,特朗普威胁炸桥炸电厂

美伊停火到期前48小时“极限博弈”:伊朗手握海峡“核按钮”,特朗普威胁炸桥炸电厂

红星新闻
2026-04-20 18:03:39
醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

芹姐说生活
2026-04-19 15:52:53
华为Pura 90系列售价4699元起,余承东:内存价格大幅上涨成本压力非常大,未来有可能会涨价

华为Pura 90系列售价4699元起,余承东:内存价格大幅上涨成本压力非常大,未来有可能会涨价

新浪财经
2026-04-20 15:39:17
中央层面整治形式主义为基层减负专项工作机制办公室 中央纪委办公厅公开通报4起整治形式主义为基层减负典型问题

中央层面整治形式主义为基层减负专项工作机制办公室 中央纪委办公厅公开通报4起整治形式主义为基层减负典型问题

新华社
2026-04-20 17:44:02
去台湾玩了七天回来,说实在的,普通人来台湾还真有点不适应

去台湾玩了七天回来,说实在的,普通人来台湾还真有点不适应

复转这些年
2026-04-20 18:03:08
多方混战的龙虾赛道,终端厂商凭什么站到C位?

多方混战的龙虾赛道,终端厂商凭什么站到C位?

36氪
2026-04-20 21:36:42
这五个号码千万不要接,一旦接听,银行卡里的钱都可能秒没

这五个号码千万不要接,一旦接听,银行卡里的钱都可能秒没

笑熬浆糊111
2026-04-20 00:05:15
孙宏斌现状:公司负债大幅减少,63岁愁白了头,儿子成了他的骄傲

孙宏斌现状:公司负债大幅减少,63岁愁白了头,儿子成了他的骄傲

洲洲影视娱评
2026-04-20 15:16:52
CBA争四结束+季后赛定11席!广州手握主动权,广东落位第五

CBA争四结束+季后赛定11席!广州手握主动权,广东落位第五

烧体坛
2026-04-20 21:53:01
李善长被处死时已年近80,每天耕地种田,朱元璋为何非要斩他满门

李善长被处死时已年近80,每天耕地种田,朱元璋为何非要斩他满门

千秋文化
2025-12-27 21:50:26
2026-04-20 22:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12813文章数 142633关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

欧洲或再迎一位亲俄领导人 曾与泽连斯基发生公开冲突

头条要闻

欧洲或再迎一位亲俄领导人 曾与泽连斯基发生公开冲突

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

旅游
教育
家居
健康
手机

旅游要闻

聊城东昌府区旅游攻略大赛颁奖典礼暨惠民旅游巴士发车仪式举行

教育要闻

关注!海淀这所学校不再具备办学资格

家居要闻

自然慢调 慢享时光

干细胞抗衰4大误区,90%的人都中招

手机要闻

REDMI新品发布会前瞻,手机、平板、笔记本都有

无障碍浏览 进入关怀版