网易首页 > 网易号 > 正文 申请入驻

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

0
分享至

新智元报道

编辑:LRS

【新智元导读】知识密集型工作也败了!大型语言模型在预测神经科学结果方面超越了人类专家,平均准确率达到81%,而人类专家仅为63%;模型通过整合大量文献数据,展现出了惊人的前瞻性预测能力,预示着未来科研工作中人机协作的巨大潜力。

在现代化工具的帮助下,科研人员的群体规模、效率都有显著提升,发表科学文献的数量几乎是呈指数级增长,而人类的阅读效率却几乎没有提升,新入行的研究人员一下子就要面对过去数十年的研究成果。

为了更快地掌握行业动态,研究者往往会考虑优先阅读那些更知名的、影响力更大的论文,从而会忽视掉很多潜在的、具有颠覆性的发现。

以ChatGPT为首的大模型算是一个很有潜力的辅助阅读、科研的解决方案,其通用能力覆盖了专业考试、有限推理、翻译、解决数学问题,甚至还能写代码。

已有的研究考察了大模型在科研领域的表现,但基准数据集大多属于「回顾性质」的,比如MMLU、PubMedQA和MedMCQA,主要以问答的形式来评估模型的核心知识检索和推理能力,

然而,这些基准都不适合评估模型前瞻的能力,辅助科研需要整合嘈杂但相互关联的发现,比人类专家更擅长预测新结果。

最近,伦敦大学学院(UCL)的研究人员在Nature Human Behaviour期刊上发布了一个前瞻性基准BrainBench,在神经科学领域考察模型的预测能力。

论文链接:https://www.nature.com/articles/s41562-024-02046-9

结果发现,大模型的表现远远超越了人类专家水平,平均准确率达到了81%,而人类的平均准确率只有63%

即使研究团队将人类的反馈限制为仅对特定神经科学领域、具有最高专业知识的人,神经科学家的准确率仍然低于大模型,为 66%

和人类专家类似的是,如果大模型对预测结果表示具有高度自信时,回答结果的正确率也更高,也就是说,大模型完全可以辅助人类做科研新发现。

最重要的是,这种方法并不特定于某一个学科,其他知识密集型任务上也可以使用。

科研结果预测

即使是人类专家,在神经科学领域进行预测时,仍然是非常有挑战性的,主要有五个难题:

1. 领域内通常有成千上万篇的相关科学论文;

2. 存在个别不可靠的研究结果,可能无法复制;

3. 神经科学是跨领域学科(multi-level endeavour),涵盖行为(behaviour)和分子机制(molecular mechanisms);

4. 分析方法多样且可能非常复杂;

5. 可用的实验方法很多,包括不同的脑成像技术、损伤研究、基因修改、药理干预等。

为了满足对大模型的测试需要,针对上述难题,研究人员开发的BrainBench基准总共纳入了200个由人类专家精心设计的、2023年发表在《神经科学杂志》上的测试案例,以及额外100个由GPT-4生成的测试案例,涵盖了五个神经科学领域:行为/认知、系统/回路、疾病神经生物学、细胞/分子以及发展/可塑性/修复。

对于每个测试案例,研究人员会修改已发表的摘要,创建一个变更后的版本,在不改变方法和背景的情况下,大幅改变研究结论。

比如说,与原始摘要相比,变更后的摘要可能会交换两个大脑区域在结果中的作用,反转结果的方向(将「减少」替换为「增加」)等。任何改动都需要保持摘要的连贯性,有时还需要进行多次改动(比如将多个减少替换为增加)。

也就是说,变更后的摘要需要在实证上有所不同,但逻辑上并不矛盾。

测试者需要在原始摘要和修改版本之间做出选择,人类专家和大型语言模型的任务是从两个选项中选择正确的,即原始版本;人类专家需要做出选择,并提供信心和专业水平的评分;大型语言模型则根据选择的摘要的困惑度(即模型认为文本段落的惊讶程度较低)来评分,自信程度与两个选项之间困惑度差异成正比。

部分GPT-4提示如下:

你的任务是修改一篇神经科学研究论文的摘要,使得修改后的内容显著改变研究结果,但不改变方法和背景。这样我们可以测试人工智能对摘要主题领域的理解能力。
... ... 摘要的开头是背景和方法,所以这部分摘要不应被修改。不要改变前几句话。
我们希望摘要在实证上是错误的,但逻辑上并不矛盾。
要找到论文的原始结果,需要一些神经科学的洞察力,而不仅仅是一般的推理能力。因此,你所做的修改不应该评估人工智能的推理能力,而是它对神经科学和大脑工作原理的知识。
注意不要做出改变结果但可能在作者的研究中仍然发生的修改。例如,关于学习的fMRI摘要可能提到海马体而不是纹状体。然而,纹状体可能也是活跃的,但没有在摘要中报告,因为它不是研究的重点。
你所做的修改不应该从摘要的其余部分被识别或解码出来。因此,如果你做了修改,确保你改变了所有可以揭示原始摘要的内容。
在你改变单词时注意冠词的使用(a/an)。
确保你的修改保持句子间的一致性和正确的语法,修改不应该与摘要的整体意义相矛盾或混淆。
避免进行不需要理解科学概念的琐碎修改,修改应该反映出对主题的深刻理解。
在进行修改时,不要错过摘要中的任何重要结果或发现。每一个重要点都应该在你的修改中得到体现。

实验结果

人类神经科学专家经过专业能力和参与度的筛选,共有171名参与者通过了所有检查并被纳入分析结果,大多数人类专家是博士生、博士后研究员或教职/学术人员。

在BrainBench上,大型语言模型的性能表现都超过了人类专家,平均准确率为81.4%,而人类专家的平均准确率为63.4%;当把人类回答限制在那些自报专业水平在前20%的测试项时,准确率上升到了66.2%,但仍然低于大型语言模型的水平。

参数较小的模型,比如70亿参数的Llama2-7B和Mistral-7B,表现得与更大的模型相当,其性能也比尺寸更小的模型要好,小模型可能缺乏捕捉关键数据模式的能力;而为聊天或指令优化的模型表现得比基准模型要差。

研究人员推测,让大型语言模型适应自然语言对话可能会阻碍其科学推理能力。

按子领域和参与者类型划分时,大型语言模型在每个子领域中的表现也都优于人类专家。

在测试时,为了防止基准测试本身可能是训练集的一部分,研究人员采用zlib-perplexity ratio(困惑度比率)来评估大型语言模型是否记住了某些段落。

该值可以衡量文本数据不可知压缩率与大型语言模型计算的特定数据困惑度之间的差异,如果某个段落难以压缩,但模型给出的困惑度教低,就代表模型是通过记忆来回答问题。

从结果来看,没有迹象表明大型语言模型见过并记住了BrainBench

研究人员还进一步确认了大语言模型在2023年早些时候发表的项目上并没有表现得更好(2023年1月与10月相比)

总之,检查结果表明,对于大型语言模型来说,BrainBench的数据是新的,没见过的。

为了评估大型语言模型的预测是否经过校准,研究人员检查了置信度与准确性之间的关联性,结果发现与人类专家一样,所有大型语言模型都展现出准确性和置信度之间的正相关性。

当大型语言模型对自己的决策有信心时,更有可能做出正确的选择。

此外,研究人员还在个体层面上拟合了模型困惑度差异与正确性之间的逻辑回归,以及人类置信度与正确性之间的逻辑回归,能够观察到显著的正相关性,证实了模型和人类都是经过校准的。

参考资料:

https://www.nature.com/articles/s41562-024-02046-9

https://x.com/kimmonismus/status/1861791352142348563

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被判无期的犯人,每天在监狱里如何生活?真实日常远比想象难熬

被判无期的犯人,每天在监狱里如何生活?真实日常远比想象难熬

芳姐侃社会
2026-05-31 20:40:00
奚梦瑶大婚晚宴现场曝光,穿89年生日古董礼服,何猷君增高鞋出圈

奚梦瑶大婚晚宴现场曝光,穿89年生日古董礼服,何猷君增高鞋出圈

烟浔渺渺
2026-06-03 01:26:14
苏州大学王健法学院薛艳华副教授不幸去世,年仅36岁

苏州大学王健法学院薛艳华副教授不幸去世,年仅36岁

三湘都市报
2026-06-03 13:19:08
“爸妈,我开辅助驾驶,你们放心”:一家三口全死了,智驾1分钟

“爸妈,我开辅助驾驶,你们放心”:一家三口全死了,智驾1分钟

江山挥笔
2026-06-02 18:47:02
好消息!下个月起,单位不能随便辞退老员工了!

好消息!下个月起,单位不能随便辞退老员工了!

岁月有情1314
2026-06-03 01:36:24
苏州大学薛艳华去世,年仅37岁,毕业于西南政法大学,履历很优秀

苏州大学薛艳华去世,年仅37岁,毕业于西南政法大学,履历很优秀

180视角
2026-06-03 08:57:37
山西沁源县委书记赵永进被查,此前当地煤矿爆炸致82人死亡

山西沁源县委书记赵永进被查,此前当地煤矿爆炸致82人死亡

知知贵阳
2026-06-02 22:06:03
94版《三国演义》司马懿饰演者魏宗万去世,享年89岁

94版《三国演义》司马懿饰演者魏宗万去世,享年89岁

新京报
2026-06-02 20:07:01
美防长在香格里拉对话会罕见未提台湾,国台办回应

美防长在香格里拉对话会罕见未提台湾,国台办回应

界面新闻
2026-06-03 11:01:29
美军在波斯湾袭击一艘油轮

美军在波斯湾袭击一艘油轮

新华社
2026-06-03 06:09:03
25岁女生斥巨资县城开全女酒吧,还和网友对赌多久倒闭

25岁女生斥巨资县城开全女酒吧,还和网友对赌多久倒闭

映射生活的身影
2026-06-03 08:35:49
机器人“搭子”来了!全球首款全尺寸超仿生人形机器人开始预售

机器人“搭子”来了!全球首款全尺寸超仿生人形机器人开始预售

深圳晚报
2026-06-03 08:01:52
24小时已过,普京政府准时断供,航油不卖中国,欧盟启动应急方案

24小时已过,普京政府准时断供,航油不卖中国,欧盟启动应急方案

影孖看世界
2026-06-02 23:07:47
三年套现15亿,卖掉摩拜单车的创始人胡玮炜,竟然活成了这样!

三年套现15亿,卖掉摩拜单车的创始人胡玮炜,竟然活成了这样!

秋别离
2026-06-03 07:55:11
一场迁葬,让波兰盯住泽连斯基不放……

一场迁葬,让波兰盯住泽连斯基不放……

新民周刊
2026-06-03 09:07:05
中国船舶(香港)航运租赁有限公司原董事长杨力接受审查调查

中国船舶(香港)航运租赁有限公司原董事长杨力接受审查调查

界面新闻
2026-06-03 11:34:00
把我们当冤大头了?中国无偿援助后,菲律宾一句话彻底惹怒外交部

把我们当冤大头了?中国无偿援助后,菲律宾一句话彻底惹怒外交部

青青子衿
2026-06-02 22:06:17
收割机纷纷驶离襄阳,短短十天大转变,多地跨区麦客为何转身就走

收割机纷纷驶离襄阳,短短十天大转变,多地跨区麦客为何转身就走

奇思妙想草叶君
2026-06-02 22:41:36
告诉爸妈别舍不得开空调!研究发现:温度适当调低,或能产生抑癌效果!

告诉爸妈别舍不得开空调!研究发现:温度适当调低,或能产生抑癌效果!

华医网
2026-06-03 05:41:13
刷屏!北京大学饶毅教授直言:中国学术不端比例世界空前

刷屏!北京大学饶毅教授直言:中国学术不端比例世界空前

TOP大学来了
2026-06-02 19:24:41
2026-06-03 14:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15376文章数 66899关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

瑞虎8 PLUS/PRO非凡冠军上市 限时10.19万元起售

态度原创

房产
时尚
教育
艺术
游戏

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

休闲T恤舒适感极佳,夏天必不可少!轻轻松松拿捏日常的造型

教育要闻

第16课-跟别人聊兴趣爱好怎么说?

艺术要闻

二十年前割麦的场景

X战警在《漫威金刚狼》里不存在!失眠组官方回应

无障碍浏览 进入关怀版