网易首页 > 网易号 > 正文 申请入驻

AI再次引发人类担忧!实验发现:o3超过94%人类病毒学专家

0
分享至

人类病毒学家为人工智能(AI)设计了一项极其困难的测试,结果令人担忧:

在解决湿实验室问题方面,人类病毒学专家在针对其专业领域定制的问题子集上平均答对率为22.1%,但表现最好的 OpenAI o3 却实现了43.8%的准确率,并在匹配的问题子集上胜过了94%的病毒学家。

图|OpenAI o3 等模型相对于人类病毒学专家的表现。

这些结果让研究者“有点紧张”,因为这是历史上第一次,几乎任何人都可以接触到一位不带偏见的 AI 病毒学专家,该专家可能会指导非专业人士制造致命的生物武器。

这一结论来自来自非营利组织 SecureBio的研究团队及其合作者共同完成的新研究。他们表示,这一发现是一把双刃剑——专业研究人员可以借助超智能 AI 模型预防传染病的传播,但非专业人士也可能利用它来制造致命的生物武器。

相关研究论文以“

Virology Capabilities Test (VCT): A Multimodal Virology Q&A Benchmark
”为题,已发表在预印本网站
arXiv
上。

论文链接:https://arxiv.org/abs/2504.16137

“纵观历史,有不少人试图制造生物武器——而他们失败的主要原因之一,就是缺乏足够的专业知识,” 该论文的讯作者 Seth Donoughe说。“因此,谨慎对待这些能力的分配方式非常有必要。”

o3 已过 94% 的人类病毒学家

随着 AI 的加速发展,评估已成为量化大语言模型(LLM)能力的关键,尤其是在科学推理方面。然而,常用的基准有很大的局限性。它们通常依赖于在四个选项中只有一个正确答案的多选题。虽然这类基准可以直接创建、评估和评分,但却无法捕捉到稀有、隐性和不可被搜索的知识。

此外,尽管多模态已成为一种标准的 LLM 能力,并在现实世界中有着明确的应用,但它们并不测试图像推理能力,许多现有基准都存在虚假 Ground truth 标签和快速饱和的问题。

由此,研究团队开发了Virology Capabilities Test (VCT),旨在测量病毒学的实用知识,尤其侧重于故障排除实验。它针对具有双重用途潜力的病毒学方法以及其他密切相关的方法,不包括一般的分子和细胞生物学方法,也不包括出于安全考虑而明确有害的材料。具体来说,该基准包括重要、困难、经过验证的问题,以及代表真实世界用途的多模态问题。

图|VCT 所含材料

研究团队从184 位病毒学专家中收集问题,57 位活跃专家中的 36 位随后参加了人类基准测试,回答了他们没有撰写或审查的问题。他们在设计问题撰写程序时考虑到了基准可以通过相同的输入内容以多种不同的格式运行。所有问题均由人工回答,以评估问题难度和人工准确性。

数据库由问题和评审组成。共享数据集的322 个问题中,最常提交的问题主题反映了病毒学家的核心专业领域:细胞培养病毒的技术、基因修饰的分子方法和细胞培养程序。每个提交的问题都由另外两名熟悉该问题特定主题领域的专家进行审查。审阅者对问题表示同意或不同意,并提供反馈意见。

图|所有提交的问题在创建过程中的流程。

在研究团队对完整基准进行评估的多模态模型中,OpenAI o3表现,准确率达到 43.8%,即使在其专业子领域内,也超过了 94% 的病毒学家。相比之下,博士水平的病毒学家在面对专门针对每个人的子专业领域定制的 VCT 问题集时,得分仅为 22.1%。

图|前沿 AI 模型在特定领域表现优于专家,大于 0 的值表示 AI 模型的表现优于人类,上方百分比显示了 AI 模型相对于 36 位专家的整体表现。

研究发现,截至 2025 年初,前沿大模型在病毒学领域提供实际疑难解答支持的能力,已达到甚至超过了人类专家水平,而且人类与模型之间的差距正在持续扩大。

这一趋势在其他协议分析基准测试中同样显著:在ProtocolQA 基准上,o1 模型的表现已接近专家水平;在 BioLP-Bench 基准上,DeepSeek-R1的成绩已与专家持平。这两项测试的结果相比不到一年前发布的SOTA分数,均有了大幅提升。

安全管理迫在眉睫

VCT 是一个包含 322 个可搜索的、相关的、多模态的病毒学实际疑难解答问题的数据集,其中的问题涉及一些罕见的知识,训练有素的病毒学家自己都认为这些知识很难找到,甚至是隐性的,但 o3 等领先模型在基准测试中的表现已经超过了人类专家。

在开发 VCT 的过程中,出于对传播此类信息的潜在风险的考虑,他们排除了某些可能特别有利于造成大规模危害的双重用途病毒学课题。这些课题都是实用、罕见、重要的信息,能够使湿实验室病毒学工作更容易取得成功。

因此,在部署前测试中,VCT 可以作为潜在危险信息的信息替代衡量标准,以更好地了解模型在特别敏感的生物学技能方面的能力,并为随后的缓解机制提供信息。提供专家级病毒学故障诊断的能力本质上具有双重用途:它对有益的研究有用,但也可能被滥用。

图|VCT 多选题例题,要求答题者从一组 4-10 个选项中找出所有正确的陈述。每个问题还附有评分标准,用于在未提供答案陈述的情况下评估开放式回答。

研究团队指出,如今迫切需要通过周到的访问控制,在促进有益研究与应对安全风险之间取得平衡。他们强调,AI 系统在为高度双重用途方法(即可被用于正当或恶意目的的技术)提供专家级故障诊断方面的能力,本身就应被视为一种高度双重用途技术。

专家级 AI 病毒学聊天机器人(仅通过文本互动提供建议)相较于能够自主执行任务的 AI 病毒学 agent 而言,风险较小,但两者都需要进行严格的访问控制。尤其是某些特定领域的专业知识,如病毒学方法的实际故障诊断,可能被滥用于造成大规模危害,因此应被排除在下一代广泛可用的大模型能力之外。

针对 AI 系统中双重用途生物学技能的问题,研究团队建议,未来可参考生命科学领域已有的双重用途研究监管经验,例如由国NSABB主导的管理框架。NSABB 已呼吁统一现有的联邦政策,并扩大需要联邦审查的研究范围,以更好地应对潜在的双重用途风险。尽管 NSABB 尚未建议将基于人工智能的“硅学实验”立即纳入更新后的监管体系,但它强调了持续评估 AI 与生物技术交叉研究风险与益处的必要性。

类似 VCT 这样的评估工具,未来可为政府机构(如AISI)及非政府组织提供实证依据,帮助调整现有的双重用途风险管理框架,适应 AI 时代的需求,并为新一代模型的研究与部署制定更完善的指南。

几个月前,该论文作者已将研究结果分享给各大 AI 实验室。作为回应,xAI发布了新的风险管理框架,并承诺在其 AI 模型Grok的未来版本中,加入病毒学防护措施,包括训练模型拒绝有害请求,以及对输入和输出进行内容过滤。OpenAI 也在其模型 o3 和 o4-mini 中部署了多项与生物安全相关的保护措施,包括阻止潜在的有害输出。

约翰·霍普金斯大学健康安全中心主任Tom Inglesby指出,仅靠行业自律是不够的,他呼吁立法者和政策制定者采取更积极的行动,制定政策以规范 AI 带来的生物风险。

“在新的 LLM 发布前,应该强制进行风险评估,以确保其不会带来大流行病级别的潜在后果。”

论文共同一作Jasper Götting表示,由 SecureBio 和其他机构开展的后续研究将很快检验 AI 辅助是否可以改善实际实验室的实验结果。

“在评估过程中,我们还观察到一些 AI 与专家提供的答案不一致的情况,这促使我们思考如何可靠地衡量 AI 在专家知识不再是可靠标准的课题上取得的进展。”

https://time.com/7279010/ai-virus-lab-biohazard-study/

作者:与可

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗库姆省发现数台“星链”设备,10名嫌疑人被捕

伊朗库姆省发现数台“星链”设备,10名嫌疑人被捕

潇湘晨报
2026-04-13 17:15:28
原本是小透明,上《五哈6》却成功翻身,谁讨喜谁白来一目了然

原本是小透明,上《五哈6》却成功翻身,谁讨喜谁白来一目了然

一娱三分地
2026-04-13 14:47:18
土以要开打?埃尔多安威胁攻打以色列后,不到1天,卡茨强势出招

土以要开打?埃尔多安威胁攻打以色列后,不到1天,卡茨强势出招

阿芒娱乐说
2026-04-14 13:13:21
“完美爸爸”塌房!家暴、睡粉、铁证录音曝光!前经纪人含泪控诉

“完美爸爸”塌房!家暴、睡粉、铁证录音曝光!前经纪人含泪控诉

澳洲红领巾
2026-04-14 14:18:58
英超冠军“俯冲”英甲,莱斯特城的十年自由落体

英超冠军“俯冲”英甲,莱斯特城的十年自由落体

足球报
2026-04-14 12:40:01
彭伟国:33岁退役,坐宝马开酒楼,财富自由,每天在约球和找美食

彭伟国:33岁退役,坐宝马开酒楼,财富自由,每天在约球和找美食

白面书誏
2026-04-08 13:59:47
欧尔班下台:匈牙利反华总理扬言审查中资,中国千亿投资遭遇危险

欧尔班下台:匈牙利反华总理扬言审查中资,中国千亿投资遭遇危险

影像温度
2026-04-13 10:37:17
全球越来越热,地球反而要进入冰河时代?这个反直觉预言正被验证

全球越来越热,地球反而要进入冰河时代?这个反直觉预言正被验证

半解智士
2026-04-13 15:47:58
案件:北京一女教授在家养病长达10年,民警进门后,当场愣在原地

案件:北京一女教授在家养病长达10年,民警进门后,当场愣在原地

五元讲堂
2024-12-24 16:57:49
赵文芳任国家铁路局副局长,安路生卸任

赵文芳任国家铁路局副局长,安路生卸任

澎湃新闻
2026-04-14 12:32:32
干货,业绩连续3年高增长股出炉,最强牛股已涨超37倍

干货,业绩连续3年高增长股出炉,最强牛股已涨超37倍

数据宝
2026-04-14 12:59:14
油价暴跌!92、95号汽油立降420元/吨,4月21日再迎大调整!

油价暴跌!92、95号汽油立降420元/吨,4月21日再迎大调整!

沙雕小琳琳
2026-04-14 10:39:24
伊朗外长:伊美谈判距离达成协议仅“一步之遥”

伊朗外长:伊美谈判距离达成协议仅“一步之遥”

新京报
2026-04-13 09:05:57
明明只是戏子,却把自己当大腕,论"耍大牌",这几位明星真丢脸

明明只是戏子,却把自己当大腕,论"耍大牌",这几位明星真丢脸

长歌侃娱
2026-04-14 07:35:03
离岸人民币对美元创近三年来新高

离岸人民币对美元创近三年来新高

21世纪经济报道
2026-04-14 09:16:30
这跟不穿有啥区别?内裤外露、开叉开到腰,有钱人的时尚真看不懂

这跟不穿有啥区别?内裤外露、开叉开到腰,有钱人的时尚真看不懂

潮鹿逐梦
2026-03-02 17:19:02
4月14日人民币对美元中间价调升64个基点

4月14日人民币对美元中间价调升64个基点

证券时报
2026-04-14 09:32:06
中央明确了!社保最低缴费年限要提高,70、80后得早做准备

中央明确了!社保最低缴费年限要提高,70、80后得早做准备

云鹏叙事
2026-04-12 16:36:39
美军打击伊朗,动用多少实力及总占比?

美军打击伊朗,动用多少实力及总占比?

高博新视野
2026-04-12 08:00:17
李想气疯了,朋友圈大骂同行

李想气疯了,朋友圈大骂同行

新行情
2026-04-14 15:17:35
2026-04-14 16:00:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

防范特朗普政府"对华软化" 史上最严对华芯片法案来了

头条要闻

防范特朗普政府"对华软化" 史上最严对华芯片法案来了

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

手机
亲子
游戏
教育
公开课

手机要闻

荣耀WIN游戏本正式亮相,多品类矩阵宣告PC业务全面爆发

亲子要闻

后续!孕妇200买水果被老公骂:已去医院终止妊娠,坦言及时止损

Switch 2立大功!日本25年主机游戏市场增长138.8%

教育要闻

初中数学,根式运算

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版