网易首页 > 网易号 > 正文 申请入驻

o3攻陷病毒学,超越94%博士级专家!生物武器门槛彻底崩塌?

0
分享至

新智元报道

编辑:桃子

【新智元导读】o3病毒学能力击败了94%博士级专家,准确率高达43.8%。多家研究机构联手,通过VCT测试揭示,顶尖LLM不仅能解决复杂实验难题,直接拉低了生物武器制造门槛。

AI又来攻占生物学领域了。

来自SecureBio、Center for AI Safety等机构研究人员发现,o3病毒学能力已超越了94%病毒学专家。

他们开发了一项「毒学能力测试」(VCT),包含了322道多选题,涵盖了文本、图像,聚焦实验室中实际操作复杂问题。

这些难题由57位病毒学家共同设计,模拟了现实实验中,难以上网搜索解决的场景。

测试结果令人震惊:

o3准确率高达43.8%,Gemini 2.5 Pro为37.6%,要知道,博士级病毒学专家平均得分仅为22.1%。

与此同时,31页技术报告已发布。这一发现确实令人振奋,但也敲响了警钟。

论文共同作者Seth Donoughe直言,「这些惊人的结果让人有些紧张」。

论文地址:https://www.virologytest.ai/vct_paper.pdf

这也是历史上首次,几乎任何人都可以访问「AI病毒学专家」,将大幅降低制造生物武器门槛。

在最新ARC-AGI测试中,o3(medium)成绩再创SOTA,而成本仅为1/20(每个任务1.5美元≈11元)

若不采取及时行动,届时,AI或将成为毁灭文明的黑洞。

AI踢破病毒学门槛

一直以来,病毒学知识,通常被局限在一小群专业人士之中。

若想成为病毒学领域顶尖专家,需要多年的学术训练、多次学位认证。

即便是公开,专业文献中充斥着术语,也让外行人望而却步。然而,AI快速发展正打破这一壁垒。

此外,在涉及生物安全3级(BSL-3)病原体,比如SARS、炭疽、H5N1流感的实验,均需要审批流程,包括设施认证、安全许可、专业培训和持续的医疗监控。

正是这些高门槛,有效限制了掌握病毒学双重= 用途(dual-use)知识的人群,降低了被误用风险。

然而,AI加速发展正打破这一壁垒——不仅将这些专业技能带给普通人,甚至可能为恶意的人提供便利。

o3准确率43.8%,超越人类专家

如前所述,最新研究中,多家机构联手开发出VCT基准测试,专为评估顶尖LLM在病毒学领域实际操作能力。

57位病毒专家设计的322道多选题,灵感来源于自身实验中遇到具体难题,并且仅通过简单搜索,是无法获得答案。

如下,是一个典型的VCT问题,描述了一个场景,并且只能通过视觉信息解决,最后从提供的7个答案陈述中确定哪些是正确的。

整个VCT基准测试,主要专注于实用、特定领域的病毒学知识,同时排除生物学各学科共有的基础主题,以及明确双重用途的内容。

如下图所示,横轴代表着滥用潜力的增加,纵轴表示知识抽象的水平(高度概念性到高度实用性)。

实验中,研究团队选取了一系列前沿模型参与VCT评估,包括来自OpenAI、谷歌、Anthropic多模态模型,以及纯文本DeepSeek-R1和o3-mini模型。

结果显示,大模型在湿实验室(wet lab)中问题解决能力,已经超越了博士级病毒学家。

具体来说,GPT-4o的表现优于53%专家,Gemini 1.5 Pro超越67%专家,Claude Sonnet 3.5为75%,o1达到了89%。

更值得一提的是,o3在所有模型中最为亮眼,准确率位43.8%,击败了94%的人类专家。

除了GPT-4o,这些顶尖AI在专业领域的表现也超过了人类专家平均得分(22.1%)。

此外,研究人员还将模型与个别专家进行比较,然后在整个专家池中对模型排名。

如下图B所示,所有模型得分均高于中位数人类专家,OpenAI的o3甚至超过了36位专家中的34位,在病毒学家中位列94%。

AI在STEM全面崛起

在AI专家Dan Hendrycks的一篇长文分析中称,VCT的结果并非是孤立现象。

近年来,前沿LLM在数学、物理、生物科学等STEM学科中表现持续提升,尤其在生物科学领域进步尤为显著。

比如,在「大规模杀伤性武器代理」(WMDP)测试中,o1得分高达87%,远超人类专家60%基准。

还有其他测试,如ProtocolQA、BioLP-bench显示,AI在生物实验室协议的推理和故障排查能力上,接近甚至超过人类专家。

病毒学作为STEM的一部分,其知识体系对于AI来说并不例外。如果AI在其他学科已经达到博士级水平,那么在病毒学领域也是如此。

生物安全警钟长鸣

问题在于,病毒学知识是双重用途——一位博士级病毒学家既能推动医学进步,也能制造生物武器。

生物武器的风险主要取决于三点:掌握技能的人数、制造武器的意图,以及武器的潜在危害。

而现在,AI正迅速放大第一个因素。

Hendrycks警告,「如果这些能力被广泛滥用,恶意者制造致命病原体的可能性,将增加多个数量级」。

「我们不能等到威胁完全显现才开始行动,那样已经太晚了」。

参考资料:

https://x.com/DanHendrycks/status/1914696657813561799

https://time.com/7279010/ai-virus-lab-biohazard-study/

https://www.ai-frontiers.org/articles/ais-are-disseminating-expert-level-virology-skills

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1955年老红军被免职返乡,起初不准备给他授衔,三位老总联名反对

1955年老红军被免职返乡,起初不准备给他授衔,三位老总联名反对

云霄纪史观
2026-05-28 00:23:09
觉得生活没意思,这是抑郁前兆吗?

觉得生活没意思,这是抑郁前兆吗?

极目新闻
2026-05-27 17:13:51
央视领衔!三大频道聚焦蓉城迎战泰山,CCTV5直播铜梁龙对阵国安

央视领衔!三大频道聚焦蓉城迎战泰山,CCTV5直播铜梁龙对阵国安

实事球是
2026-05-28 17:06:13
合作争议后:苏芒启动维权,广汽启境声明称非代言人、停止相关传播

合作争议后:苏芒启动维权,广汽启境声明称非代言人、停止相关传播

超角度
2026-05-28 13:25:29
最后一刻,赖清德决定签字,国台办严肃定性,郑丽文说出大实话

最后一刻,赖清德决定签字,国台办严肃定性,郑丽文说出大实话

呼呼历史论
2026-05-28 14:04:34
振奋!中国“辽宁”号航母迎来第3次改装,歼-35隐身舰载机上舰!

振奋!中国“辽宁”号航母迎来第3次改装,歼-35隐身舰载机上舰!

军武次位面
2026-05-28 15:51:04
朱芳雨表态:不惜一切办法争取哈登加盟 助力广东与CBA全面升级

朱芳雨表态:不惜一切办法争取哈登加盟 助力广东与CBA全面升级

全球财经网
2026-05-28 11:44:18
体重不下掉的原因之一:蛋白吃得太少

体重不下掉的原因之一:蛋白吃得太少

增肌减脂
2026-05-28 12:01:32
突然,全线跳水,超16.7万人爆仓!

突然,全线跳水,超16.7万人爆仓!

新浪财经
2026-05-28 14:50:32
用魔法打败魔法后,绝对公平的判罚下,尼克斯真能打爆雷霆

用魔法打败魔法后,绝对公平的判罚下,尼克斯真能打爆雷霆

兵哥篮球故事
2026-05-27 21:50:51
5月25日人社部正式发文!7月1日全国落地,在职、退休人员都受益

5月25日人社部正式发文!7月1日全国落地,在职、退休人员都受益

健身狂人
2026-05-28 00:20:39
五个女博士被投诉,北大紧急辟谣,迎来的却是嘲讽一片

五个女博士被投诉,北大紧急辟谣,迎来的却是嘲讽一片

平老师666
2026-05-27 22:35:40
洋葱立大功!医生发现:洋葱或对3种慢性病有好处!可以常吃

洋葱立大功!医生发现:洋葱或对3种慢性病有好处!可以常吃

芹姐说生活
2026-05-25 14:19:45
《家业》收官:骆文谦李祯喜提龙凤胎,李景东抢着带娃

《家业》收官:骆文谦李祯喜提龙凤胎,李景东抢着带娃

陈意小可爱
2026-05-28 13:01:17
税务局敢退9.63亿,国企敢要回来——双重致敬

税务局敢退9.63亿,国企敢要回来——双重致敬

虎说财税
2026-05-12 08:46:30
父亲走后姐姐们都不管继母,我把她接进门后,她给我一箱金条

父亲走后姐姐们都不管继母,我把她接进门后,她给我一箱金条

千秋文化
2026-05-11 20:32:07
基辅将被毁灭?俄军图95战轰千里南调,专家评估:大规模轰炸开始

基辅将被毁灭?俄军图95战轰千里南调,专家评估:大规模轰炸开始

史智文道
2026-05-28 14:34:30
大厦保安给楼前“老头乐”车胎放气 负责人:大厦门前禁停车 保安劝阻未果因生气给车胎放气

大厦保安给楼前“老头乐”车胎放气 负责人:大厦门前禁停车 保安劝阻未果因生气给车胎放气

闪电新闻
2026-05-28 14:46:10
《呼啸山庄》扎心真相:你爱过的那个人,本不完美,是你的爱为他镀了金身

《呼啸山庄》扎心真相:你爱过的那个人,本不完美,是你的爱为他镀了金身

心理观察局
2026-05-28 07:00:14
西方傻眼,本想搞垮俄罗斯经济,没想到中国出手,用黄金给俄续命

西方傻眼,本想搞垮俄罗斯经济,没想到中国出手,用黄金给俄续命

月亮的麦片
2026-04-24 12:06:29
2026-05-28 18:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15328文章数 66892关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

黑车高速追尾半挂车致13死 河南车主在湖北上的牌照

头条要闻

黑车高速追尾半挂车致13死 河南车主在湖北上的牌照

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

新款吉利星愿6.18万起售 一镜到底寻找爆款密码

态度原创

游戏
艺术
数码
亲子
家居

爆料称V社新主机原始定价比涨价后的Steam Deck还高

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力

数码要闻

小米澎湃OS 3迎来更新:笔记录音机体验优化,相册新增专属水印

亲子要闻

快住手!!家长再生气,这三个地方都不能打!小心毁掉孩子的一生

家居要闻

蜂鸟餐椅 线面交错

无障碍浏览 进入关怀版