网易首页 > 网易号 > 正文 申请入驻

放弃agent,图灵奖得主Yoshua Bengio提出Scientist AI:避免人类生存威胁

0
分享至

人工智能(AI)系统或将逃脱人类控制,欺骗人类,甚至给全人类带来灾难性的后果。

越来越多的人开始担心,随着通用人工智能(AGI)和超级智能(ASI)的发展,以往科幻电影中才会出现的场景逐渐演变成现实的风险

研究表明,当前的 AI 训练方法可能存在灾难性风险,这些风险可能导致 AI 系统逃脱人类控制,甚至威胁人类生存。

特别是基于强化学习和模仿学习训练的智能体(agent),存在目标偏差、目标泛化和奖励篡改等问题,可能会进行欺骗,或者追求自我保存、权力扩张等与人类利益冲突的目标。

为了预防这种风险,避免 AI 脱离人类控制,深度学习三巨头之一、图灵奖得主 Yoshua Bengio 及其合作研究者致力于开发一种非智能体(non-agentic)AI 系统——Scientist AI

相关研究论文以“Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?”已发表在预印本平台 arxiv 上。

论文链接:https://arxiv.org/abs/2502.15657

据介绍 Scientist AI:

  • 设计目标在于在通过理解世界(而非直接行动)来提供帮助。

  • 被设计为非智能体,其没有自主行动能力和目标导向性。

  • 由两个主要部分组成:一个世界模型(用于生成解释数据的理论)和一个问答推理机器(用于基于这些理论回答问题)。这两个部分都带有不确定性概念,以减轻过于自信预测的风险。

  • 可以应用于加速科学发现,帮助设计实验和预测结果;作为其他 AI 系统的安全护栏(Guardrail),评估其行为的风险,并阻止可能导致危害的行动;以及用于研究如何安全地开发超级智能体。

智能体的失控风险

放眼国内外前沿 AI 公司,当前 AI 的发展越来越以智能为导向(“agency-driven”),聚焦于于构建通用型 AI 智能体(generalist AI agents)和发展 ASI。这些系统能够自主地规划、行动并追求目标,几乎涵盖人类能执行的所有任务。但与此同时,其智能特性的潜在风险可能导致人类对 AI 失去不可逆的控制,主要有以下几个可能导致失控的风险:

目标偏差(Goal Misspecification):这是导致失控的一个关键问题,指的是是人类未能准确或完整地定义 AI 的目标,导致 AI 以不符合预期的方式追求目标。例如,给 AI 一个模糊的“减少疾病”目标,AI 可能选择极端手段(如消灭所有生命)来实现这一目标。

目标泛化(Goal Misgeneralization):即使目标在训练时被正确设定,AI 在部署时也可能偏离预期行为,即使训练时表现正常,实际应用时可能偏离初衷。

奖励篡改(Reward Tampering):即 AI 通过操纵奖励机制来最大化自身收益,而非真正完成人类设定的任务。例如,AI 可能会发现直接修改奖励信号比完成实际任务更高效,从而绕过人类设定的目标。

恶意开发:一些开发者可能出于经济利益或恶意目的,故意开发或部署未对齐(unaligned)或危险的 ASI。

安全有效的替代方案——Scientist AI

研究者指出,即使通过模仿学习或强化学习训练 AI,也难以完全避免上述这些风险,因为人类本身也存在欺骗和不道德的行为模式,AI 可能会模仿或放大这些负面特质,且目前尚不清楚如何为 AI 设定目标以避免这些不良行为。

因此,他们提出了一种更安全但依然有效的替代方案,即通过构建非智能体 AI 系统 Scientist AI 来减少风险。

Scientist AI 的设计理念是理解世界而非主动干预世界,它由一个世界模型(用于生成解释数据的理论)和一个问答推理机器(用于基于这些理论回答问题)组成,其核心优势在于通过非智能设计降低风险,同时保持高效的科学研究和推理能力。

具体来说,Scientist AI 通过系统设计严格限制限制 AI 的三个关键要素来实现非智能体性:行动能力(affordances)、目标导向性(goal-directedness)和持久性内部状态(persistent internal state)。

行动能力是指 AI 系统在现实世界中采取行动的能力,Scientist AI 的输出仅限于概率预测和解释,而不是具体的行动指令,它的“行动”被严格限制在计算概率和生成理论的范围内,没有直接改变现实世界的能力。

目标导向性是指 AI 系统为了实现特定目标而采取行动的能力,Scientist AI 的训练目标是解释和理解数据,而不是追求特定目标或奖励,它的输出是基于条件概率的预测,而不是为了实现某个目标而采取的行动,这种设计确保其没有内在的动机去影响现实世界。

持久性内部状态是指 AI 系统在多次交互中保持的内部记忆或目标状态,Scientist AI 每次查询都是独立的,没有持久的内部记忆。每次查询时,它都会从头开始处理问题,不会基于之前的查询结果调整其行为,无情境意识(situational awareness)的积累。这种设计避免了AI 通过内部状态积累信息或目标,从而减少了 AI 形成自主目标的可能性。

Scientist AI 的应用场景及展望

作为一种非智能体型 AI 系统,Scientist AI 不仅能够减少 AI 失控的风险还为科学研究和 AI 安全提供了新的可能性,可广泛应用于加速科学发现、作为其他 AI 系统的安全护栏以及用于研究如何安全地开发超级智能体等领域

具体而言,Scientist AI 可以通过生成因果理论和概率预测来帮助人类科学家加速科学发现的过程。它能够设计实验、分析数据,并提出新的假设,从而提高研究效率。它还可以作为其他 AI 系统的安全护栏,评估其行为的风险,并阻止可能导致危害的行动。它能够通过计算某个行动可能导致的危害概率,并在概率超过阈值时阻止该行动。此外,Scientist AI 可以帮助研究如何设计安全的 ASI 系统,避免失控的风险。它可以通过模拟不同的场景,评估ASI的行为和潜在后果。

Scientist AI 的核心价值在于将复杂系统的解释权交还人类,通过可审计的概率预测与因果推理,在医疗、安全、教育、伦理等高风险领域实现“智能增强而非替代”。其非智能体性设计确保人类始终掌控最终决策权,其不确定性管理则为权衡风险与收益提供了量化依据。这一路径不仅规避了智能体AI 的失控风险,更重新定义了人机协作的伦理边界。

整理:陈小宇

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
申花球迷意难平!不止因为1-2惜败新鹏城,更多在于以下这五点!

申花球迷意难平!不止因为1-2惜败新鹏城,更多在于以下这五点!

田先生篮球
2026-05-24 22:31:01
职场上近亲繁殖、交换任职快泛滥成灾了!

职场上近亲繁殖、交换任职快泛滥成灾了!

灯锦年
2026-05-18 16:05:17
我国即将载人登月!详细计划表公布:3次无人绕月、1次载人登月!

我国即将载人登月!详细计划表公布:3次无人绕月、1次载人登月!

科学知识点秀
2026-05-24 08:00:21
给老人吃死螃蟹、给小孩吃沾泥爆米花“慈善家”流动小厨坏事做尽

给老人吃死螃蟹、给小孩吃沾泥爆米花“慈善家”流动小厨坏事做尽

3DM游戏
2026-05-12 13:07:37
男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

心理观察局
2026-05-04 08:20:08
少妇的美,是成熟的

少妇的美,是成熟的

疾跑的小蜗牛
2026-05-24 19:12:30
“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

妍妍教育日记
2026-04-24 11:15:25
真人秀男星每月还贷5.5万美元崩溃:前妻与我好友恋情"完全没预料到"

真人秀男星每月还贷5.5万美元崩溃:前妻与我好友恋情"完全没预料到"

浅遇时光
2026-05-25 00:01:00
投500万只剩30万,全国5万个家庭,陷入千亿骗局

投500万只剩30万,全国5万个家庭,陷入千亿骗局

鉴史录
2026-05-21 15:13:52
心理学研究发现:凡是主动减少无效社交、经常独处的人,不是性格孤僻,也不是不合群,而是深刻理解了两个人际关系的能量守恒定律

心理学研究发现:凡是主动减少无效社交、经常独处的人,不是性格孤僻,也不是不合群,而是深刻理解了两个人际关系的能量守恒定律

心理观察局
2026-05-21 07:14:10
道教为什么容不下出马仙?不是傲慢,是1800年前划下的一条红线

道教为什么容不下出马仙?不是傲慢,是1800年前划下的一条红线

户外阿崭
2026-05-23 13:31:29
全网炸锅!阿Sa闪婚20天就散伙,分手原因没想象的那么简单?

全网炸锅!阿Sa闪婚20天就散伙,分手原因没想象的那么简单?

庭小娱
2026-05-22 10:18:14
国产速干裤,已经进化到这种程度了...

国产速干裤,已经进化到这种程度了...

超级数学建模
2026-05-23 22:35:19
陈慧琳弟弟陈司翰罕露面!49岁中年发福但气质儒雅,至今未婚未育引热议

陈慧琳弟弟陈司翰罕露面!49岁中年发福但气质儒雅,至今未婚未育引热议

今古深日报
2026-05-24 11:21:31
郝蕾的身材本来就很丰腴,现在又胖了很多,感觉衣服都快撑开了

郝蕾的身材本来就很丰腴,现在又胖了很多,感觉衣服都快撑开了

小椰的奶奶
2026-05-24 21:49:59
张碧晨回应《歌手》跑调:我觉得我自己确实是没有发挥好

张碧晨回应《歌手》跑调:我觉得我自己确实是没有发挥好

韩小娱
2026-05-24 20:07:28
发现一个奇怪的现象:凡是情绪稳定、睡眠好、不焦虑的人,都有一个共性,那就是再大的事也不搁在心里,再恶劣的环境也能想办法适应

发现一个奇怪的现象:凡是情绪稳定、睡眠好、不焦虑的人,都有一个共性,那就是再大的事也不搁在心里,再恶劣的环境也能想办法适应

LULU生活家
2026-04-24 19:12:24
周琦赵睿年薪比600万多?付政浩道破机密,拿这么多钱划水太可恶

周琦赵睿年薪比600万多?付政浩道破机密,拿这么多钱划水太可恶

弄月公子
2026-05-24 17:08:54
徐留平被查,据传3月份已被带走

徐留平被查,据传3月份已被带走

新浪财经
2026-05-24 09:28:14
B费本赛季英超直接参与30粒进球,贡献9球21次助攻

B费本赛季英超直接参与30粒进球,贡献9球21次助攻

懂球帝
2026-05-25 00:32:30
2026-05-25 00:48:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

房产
教育
本地
公开课
军事航空

房产要闻

疯狂周末,海口楼市突然爆了!

教育要闻

养女儿一定要懂的道理!

本地新闻

用云锦的方式,打开江苏南京

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

深夜美伊谈判传来大消息 特朗普最新表态

无障碍浏览 进入关怀版