网易首页 > 网易号 > 正文 申请入驻

AI 被人类知识困住了:DeepMind 称“流”智能体将打破束缚

0
分享至

一种名为“流”(streams)的新型智能体方法将使 AI 模型能够从环境体验中学习,无需人类的“预先判断”。

AI 界最近一直执迷于让生成式 AI 不仅限于 AI 模型轻松就能通过的简单测试。著名的图灵测试在某种程度上已通过,而关于最新模型是不是为了在衡量性能的基准测试中作弊而开发的争议愈演愈烈。

谷歌 DeepMind 部门的学者表示,问题不在于测试本身,而在于开发 AI 模型的方式有局限性。

用于训练AI的数据过于受限且静态,永远无法推动AI发展出更强大的能力。

研究人员在 DeepMind 上周发表的一篇论文(麻省理工学院出版社即将出版的新书的一部分)中提出,必须允许 AI 拥有某种“体验”,与世界进行交互,根据来自环境的信号制定目标。

DeepMind的两位 学者 David Silver 和 Richard Sutton 在题为《欢迎来到体验时代》的论文、 中写道: “ 一旦充分发挥体验式学习的潜力,难以置信的新能力 就会应运而生 。 ”

Richard Sutton(左)、 David Silver(右)

这两位学者是这个领域的传奇人物。

Silver 领导团队研发了 AlphaZero。

DeepMind 的这款 AI 模型在国际象棋和围棋比赛中击败了人类。

Sutton 则是两位捧得图灵奖的开发者之一,开发了强化学习的 AI 方法,Silver 及其团队正是用这种方法开发出了 AlphaZero。

这两位学者倡导的方法立足于强化学习和 AlphaZero 积累的经验。这种方法名为“流”( streams),旨在弥补当今大语言模型(LLM)的缺陷,而如今开发的LLM仅仅为了回答人类提出的问题。

Silver 和 Sutton 认为,在 AlphaZero 及前身 AlphaGo 横空出世后不久,ChatGPT 等生成式 AI 工具登台亮相,“抛弃”了强化学习。此举有利也有弊。

生成式AI 是重要的进步,因为 AlphaZero 使用强化学习仅限于有限的应用领域。这项技术无法适用于所有规则已知的需要“完整信息”的棋类(比如国际象棋)之外的领域。

另一方面,生成式 AI 模型可以处理来自人类的从未遇到过的自发输入,不需要事情应该如何发展方面的明确规则。

然而他们写道,摈弃强化学习意味着“从此失去了智能体独自发现自身知识的能力”。

他们认为,相反,LLM 依赖人类的预先判断,或者说人类在提示阶段想要的结果。这种方法过于局限。他们认为,人类的判断给智能体的性能或表现“设定了难以逾越的上限”:智能体无法发现人类评估者低估的更好策略。

人类判断不仅构成了障碍,提示式交互具有的简短、缩略的特性还使AI模型无法摆脱问答模式。

研究人员写道,在人类数据时代,基于语言的AI主要关注短促的交互场景:比如用户提出问题,然后(可能经过几个思考步骤或使用工具的操作后)智能体做出回应。智能体的目标仅限于针对当前场景给出结果,比如直接回答用户的问题。

提示式交互没有记忆,各个交互片段之间也没有连续性。

Silver 和 Sutton 写道,通常几乎没有信息从一个场景延续到下一个场景,阻碍了逐渐适应。然而在体验时代,智能体将存在于体验流中,而不是短暂的交互片段中。

Silver 和 Sutton 将体验流与人类通过一生积累经验进行学习进行了类比,基于长远目标而非眼前的任务执行行动。他们写道,强大的智能体应该有自己的体验流,像人类一样在长时间跨度上逐渐进化。

当今的技术足以开始构建体验流。

事实上,我们可以从业界动态看到这方面的头几步,比如浏览网页的 AI 智能体,包括 OpenAI 的 Deep Research。

最近,新一波原型智能体开始以更通用的方式与计算机交互,使用与人类使用的同一种界面操作计算机。浏览器智能体标志着从完全由人类特许的沟通,变成自主程度大大提高的交互(智能体能够在这个世界独立行动)。

Silver 和 Sutton 认为,随着 AI 智能体超越单纯的网页浏览,它们需要一种与世界交互并从中学习的方式。

他们提出,流概念的 AI 智能体将采用与 AlphaZero 相同的强化学习原理进行学习。

机器被赋予呈现与其交互的世界的模型(类似棋盘)和一套规则。

当 AI 智能体探索并采取行动时,它会收到奖励形式的反馈。这种奖励训练 AI 模型,让其了解在特定情况下,哪些行动更有价值、哪些没有价值。

Silver 和 Sutton 认为,如果允许智能体寻找提供这种奖励的各种“信号”,这个世界充满了这样的信号。如果不是来自人类数据,奖励又来自哪里?一旦智能体通过丰富的行动和观察空间与世界建立联系,就根本不缺提供奖励基础的可靠信号。事实上,这个世界满眼是定量信号,比如成本、错误率、饥饿、生产力、健康指标、气候指标、利润、销售额、考试成绩、成功、访问量、收益、股票、点赞、收入、愉悦/痛苦、经济指标、准确率、距离、速度、效率或能耗。此外,无数的额外信号来自特定事件的发生,或来自从观察和行动的原始序列中提取的特征。

为了从底层开始构建 AI 智能体,AI 开发者可能会使用“世界模型”模拟。

世界模型让 AI 模型可以进行预测,在现实世界中测试这些预测,然后利用奖励信号让模型更贴近现实。随着智能体在体验流中不断与世界交互,其动态模型不断更新,以纠正预测方面的任何错误。

Silver 和 Sutton 仍预计人类在设定目标方面发挥作用,信号和奖励则用来引导智能体。

比如说,用户可能指定一个宽泛的目标,比如“提升我的健康水平”,奖励函数可能返回表明用户心率、睡眠时长和步数的结果。或者,用户可能指定“帮助我学习西班牙语”的目标,奖励函数可能返回用户的西班牙语考试成绩。

人类反馈成为“最高级目标”,其他一切都服务于此目标。

研究人员写道,拥有这种能力的AI智能体将更适合成为 AI 助手。它们可以追踪某人数月或数年的睡眠和饮食情况,提供不仅限于近期趋势的健康建议。这类智能体还可以充当教学助手,长期跟踪学生的学习进度。

科学智能体可以实现宏大的目标,比如发现新材料或减少二氧化碳排放。这样的智能体可以长期分析现实世界的观察结果,开发和运行模拟,并提出现实世界的试验或干预建议。

研究人员认为,体验智能体可能会超越像 Gemini、DeepSeek 的 R1 和 OpenAI 的 o1 这样的“思考”或“推理”AI 模型。

推理智能体的问题在于,当它们生成关于答案步骤的冗长输出时,实际上“模仿”人类语言,而人类思维可能受到其固有假设的限制。

研究人员写道,体验智能体将释放前所未有的能力,从而带来与我们以往所见截然不同的未来。然而他们指出,也存在着诸多风险。这些风险不仅仅集中在AI智能体取代人类劳动力,不过他们特别指出失业是风险之一。智能体能够长期自主地与世界交互以实现长期目标,这减少了需要人类干预和调解智能体行动的机会。

他们认为,积极的一面是,相比当今固定僵化的 AI 模型,能逐渐适应的智能体能够识别其行为何时引发人类的担忧、不满或痛苦,并自动调整行为以避免这些负面后果。

抛开细节不谈,Silver 和 Sutton 相信,流体验会生成更多关于世界的信息,信息量将远远超过用于训练当今AI的所有维基百科和 Reddit 数据。基于流的智能体甚至可能会超越人类智能,预示着通用AI或超级智能到来。

研究人员写道,经验数据将在规模和质量上远超人类生成的数据。这种范式转变,辅以强化学习在算法方面的进步,将在许多领域发掘人类望尘莫及的新能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
丁俊晖晋级让吉尔伯特“暴怒”:英国孩子只想当网红,没人打球了

丁俊晖晋级让吉尔伯特“暴怒”:英国孩子只想当网红,没人打球了

里芃芃体育
2026-04-21 10:15:07
火湖G2伤病情况:火箭队2人缺阵,杜兰特状态升级!湖人双核不打

火湖G2伤病情况:火箭队2人缺阵,杜兰特状态升级!湖人双核不打

熊哥爱篮球
2026-04-21 12:18:56
7-3领先后连丢7局!世锦赛诞生最惨逆转,中国3人晋级创历史

7-3领先后连丢7局!世锦赛诞生最惨逆转,中国3人晋级创历史

刘哥谈体育
2026-04-21 18:11:42
健身房骂人后续:大妈追到大厅继续骂,正面曝光已社死,老底被扒

健身房骂人后续:大妈追到大厅继续骂,正面曝光已社死,老底被扒

荷兰豆爱健康
2026-04-21 15:48:45
大快人心!张敬轩复出泡汤,霍汶希被拖下水,英皇如坐针毡

大快人心!张敬轩复出泡汤,霍汶希被拖下水,英皇如坐针毡

一盅情怀
2026-04-21 19:20:32
当年张柏芝抱着lucas后面居然是大s,到现在才发现,真美好

当年张柏芝抱着lucas后面居然是大s,到现在才发现,真美好

东方不败然多多
2026-04-21 16:35:09
8-1,4-5!吴宜泽德比战创纪录,范争一紧追墨菲,中国4人进16强

8-1,4-5!吴宜泽德比战创纪录,范争一紧追墨菲,中国4人进16强

刘姚尧的文字城堡
2026-04-21 09:10:02
湖人消息:东契奇复出时间曝光,悍将有望长期留队,G2出场更新

湖人消息:东契奇复出时间曝光,悍将有望长期留队,G2出场更新

冷月小风风
2026-04-21 10:58:08
身家一年暴涨560亿元成“惠州首富” 胜宏科技创始人陈涛:加速扩充高端产能

身家一年暴涨560亿元成“惠州首富” 胜宏科技创始人陈涛:加速扩充高端产能

每日经济新闻
2026-04-21 11:13:18
票房仅70万,花8400万请四国明星也没用,这块港片金字招牌砸了?

票房仅70万,花8400万请四国明星也没用,这块港片金字招牌砸了?

靠谱电影君
2026-04-21 22:22:52
含永久化学品?特步、探路者、骆驼、海澜之家、石下、太平鸟中招

含永久化学品?特步、探路者、骆驼、海澜之家、石下、太平鸟中招

刘旷
2026-04-20 09:06:11
王近山不经请示干掉日本战地观战团,毛主席:早就听说有个王疯子

王近山不经请示干掉日本战地观战团,毛主席:早就听说有个王疯子

鹤羽说个事
2026-04-20 22:56:36
歼10直飞伊朗,美以都没敢拦!谁也没想到,背后藏着一个天大的局

歼10直飞伊朗,美以都没敢拦!谁也没想到,背后藏着一个天大的局

寻墨阁
2026-04-20 18:51:46
谷雨后,这菜使劲吃,一清热解毒,二健胃消食,三祛湿,鲜嫩营养

谷雨后,这菜使劲吃,一清热解毒,二健胃消食,三祛湿,鲜嫩营养

阿龙美食记
2026-04-20 15:29:14
中国高铁过度建设问题:科学院院士的警告

中国高铁过度建设问题:科学院院士的警告

深度报
2026-04-20 22:43:12
日本7.7 级强震后,高市得罪 4 邻国,谁还愿救日本核电站?

日本7.7 级强震后,高市得罪 4 邻国,谁还愿救日本核电站?

眼界看视野
2026-04-21 09:49:11
售价55.98万元!理想L9 Livis定档5月15日上市并开启交付

售价55.98万元!理想L9 Livis定档5月15日上市并开启交付

CNMO科技
2026-04-20 18:20:15
网友喊话请何润东代言霸王茶姬,有人都把图P好了,客服:建议已详细登记;何润东翻红后,账号涨粉近200万

网友喊话请何润东代言霸王茶姬,有人都把图P好了,客服:建议已详细登记;何润东翻红后,账号涨粉近200万

鲁中晨报
2026-04-20 14:48:15
人挪活?28岁弃将助队掀翻海港!连续3轮破门,已追平过去5年总和

人挪活?28岁弃将助队掀翻海港!连续3轮破门,已追平过去5年总和

我爱英超
2026-04-21 23:00:37
联合国:加沙3.8万多名女性被以军杀害

联合国:加沙3.8万多名女性被以军杀害

参考消息
2026-04-20 13:10:03
2026-04-21 23:31:00
云头条 incentive-icons
云头条
引领科技变革,连接技术与商业。
19890文章数 27301关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

商家网售"宣威火腿"被诉侵权:我就是宣威人为何不能卖

头条要闻

商家网售"宣威火腿"被诉侵权:我就是宣威人为何不能卖

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

教育
本地
家居
手机
军事航空

教育要闻

被导师批到想退学,答辩当天他单挑专家组:硬实力才是底气!

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

家居要闻

诗意光影 窥见自然之境

手机要闻

一加Ace 6至尊版新配色公布,游戏体验持续升级

军事要闻

特朗普公开对伊开战真正原因

无障碍浏览 进入关怀版