一种名为“流”(streams)的新型智能体方法将使 AI 模型能够从环境体验中学习,无需人类的“预先判断”。
AI 界最近一直执迷于让生成式 AI 不仅限于 AI 模型轻松就能通过的简单测试。著名的图灵测试在某种程度上已通过,而关于最新模型是不是为了在衡量性能的基准测试中作弊而开发的争议愈演愈烈。
谷歌 DeepMind 部门的学者表示,问题不在于测试本身,而在于开发 AI 模型的方式有局限性。
用于训练AI的数据过于受限且静态,永远无法推动AI发展出更强大的新能力。
研究人员在 DeepMind 上周发表的一篇论文(麻省理工学院出版社即将出版的新书的一部分)中提出,必须允许 AI 拥有某种“体验”,与世界进行交互,根据来自环境的信号制定目标。
DeepMind的两位 学者 David Silver 和 Richard Sutton 在题为《欢迎来到体验时代》的论文、 中写道: “ 一旦充分发挥体验式学习的潜力,难以置信的新能力 就会应运而生 。 ”
Richard Sutton(左)、 David Silver(右)
这两位学者是这个领域的传奇人物。
Silver 领导团队研发了 AlphaZero。
DeepMind 的这款 AI 模型在国际象棋和围棋比赛中击败了人类。
Sutton 则是两位捧得图灵奖的开发者之一,开发了强化学习的 AI 方法,Silver 及其团队正是用这种方法开发出了 AlphaZero。
这两位学者倡导的方法立足于强化学习和 AlphaZero 积累的经验。这种方法名为“流”( streams),旨在弥补当今大语言模型(LLM)的缺陷,而如今开发的LLM仅仅为了回答人类提出的问题。
Silver 和 Sutton 认为,在 AlphaZero 及前身 AlphaGo 横空出世后不久,ChatGPT 等生成式 AI 工具登台亮相,“抛弃”了强化学习。此举有利也有弊。
生成式AI 是重要的进步,因为 AlphaZero 使用强化学习仅限于有限的应用领域。这项技术无法适用于所有规则已知的需要“完整信息”的棋类(比如国际象棋)之外的领域。
另一方面,生成式 AI 模型可以处理来自人类的从未遇到过的自发输入,不需要事情应该如何发展方面的明确规则。
然而他们写道,摈弃强化学习意味着“从此失去了智能体独自发现自身知识的能力”。
他们认为,相反,LLM 依赖人类的预先判断,或者说人类在提示阶段想要的结果。这种方法过于局限。他们认为,人类的判断给智能体的性能或表现“设定了难以逾越的上限”:智能体无法发现人类评估者低估的更好策略。
人类判断不仅构成了障碍,提示式交互具有的简短、缩略的特性还使AI模型无法摆脱问答模式。
研究人员写道,在人类数据时代,基于语言的AI主要关注短促的交互场景:比如用户提出问题,然后(可能经过几个思考步骤或使用工具的操作后)智能体做出回应。智能体的目标仅限于针对当前场景给出结果,比如直接回答用户的问题。
提示式交互没有记忆,各个交互片段之间也没有连续性。
Silver 和 Sutton 写道,通常几乎没有信息从一个场景延续到下一个场景,阻碍了逐渐适应。然而在体验时代,智能体将存在于体验流中,而不是短暂的交互片段中。
Silver 和 Sutton 将体验流与人类通过一生积累经验进行学习进行了类比,基于长远目标而非眼前的任务执行行动。他们写道,强大的智能体应该有自己的体验流,像人类一样在长时间跨度上逐渐进化。
当今的技术足以开始构建体验流。
事实上,我们可以从业界动态看到这方面的头几步,比如浏览网页的 AI 智能体,包括 OpenAI 的 Deep Research。
最近,新一波原型智能体开始以更通用的方式与计算机交互,使用与人类使用的同一种界面操作计算机。浏览器智能体标志着从完全由人类特许的沟通,变成自主程度大大提高的交互(智能体能够在这个世界独立行动)。
Silver 和 Sutton 认为,随着 AI 智能体超越单纯的网页浏览,它们需要一种与世界交互并从中学习的方式。
他们提出,流概念的 AI 智能体将采用与 AlphaZero 相同的强化学习原理进行学习。
机器被赋予呈现与其交互的世界的模型(类似棋盘)和一套规则。
当 AI 智能体探索并采取行动时,它会收到奖励形式的反馈。这种奖励训练 AI 模型,让其了解在特定情况下,哪些行动更有价值、哪些没有价值。
Silver 和 Sutton 认为,如果允许智能体寻找提供这种奖励的各种“信号”,这个世界充满了这样的信号。如果不是来自人类数据,奖励又来自哪里?一旦智能体通过丰富的行动和观察空间与世界建立联系,就根本不缺提供奖励基础的可靠信号。事实上,这个世界满眼是定量信号,比如成本、错误率、饥饿、生产力、健康指标、气候指标、利润、销售额、考试成绩、成功、访问量、收益、股票、点赞、收入、愉悦/痛苦、经济指标、准确率、距离、速度、效率或能耗。此外,无数的额外信号来自特定事件的发生,或来自从观察和行动的原始序列中提取的特征。
为了从底层开始构建 AI 智能体,AI 开发者可能会使用“世界模型”模拟。
世界模型让 AI 模型可以进行预测,在现实世界中测试这些预测,然后利用奖励信号让模型更贴近现实。随着智能体在体验流中不断与世界交互,其动态模型不断更新,以纠正预测方面的任何错误。
Silver 和 Sutton 仍预计人类在设定目标方面发挥作用,信号和奖励则用来引导智能体。
比如说,用户可能指定一个宽泛的目标,比如“提升我的健康水平”,奖励函数可能返回表明用户心率、睡眠时长和步数的结果。或者,用户可能指定“帮助我学习西班牙语”的目标,奖励函数可能返回用户的西班牙语考试成绩。
人类反馈成为“最高级目标”,其他一切都服务于此目标。
研究人员写道,拥有这种能力的AI智能体将更适合成为 AI 助手。它们可以追踪某人数月或数年的睡眠和饮食情况,提供不仅限于近期趋势的健康建议。这类智能体还可以充当教学助手,长期跟踪学生的学习进度。
科学智能体可以实现宏大的目标,比如发现新材料或减少二氧化碳排放。这样的智能体可以长期分析现实世界的观察结果,开发和运行模拟,并提出现实世界的试验或干预建议。
研究人员认为,体验智能体可能会超越像 Gemini、DeepSeek 的 R1 和 OpenAI 的 o1 这样的“思考”或“推理”AI 模型。
推理智能体的问题在于,当它们生成关于答案步骤的冗长输出时,实际上“模仿”人类语言,而人类思维可能受到其固有假设的限制。
研究人员写道,体验智能体将释放前所未有的能力,从而带来与我们以往所见截然不同的未来。然而他们指出,也存在着诸多风险。这些风险不仅仅集中在AI智能体取代人类劳动力,不过他们特别指出失业是风险之一。智能体能够长期自主地与世界交互以实现长期目标,这减少了需要人类干预和调解智能体行动的机会。
他们认为,积极的一面是,相比当今固定僵化的 AI 模型,能逐渐适应的智能体能够识别其行为何时引发人类的担忧、不满或痛苦,并自动调整行为以避免这些负面后果。
抛开细节不谈,Silver 和 Sutton 相信,流体验会生成更多关于世界的信息,信息量将远远超过用于训练当今AI的所有维基百科和 Reddit 数据。基于流的智能体甚至可能会超越人类智能,预示着通用AI或超级智能到来。
研究人员写道,经验数据将在规模和质量上远超人类生成的数据。这种范式转变,辅以强化学习在算法方面的进步,将在许多领域发掘人类望尘莫及的新能力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.