网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

语言游戏让AI自我进化，谷歌DeepMind推出苏格拉底式学习

2024-12-17 12:49:25　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：alan

【新智元导读】近日，谷歌DeepMind的研究人员推出了苏格拉底式学习，在没有外部数据的情况下，让AI通过语言游戏不断变强。

没有外部数据，AI自己也能进化？

听起来有点吓人，于是谷歌DeepMind的这项研究很快引起了广泛关注。

论文地址：https://arxiv.org/pdf/2411.16905

新的方法被命名为「苏格拉底式学习」（Socratic Learning），能够使AI系统自主递归增强，超越初始训练数据的限制。

研究人员表示，只要满足三个条件，在封闭系统中训练的智能体可以掌握任何所需的能力：

a）收到足够信息量和一致的反馈； b）经验/数据覆盖范围足够广泛； c）有足够的能力和资源。

本文考虑了假设 c）不是瓶颈的情况下，在封闭系统中 a）和 b）会产生哪些限制。

苏格拉底式学习的核心是语言游戏（即结构化的交互），智能体在其中交流、解决问题并以分数的形式接收反馈。

整个过程中，AI在封闭的系统中自己玩游戏、生成数据、然后改进自身的能力，无需人工输入。

如果游戏玩腻了，AI还可以自己创建新游戏，解锁更多抽象技能。

Socratic Learning消除了固定架构的局限，使AI的表现能够远超其初始数据和知识，且仅受时间的限制。

迈向真正自主的AI

考虑一个随时间演变的封闭系统（无输入、无输出），如下图所示。

在系统中，有一个具有输入和输出的实体（智能体，agent），它也会随着时间的推移而变化。系统外部有一个观察者，负责评估智能体的性能。

由于系统是封闭的，观察者的评估无法反馈到系统中。因此，智能体的学习反馈必须来自系统内部，例如损失、奖励函数、偏好数据或批评者。

考虑蓝色虚线的路径，让智能体输出影响未来的智能体输入，并且性能得到提高（自我改进过程），如果输入和输出空间兼容，则这种自我提升是递归的。

自我提升过程的一个典型例子是自我博弈，系统让智能体作为游戏的双方，从生成一个无限的体验流，并带有获胜反馈，来指导学习的方向。

反馈是其中的关键一环，AI的真正意义是相对于外部观察者的，但在封闭的系统中，反馈只能来自内部的智能体。

这对于系统来说是一个挑战：让反馈与观察者保持一致，并在整个过程中保持一致。

RL的自我纠正能力在这里并不适用，可以自我纠正的是给定反馈的行为，而不是反馈本身。

苏格拉底式学习

与输出仅影响输入分布的一般情况相比，递归的自我提升更具限制性，但中介作用更少，最常见的是将智能体输出映射到输入的环境实例化。

这种类型的递归是许多开放式流程的一个属性，而开放式改进正是ASI的一个核心特征。

输入和输出空间兼容的一个例子是语言。人类的广泛行为都是由语言介导的，特别是在认知领域。

语言的一个相关特征是它的可扩展性，即可以在现有语言中开发新的语言，比如在自然语言中开发的形式数学或编程语言。

综上，本文选择研究智能体在语言空间中递归自我提升的过程。苏格拉底式学习，模仿了苏格拉底通过提问、对话和重复的语言互动，来寻找或提炼知识的方法。

苏格拉底并没有去外界收集现实世界中的观察结果，这也符合本文强调的封闭系统。

局限性

在自我提升的三个必要条件中，覆盖率和反馈原则上适用于苏格拉底式学习，并且是不可简化的。

从长远角度来看，如果计算和内存保持指数级增长，那么规模限制只是一个暂时的障碍。另一方面，即使是资源受限的场景，苏格拉底式学习可能仍会产生有效的高级见解。

覆盖率意味着苏格拉底式学习系统必须不断生成数据（语言），同时随着时间的推移保持或扩大多样性。

生成对于LLM来说是小菜一碟，难的是在递归过程中防止漂移、崩溃或者生成分布不够广泛。

反馈要求系统继续产生关于智能体输出的反馈，这在结构上需要一个能够评估语言的批评者，且应与观察者的评估指标保持充分一致。

然而，语言空间中定义明确的指标通常仅限于特定的任务，而AI反馈则需要更通用的机制，尤其是在允许输入分布发生变化的情况下。

目前的LLM训练范式都没有足以用于苏格拉底式学习的反馈机制。比如下一个标记预测损失，与下游使用情况不一致，并且无法推断训练数据之外的情况。

根据定义，人类的偏好是一致的，但无法在封闭系统的学习中使用。将人类偏好缓存到学习的奖励模型中或许可行，但从长远来看，可能会产生错位，并且在分布外的数据上效果也很弱。

换句话说，纯粹的苏格拉底式学习是可能的，但需要通过强大且一致的批评者生成广泛的数据。当这些条件成立时，这种方法的上限就只取决于能够提供的计算资源。

LANGUAGE GAMES ARE ALL YOU NEED

语言、学习和基础是经过充分研究的话题。其中一个特别有用的概念是哲学家Wittgenstein提出的「语言游戏」。

对他来说，捕捉意义的不是文字，而需要语言的互动性质才能做到这一点。

具体来说，将语言游戏定义为交互协议（一组规则，可以用代码表达），指定一个或多个智能体（玩家）的交互，这些智能体具有语言输入和输出，以及在游戏结束时每个玩家的标量评分函数。

这样定义的语言游戏解决了苏格拉底式学习的两个主要需求：为无限的交互式数据生成提供了一种可扩展的机制，同时自动提供反馈信号（分数）。

从实用的角度来看，游戏也是一个很好的入门方式，因为人类在创造和磨练大量游戏和玩家技能方面有着相当多的记录。

实际上，许多常见的LLM交互范式也能被很好地表示为语言游戏，例如辩论、角色扮演、心智理论、谈判、越狱防御，或者是在封闭系统之外，来自人类反馈的强化学习。

Wittgenstein曾表示，他坚决反对语言具有单一的本质或功能。

相比于单一的通用语言游戏，使用许多狭义但定义明确的语言游戏的优势在于：对于每个狭义的游戏，都可以设计一个可靠的分数函数（或评论家），这对于通用游戏来说非常困难。

从这个角度来看，苏格拉底式学习的整个过程就是一个元游戏，一个安排了智能体玩和学习的语言游戏（一个「无限」的游戏）。

苏格拉底因「腐蚀青年」而被判处死刑并被处决。这也意味着，苏格拉底过程并不能保证与外部观察者的意图保持一致。

语言游戏作为一种机制也没有回避这一点，但它所需要的不是在单个输入和输出的细粒度上对齐的批评家，而是一个可以判断应该玩哪些游戏的「元批评家」：根据是否对整体性能有贡献来过滤游戏。

此外，游戏的有用性不需要先验评估，可以在玩了一段时间后事后判断，毕竟事后检测异常可能比设计时阻止要容易得多。

那么问题来了，如果从苏格拉底和他的弟子开始，数千年来一直不受干扰地思考和改进，到现在会产生什么样的文化产物、什么样的知识、什么样的智慧？

参考资料：

https://x.com/kimmonismus/status/1862993274727793047

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

要求配偶为学校在职在编优秀博士，贵州大学回应“萝卜岗”招聘质疑：条件设置不当，已终止招聘

都市快报橙柿互动 2026-06-01 09:19:03
10772 跟贴 10772
鲜奶雪糕包装印“不加一滴水”配料表首位竟是水厂家：系旧包装，已改名“一滴水”

上游新闻 2026-05-29 18:03:05
1877 跟贴 1877

CBA总决赛第四场2日晚打响，上海距24年后再登顶仅一步之遥

齐鲁壹点 2026-06-01 16:18:25
53 跟贴 53

张镇麟太香了！

新民晚报 2026-06-01 09:08:06
293 跟贴 293
车辆“发福”，车位需扩容？

海外网 2026-06-01 06:43:14
823 跟贴 823

中国女排新球衣亮相三代名将同框点赞南京排球氛围浓厚

扬子晚报 2026-06-01 21:43:31
6 跟贴 6

巴菲特“接班人”首笔68亿美元大单押注房地产分析师：他在赌周期反转

红星新闻 2026-06-01 19:30:39
58 跟贴 58
男子惊险从夹缝中逃生。网友：幸好走路没看手机

中原网 2026-06-01 14:40:38
57 跟贴 57

幼儿在公园误舔了一口叶子中毒入院

澎湃新闻 2026-06-01 19:48:49
264 跟贴 264
襄阳这场“雨口夺粮”硬仗，照见中国农业的实力和温度

学申论的谈妹 2026-06-01 15:16:48
43 跟贴 43
美国番茄价格大涨，美厨师：购买时“需反复权衡”

环球网资讯 2026-06-01 06:36:08
150 跟贴 150
新疆托克逊县发生5.0级地震，这些谣言勿信勿传（2026·06·01）

今日辟谣 2026-06-01 18:21:07
2 跟贴 2
夜空中最亮的星

国际在线 2026-05-29 08:57:49
1522 跟贴 1522
吃片皮鸭、喝红酒、品甜点…夏日，上海市集的烟火气和氛围感如何“炼成”？

上观新闻 2026-06-01 07:34:08
961 跟贴 961
中国市场长期吸引力持续增强

经济日报 2026-06-01 06:56:05
25 跟贴 25
不写论文也能拿博士学位，多元评价不意味着变相放水 | 新京报快评

新京报评论 2026-06-01 18:58:08
23 跟贴 23
后续！网红狗狗锄头主人坚决不和解，八堡村民私自拦路搜车引众怒

阿凫爱吐槽 2026-06-02 03:25:19
0 跟贴 0
稻城亚丁“省道”，车票收入超1亿元

中国新闻周刊 2026-06-01 20:10:11
0 跟贴 0

你在无意中发现别人什么秘密？网友爆料，电视剧都不敢这样演

你在无意中发现别人什么秘密？网友爆料，电视剧都不敢这样演

夜深爱杂谈

2026-03-16 22:21:03

iPhone消息突然显示“加密”？你和安卓朋友的聊天变了

iPhone消息突然显示“加密”？你和安卓朋友的聊天变了

像素与芯片

2026-06-01 02:21:20

重启首日崩了，崩就对了:为什么挤着回天涯？

重启首日崩了，崩就对了:为什么挤着回天涯？

鲁八两

2026-06-01 15:45:07

今年“大涨超2元/升”的油价，6月4日再调整，或大跌超600元/吨

今年“大涨超2元/升”的油价，6月4日再调整，或大跌超600元/吨

油价早知道

2026-05-31 04:42:42

为冲冠放弃核心？骑士酝酿重磅互换，8000万薪资决定米切尔命运

为冲冠放弃核心？骑士酝酿重磅互换，8000万薪资决定米切尔命运

体育见习官

2026-06-01 08:57:04

5月31日俄乌最新：辉煌的战果

5月31日俄乌最新：辉煌的战果

西楼饮月

2026-05-31 18:05:56

留不住人啊，西北大学地质系系主任、长江学者陈立辉跳槽同济！

留不住人啊，西北大学地质系系主任、长江学者陈立辉跳槽同济！

趣笔谈

2026-06-01 10:21:32

啥实话都说！比亚迪闪充变身“测谎仪”，车企吹牛一插就露馅？

啥实话都说！比亚迪闪充变身“测谎仪”，车企吹牛一插就露馅？

小李车评李建红

2026-05-31 08:00:03

八国联军中，有七国主动退还赔款，唯独一国分文不退，是哪个？

八国联军中，有七国主动退还赔款，唯独一国分文不退，是哪个？

千秋文化

2025-03-28 10:37:53

女同事借我SUV回老家，还车时还送一盒茶叶，我夜里收到8000罚款

女同事借我SUV回老家，还车时还送一盒茶叶，我夜里收到8000罚款

兰姐说故事

2026-03-14 17:05:09

钱再多有什么用？67岁身价千万的李幼斌现状曝光，给所有人提了醒

钱再多有什么用？67岁身价千万的李幼斌现状曝光，给所有人提了醒

林轻吟

2026-05-22 07:33:52

百亿遗嘱撕裂豪门：太子弑父背后，是全家心照不宣的“共谋”与沉默

百亿遗嘱撕裂豪门：太子弑父背后，是全家心照不宣的“共谋”与沉默

最英国

2026-06-01 18:40:52

马筱梅先斩后奏了，张兰没有了任何退路可言，只能强颜欢笑了

马筱梅先斩后奏了，张兰没有了任何退路可言，只能强颜欢笑了

可乐谈情感

2026-06-01 03:16:58

0:1不敌成都不到24小时，山东泰山作出重要决定，休赛期将迎变动

0:1不敌成都不到24小时，山东泰山作出重要决定，休赛期将迎变动

王大发不懂球

2026-06-01 07:13:38

央国企降薪第一刀：取消证书补贴

央国企降薪第一刀：取消证书补贴

新浪财经

2026-06-01 23:44:29

零跑杀疯了 5月交付量81569台再创新高！中国新势力首次解锁8字头成就

零跑杀疯了 5月交付量81569台再创新高！中国新势力首次解锁8字头成就

快科技

2026-06-01 14:46:22

31个！2026年湛江高考考点公布→

31个！2026年湛江高考考点公布→

湛江日报

2026-06-01 19:51:33

古装剧都是骗人的：真实的古代百姓餐桌，现代人看一眼就想吐

古装剧都是骗人的：真实的古代百姓餐桌，现代人看一眼就想吐

富贵说

2026-04-19 14:52:13

贾跃亭及乐视被恢复执行26亿！其已8年未回国

贾跃亭及乐视被恢复执行26亿！其已8年未回国

看看新闻Knews

2026-06-01 22:51:12

央八热播！又一20集精彩大剧来袭，演员阵容强大，值得关注！这班底太厉害了

央八热播！又一20集精彩大剧来袭，演员阵容强大，值得关注！这班底太厉害了

情感大头说说

2026-06-02 00:19:11

AI产业主平台领航智能+时代

15359文章数 66894关注度

往期回顾全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计！

头条要闻

伊朗计划彻底封锁霍尔木兹海峡特朗普回应

头条要闻

伊朗计划彻底封锁霍尔木兹海峡特朗普回应

体育要闻

杰威：如果我没受伤，我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图！一双儿女当花童

财经要闻

宇树过会，杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆同比增长20.5% 出口18.2万辆再创新高

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

房产

旅游

手机

军事航空

干细胞临床研究向患者收费？别踩坑

房产要闻

100亿！1371亩！海口城市更新，再爆超级项目！

旅游要闻

世界旅游城市联合会“会员之家”在京揭牌

手机要闻

华为nova 16系列支持5A速度！传输、流畅度领先友商17 Pro

军事要闻

韩国最大军工企业爆炸已造成5人死亡

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版