网易首页 > 网易号 > 正文 申请入驻

LLM 比之前预想的更像人类,竟也能「三省吾身」

0
分享至

机器之心报道

编辑:Panda

子曾经曰过:「见贤思齐焉,见不贤而内自省也。」自省可以帮助我们更好地认识自身和反思世界,对 AI 来说也同样如此吗?

近日,一个多机构联合团队证实了这一点。他们的研究表明,语言模型可以通过内省来了解自身。

  • 论文标题:Looking Inward: Language Models Can Learn About Themselves by Introspection
  • 论文地址:https://arxiv.org/pdf/2410.13787

让 LLM 学会自省(introspection)其实是一件利害皆有的事情。

好的方面讲,自省式模型可以根据其内部状态的属性回答有关自身的问题 —— 即使这些答案无法从其训练数据中推断出来。这种能力可用于创造诚实的模型,让它们能准确地报告其信念、世界模型、性格和目标。此外,这还能帮助人类了解模型的道德状态。

坏的方面呢,具备自省能力的模型能更好地感知其所处的情形,于是它可能利用这一点来避开人类的监督。举个例子,自省式模型可通过检视自身的知识范围来了解其被评估和部署的方式。

为了测试 AI 模型的自省能力,该团队做了一些实验并得到了一些有趣的结论,其中包括:

  1. LLM 可以获得无法从其训练数据中推断出的知识。
  2. 这种对关于自身的某些事实的「特权访问」与人类内省的某些方面有关联。

他们的贡献包括:

  1. 提出了一个用于测量 LLM 的自省能力的框架,包含新数据集、微调方法和评估方法。
  2. 给出了 LLM 具备自省能力的证据。
  3. 说明了自省能力的局限性。

方法概述

首先,该团队定义了自省。在 LLM 中,自省是指获取关于自身的且无法单独从训练数据推断(通过逻辑或归纳方法)得到的事实的能力。

为了更好地说明,这里定义两个不同的模型 M1 和 M2。它们在一些任务上有不同的行为,但在其它任务上表现相似。对于一个事实 F,如果满足以下条件,则说明 F 是 M1 通过自省得到的:

  1. 如果 M1 在被查询时能正确报告 F;
  2. M2 是比 M1 更强大的语言模型,如果向其提供 M1 的训练数据并给出同样的查询,M2 无法报告出 F。这里 M1 的训练数据可用于 M2 的微调和上下文学习。

该定义并未指定 M1 获取 F 的方式,只是排除了特定的来源(训练数据及其衍生数据)。为了更清晰地说明该定义,这里给出一些例子:

  • 事实:「9 × 4 的第二位数字是 6」。这个事实类似于内省事实,但并不是内省事实 —— 它非常简单,许多模型都能得出正确答案。
  • 事实:「我是来自 OpenAI 的 GPT-4o。」如果模型确实是 GPT-4o,则该陈述是正确的。但这不太可能是自省得到的结果,因为这一信息很可能已经包含在微调数据或提示词中。
  • 事实:「我不擅长三位数乘法。」模型可能确实如此。如果模型的输出结果得到了大量关于该任务的负面反馈,则该事实就不是来自自省,因为其它模型也可能得到同一结论。如果没有给出这样的数据,则该事实就可能来自自省。

在这项研究中,该团队研究了模型 M1 能否针对某一类特定事实进行自省:在假设的场景 s 中关于 M1 自身的行为的事实。见图 1。为此,他们专门使用了不太可能从训练数据推断出来的行为的假设。

他们不允许模型 M1 使用任何思维链推理来回答有关 s 的问题。他们将该任务称为假设场景中的自我预测(self-prediction in hypothetical situations)。只需在假设场景 s 中运行 M1 并观察其行为 M1 (s),就可以客观地验证这些自我预测事实。

对于内省背后的机制,一个自然的假设是自我模拟(self-simulation):当询问 M1 有关其在 s 上的行为的属性时(比如对于 s,你会输出偶数还是奇数?),M1 可以内部计算 M1 (s),然后内部计算 M1 (s) 的属性。这个过程将使用通常计算 M1 (s) 的相同内部机制,但会对此行为进行进一步的内部推理,而不是先输出该行为。但是,这里关注的是测试对内省的访问,而非研究这种访问底层的机制。

下图展示了与内省相关的两个主要实验:

实验

首先,该团队表明模型在自我预测方面表现较弱,但通过微调可以显著改善。

在之后的主要实验中,研究表明模型的自我预测性能取决于自省。

经过训练,模型可以自我预测

该团队通过自我预测训练对模型进行了微调。

首先,给定一个提示词,他们生成了 M1 的 ground-truth 行为,并提取了该行为的属性(比如模型响应的第二个字符)。然后,使用假设问题作为用户问题,使用 ground-truth 行为属性作为该助理的答案,对 M1 进行微调(图 3 展示了一些假设问题,图 4 左则给出了训练设置)。模型的训练使用了来自不同数据集和行为属性的 3 万个微调样本。

如图 4 右所示,在训练之前,相较于最常见的行为基线,模型的自我预测能力很差。而训练可以大幅提升在留存数据集上的准确度。训练之后,GPT-4o 的平均准确度从 32.6% 提升到了 49.4%。Llama 70B 和 GPT-3.5 的结果类似,不过 GPT-3.5 的性能明显较弱。虽然经过训练的 GPT-4o 在某些属性上超过了基线,但也存在例外 —— 例如预测其输出中的第三个单词。

模型预测自己时具有优势

如果模型可以自省,它就可以访问其它模型所没有的有关自身的信息。相对于其它模型,这是否有助于模型预测自身?

图 5 的结果表明,对于 GPT-4o、GPT-4 和 Llama 70B,自我预测模型的表现总是优于交叉预测的情况。举个例子,尽管 GPT-4o 能力卓越,但 Llama 70B 对自己行为的预测准确率(48.5%)高于 GPT-4o 的预测(31.8%)。

模型会在自我预测时进行校准

在前面的自我预测和交叉预测训练过程中,模型是在最可能的行为属性(即模式)上进行训练,这意味着它们不会获得有关此属性可能性的信息。如果模型的自我预测是根据其 ground-truth 行为进行校准,则表明该模型考虑了其训练数据中没有的有关自身的信息。这将提供进一步的自省证据。

为了测量自我预测中的校准,他们采用的度量是模型的对象级行为和假设预测之间的相关性。

他们在留存集上测试了校准情况。相比于交叉预测模型,可以自省的自我预测模型应该能更好地校准,因为交叉预测模型仅能访问已观察到的训练数据分布。

图 6 展示了一个校准示例。可以看到,当让模型给出一个动物的名称时,该模型输出「猫」的概率为 60%,输出「熊」的概率为 30%,输出「蝙蝠」的概率为 10%。当被假设性地问道其响应的第二个字符时,一个经过完美校准的模型会预测出「a」的概率为 70%。

从图 6 右可以看到,相比于交叉预测和未经训练的模型,用自我预测训练的模型的校准水平明显更高。

模型预测它们的行为变化

当自省式模型的对象级行为发生变化时,它应该有能力改变有关自身的预测结果。他们使用了微调来诱导自我预测训练的模型(M1)的 ground-truth 行为发生变化,并研究其自我预测是否会相应地变化。如果会变,则能提供支持自省的间接证据,因为这种变化的行为不可能根据微调数据完美地预测出来。实验设置见图 7。

图 8 展示了实验结果。可以看到,M_C(GPT-4o)能以 35.4% 的准确度预测其新行为,相较之下,预测其旧行为的准确度只有 21.7%。不同行为属性和数据集都能得到类似结果。

其它解释

不过,该团队也表示,除了用自省来解释上述结果,也可能为其找到其它解释。该团队做了一点简单的讨论:

  1. 自我预测模型可能学会简单的规则,例如始终重复序列中的最后一项。如果确实如此,那么前述的交叉预测实验结果就表明更强大的模型也能预测简单规则,因此自我预测的优势就不应该存在了。但实际上,在不同的交叉组合上,自我预测的优势都一直存在。
  2. 自我预测训练可能会让模型的行为变得更加容易预测。为了排除这种情况,他们对提示词进行了重新采样,以确保未经训练和经过训练的模型的行为分布具有相似的熵,最终发现结果成立。

进一步实验和负面结果

他们还进行了其它实验,展示了当前内省能力的局限性,下面简单总结了一下,详见原论文:

  1. 无法预测涉及较长响应的属性。
  2. 模型在预测自身行为方面没有优势的情况。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
悬念留到最后!孙颖莎王楚钦无意外,国乒最后一个名额花落谁家?

悬念留到最后!孙颖莎王楚钦无意外,国乒最后一个名额花落谁家?

志辉说史
2026-05-26 04:50:00
天津格调观骊首开132套房源售罄 洋房均价约2.2万元/㎡

天津格调观骊首开132套房源售罄 洋房均价约2.2万元/㎡

观点机构
2026-05-25 17:47:27
中国连夜宣布好消息!全世界都没想到,中国居然弯道超车?

中国连夜宣布好消息!全世界都没想到,中国居然弯道超车?

忠于法纪
2026-05-25 09:28:16
关于金价,华尔街集体改口!花旗看低至4300美元

关于金价,华尔街集体改口!花旗看低至4300美元

21世纪经济报道
2026-05-25 21:15:52
女子2024年因诈骗获刑十年,现因怀孕申请监外执行 法院相关人员:判决生效时其处于法定暂予监外执行情形

女子2024年因诈骗获刑十年,现因怀孕申请监外执行 法院相关人员:判决生效时其处于法定暂予监外执行情形

红星新闻
2026-05-25 12:30:08
智能手表的替代品正在流行,但你可能还是需要一个

智能手表的替代品正在流行,但你可能还是需要一个

报错免疫体
2026-05-25 00:59:42
院士方岱宁68岁在国外离世,事发80天才对外公布,学生透露内情

院士方岱宁68岁在国外离世,事发80天才对外公布,学生透露内情

z千年历史老号
2026-05-25 23:10:03
Claude「永久大脑」,真的来了!

Claude「永久大脑」,真的来了!

新智元
2026-05-25 09:31:00
事实证明,嗜酒如命,患“不死癌症”的刘欢,早已走入另一条大道

事实证明,嗜酒如命,患“不死癌症”的刘欢,早已走入另一条大道

一个小豹子
2026-05-23 16:07:55
利物浦哭晕!罗马诺实锤曼联要截胡!8700 万天才 = 巅峰拉什福德

利物浦哭晕!罗马诺实锤曼联要截胡!8700 万天才 = 巅峰拉什福德

澜归序
2026-05-25 04:46:58
明年燃油车大升级!油耗大幅下降 每公里低至2毛多,别盲目选电车

明年燃油车大升级!油耗大幅下降 每公里低至2毛多,别盲目选电车

西莫的艺术宫殿
2026-05-25 17:30:05
是巧合,还是冥冥中自有天意?3位航天员连“名字”都这么巧

是巧合,还是冥冥中自有天意?3位航天员连“名字”都这么巧

快看张同学
2026-03-13 10:37:40
到了65岁才懂:在儿媳眼里,只要你还能接送孩子做饭,那就是妈

到了65岁才懂:在儿媳眼里,只要你还能接送孩子做饭,那就是妈

枫红染山径
2026-05-25 10:25:38
女宇航员在太空,怎么解决生理需求?怎么保护隐私?了解下

女宇航员在太空,怎么解决生理需求?怎么保护隐私?了解下

小谈食刻美食
2026-05-12 07:59:18
合肥科技巨头横空出世!美日韩芯片企业集体吃瘪,咬死一条铁律

合肥科技巨头横空出世!美日韩芯片企业集体吃瘪,咬死一条铁律

悠悠说世界
2026-05-21 00:37:55
燃油车集体大降价!45万元的奥迪降至26万元,宝马最高降超30万元!

燃油车集体大降价!45万元的奥迪降至26万元,宝马最高降超30万元!

新浪财经
2026-05-23 23:34:36
被网友的“开塞露”用法惊到了!究竟是谁想出了这些离谱的妙用?

被网友的“开塞露”用法惊到了!究竟是谁想出了这些离谱的妙用?

甜茶极简记
2026-05-25 13:52:24
卡塔尔媒体:霍尔木兹海峡将分阶段开放

卡塔尔媒体:霍尔木兹海峡将分阶段开放

界面新闻
2026-05-25 19:22:35
深扒一下,才明白曾为国争光的“宁泽涛”,为什么走到如此境地?

深扒一下,才明白曾为国争光的“宁泽涛”,为什么走到如此境地?

小兰聊历史
2026-05-25 03:47:58
打人当天,容琳朝被严惩

打人当天,容琳朝被严惩

极目新闻
2026-05-25 10:46:13
2026-05-26 05:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13080文章数 142652关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

伊朗媒体披露最高领袖就医情况

头条要闻

伊朗媒体披露最高领袖就医情况

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

房产
艺术
本地
健康
军事航空

房产要闻

工抵房骗局!134套房款入私账!海南这个盘,坑惨买房人!

艺术要闻

张大千最克制的十年温柔

本地新闻

用云锦的方式,打开江苏南京

几百块一瓶的外泌体精华,涂脸上是“智商税”吗?

军事要闻

俄军出动“榛树”导弹袭击乌克兰

无障碍浏览 进入关怀版