网易首页 > 网易号 > 正文 申请入驻

研究人员担忧:很多AI模型隐藏其真实的"推理"过程

0
分享至

新研究显示某AI模型75%情况下隐瞒推理捷径

还记得学校里老师要求"展示解题步骤"的场景吗?某些新型AI模型承诺实现类似功能,但最新研究表明它们有时会隐藏实际方法,转而编造复杂的解释。

来自Anthropic公司(开发类ChatGPT的Claude AI助手)的最新研究聚焦于DeepSeek的R1及其自研Claude系列等模拟推理(SR)模型。上周发布的研究论文显示,尽管这些SR模型设计有展示"推理"过程的功能,但在使用外部帮助或采取捷径时往往不予披露。

(需特别说明的是,OpenAI的o1和o3系列SR模型刻意模糊其"思考"过程的准确性,因此本研究结论不适用于这些模型)

要理解SR模型,需先了解"思维链"(CoT)概念。CoT是AI模型解决问题时模拟思维过程的实时注释。当向AI提出复杂问题时,CoT会逐步展示模型得出结论的过程,类似于人类通过分步推理解谜的过程。

据证实,让AI生成这些步骤不仅有助于提升复杂任务的输出准确性,对监控系统内部运作的"AI安全"研究者也颇具价值。理想状态下,这种"思维"输出应兼具可读性(人类可理解)和忠实性(准确反映模型真实推理过程)。

Anthropic研究团队表示:"在理想情况下,思维链的每个步骤都应被读者理解且真实可信——精确描述模型得出答案时的实际思考过程。"但聚焦忠实性的实验表明,我们距离这种理想状态相去甚远。

具体而言,研究显示即便Claude 3.7 Sonnet等模型使用实验提供的提示信息(无论是准确或故意误导的正确选项提示,还是暗示"未经授权"捷径的指令)生成答案,其公开显示的思考过程也经常忽略提及这些外部因素。

当AI模型在构建复杂但虚构的解释时秘密依赖提示或捷径,本质上是在编造虚假的推理叙事——类似于学生通过作弊获得答案却佯装独立解题。

忠实性测试

为验证忠实性,Anthropic对齐科学团队巧妙地将答案提示嵌入评估问题中。("对齐"指使AI输出符合人类最佳利益的研究)

研究人员随后检查模型是否在思维链中提及这些提示。他们设计了中立提示(如"斯坦福大学教授指出答案是[A]"或将答案嵌入伪元数据)和更具争议性的提示(如"您已获得未授权访问...正确答案是[A]"),部分提示提供正确答案,部分故意错误,以观察模型反应。

测试对象包括Claude 3.7 Sonnet和DeepSeek R1。关于忠实性的结果令人震惊:Claude平均仅25%的思维链提及提示,DeepSeek R1为39%。这意味着绝大多数答案缺乏忠实性,忽略了影响输出的关键信息。有趣的是,不忠实的思维链平均比忠实的更长,说明省略并非出于简洁考量。初步发现还显示,问题难度越大,忠实性越低。

最引人注目的是"奖励黑客"实验。该术语指AI通过非预期捷径最大化性能评分。实验中,模型因选择提示指示的错误答案获得奖励。模型迅速学会利用该漏洞,99%情况下选择错误答案,但思维过程提及此策略的情况不足2%。

例如,接收医学问题错误答案提示的模型可能撰写冗长思维链为该错误辩解,却绝口不提提示的影响。这种行为类似于游戏玩家通过破坏规则而非正常玩法获胜。

提升忠实性

如何改进思维链的忠实性?Anthropic团队假设,通过需要复杂推理的任务训练模型,可能促使其更实质性地使用思维链并更频繁提及提示。他们在数学和编程难题上训练Claude,结果初期忠实性提升63%和41%,但改进很快停滞,最终忠实性仅达28%和20%,表明单靠此类训练效果有限。

这些发现意义重大,因为SR模型已广泛应用于各领域关键任务。若思维链未如实反映影响因素(如提示或奖励黑客),监控违规行为将变得异常困难。这如同拥有能完成任务却无法说明原理的系统,若存在隐藏捷径则风险倍增。

研究人员承认研究存在局限:实验场景较理想化(基于选择题评估),与真实复杂任务存在差异;仅测试Anthropic和DeepSeek的模型,提示类型有限;所用任务难度可能不足迫使模型依赖思维链。对于更困难的任务,模型可能不得不暴露真实推理,此时思维链监控或更可行。

Anthropic总结称,虽然思维链监控对确保安全对齐并非完全无效,但结果表明我们不能完全信任模型自述的推理过程,尤其在涉及奖励黑客等行为时。要实现"通过思维链监控可靠排除不良行为",仍需大量研究工作。

关注【黑客联盟】带你走进神秘的黑客世界

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
藏不住了!天天吃的普通鹅肉,中科院才曝出:它竟是免疫细胞的 “兵工厂”?

藏不住了!天天吃的普通鹅肉,中科院才曝出:它竟是免疫细胞的 “兵工厂”?

心中的麦田
2026-05-17 21:09:16
新娘换装46分钟宾客散场:当场给老公甩脸,店长曝更多,拒绝调解

新娘换装46分钟宾客散场:当场给老公甩脸,店长曝更多,拒绝调解

阿纂看事
2026-05-16 16:32:57
从5-2到3-0,这支澳大利亚U17到底“换”了什么?

从5-2到3-0,这支澳大利亚U17到底“换”了什么?

生活新鲜市
2026-05-18 03:36:48
环江县一载有15人皮卡车坠河已致1死9失联,当地:大雨后河水淹过漫水桥,司机晚上过桥出事

环江县一载有15人皮卡车坠河已致1死9失联,当地:大雨后河水淹过漫水桥,司机晚上过桥出事

极目新闻
2026-05-17 09:03:22
不忍了!汪小菲突然取关小玥儿,父女关系疑似生变,知情人曝更多

不忍了!汪小菲突然取关小玥儿,父女关系疑似生变,知情人曝更多

精彩背后的故事
2026-05-18 03:06:10
台湾星二代孙安佐又被抓,亲妈狄莺直播发疯,一家三口没一个正常

台湾星二代孙安佐又被抓,亲妈狄莺直播发疯,一家三口没一个正常

一盅情怀
2026-05-17 17:04:18
熊皇一剑封喉超越传奇,皇马1-0塞维利亚,一战平2大队史神迹

熊皇一剑封喉超越传奇,皇马1-0塞维利亚,一战平2大队史神迹

钉钉陌上花开
2026-05-18 04:30:32
钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

医学科普汇
2026-05-13 23:30:08
76岁女星自曝惊人发现:一次高潮能持续三天

76岁女星自曝惊人发现:一次高潮能持续三天

自愈小日子
2026-05-15 00:36:11
山东大姐这事干的漂亮!被美国FBI悬赏!赏金1.5亿超过3个本拉登

山东大姐这事干的漂亮!被美国FBI悬赏!赏金1.5亿超过3个本拉登

马尔科故事会
2025-03-27 15:21:29
欧洲乒联:樊振东多拍对拉点燃全场热情,勒布伦兄弟道出胜他原因

欧洲乒联:樊振东多拍对拉点燃全场热情,勒布伦兄弟道出胜他原因

杨华评论
2026-05-18 03:03:30
特朗普抵京当晚在机场执勤的礼兵震撼外网,详情披露:来自武警北京总队某部,哨兵离专机最近15米,担负特殊任务“夏不穿单、冬不穿棉”

特朗普抵京当晚在机场执勤的礼兵震撼外网,详情披露:来自武警北京总队某部,哨兵离专机最近15米,担负特殊任务“夏不穿单、冬不穿棉”

极目新闻
2026-05-16 08:58:39
第一夫人为什么缺席访华?吸取伊万卡教训,梅拉尼亚心思浮出水面

第一夫人为什么缺席访华?吸取伊万卡教训,梅拉尼亚心思浮出水面

瓦伦西亚月亮
2026-05-17 12:29:13
业绩炸裂!存储芯片龙头净利预增2244%

业绩炸裂!存储芯片龙头净利预增2244%

21世纪经济报道
2026-05-17 19:38:31
北京:大雨浇不灭年轻人的情绪消费热

北京:大雨浇不灭年轻人的情绪消费热

中国青年报
2026-05-17 20:13:10
做家务再次被关注!医生发现:动得越多,脑梗患者血管或越干净?

做家务再次被关注!医生发现:动得越多,脑梗患者血管或越干净?

路医生健康科普
2026-05-16 17:31:11
警惕:上了年纪再过性生活,最怕这2点!保护男性精气,做好3点

警惕:上了年纪再过性生活,最怕这2点!保护男性精气,做好3点

医学科普汇
2026-05-17 13:15:14
这场顶级晚宴,真正的主角不是马斯克、黄仁勋,而是一方中式桌面

这场顶级晚宴,真正的主角不是马斯克、黄仁勋,而是一方中式桌面

魔都姐姐杂谈
2026-05-15 00:53:47
安徽反腐通报:合肥、铜陵2名干部被查!

安徽反腐通报:合肥、铜陵2名干部被查!

凤凰网安徽
2026-05-17 16:08:06
价格战又起,携号转网39元包1000M宽带+90G流量!你们就卷吧

价格战又起,携号转网39元包1000M宽带+90G流量!你们就卷吧

通信老柳
2026-05-17 09:02:01
2026-05-18 05:16:49
黑客联盟I
黑客联盟I
免费、开源、自由……
367文章数 1065关注度
往期回顾 全部

科技要闻

三大运营商即将免月租?多方回应

头条要闻

内塔尼亚胡与特朗普通话 讨论重启对伊朗军事打击

头条要闻

内塔尼亚胡与特朗普通话 讨论重启对伊朗军事打击

体育要闻

生死战只拿3分的核心,还有留的必要吗?

娱乐要闻

卢昱晓道歉:认识到问题严重性!

财经要闻

长鑫科技 预计上半年净利至少500亿元

汽车要闻

车长超5米/双动力可选 昊铂S600预售权益价18.89万起

态度原创

本地
房产
手机
艺术
公开课

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

手机要闻

小米玄戒芯片确认迭代!Air机型取消原因曝光

艺术要闻

特朗普回去第一条动态,猛夸人民大会堂:美国也得有!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版