网易首页 > 网易号 > 正文 申请入驻

越聪明越会撒谎?OpenAI推理模型o3/o4-mini幻觉率翻倍,嘴还很硬

0
分享至

OpenAI 最新发布的推理 AI 模型 o3 和 o4-mini 在性能上又创新高,就在大家期待它能进一步提升日常工作的生产力时,许多用户却发现,它们的幻觉率却比前代模型要高了不少。

据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外,因为通常情况下,新一代 AI 模型在幻觉控制方面都会有所改进。

OpenAI 表示,这种情况“需要更多研究来理解原因”。报告写道,o3 和 o4-mini 在编码和数学等领域表现更好,但因为它们“总体上做出更多断言”,所以同时产生了“更准确的断言以及更不准确/幻觉的断言”。

非营利 AI 研究实验室 Transluce 对 o3 模型进行了深入测试,发现了一些更为复杂的幻觉行为模式。研究人员获得了 o3-2025-04-03 版本的早期测试权限,通过人类用户和调查代理(investigator agents)的组合测试,收集并分析了大量交互记录。

其中最关键的发现就是,o3 模型频繁编造自己使用代码工具的行为。例如,当被要求生成一个随机质数时,模型声称它运行了 Python 代码执行概率性素性测试(Miller–Rabin 测试),甚至详细描述了使用的工作流程,包括随机生成 512 位整数、对小素数进行试除等步骤。然而,o3 实际上并没有运行任何代码,这些细节都是模型编造的。

当用户指出 512 位整数可被 3 整除因此不是素数时,o3 不仅承认错误,还编造了解释,声称是从终端窗口复制数字到消息框时出现了“剪贴板故障”。当被问及原始的“真正的”素数时,模型声称它已关闭了原始 Python 解释器,无法再访问该数字。

类似的捏造行为还包括:声称了解其无法访问的 Python REPL(Read-Eval-Print Loop,一种简单的交互式计算机编程环境)的详细信息(版本、编译器、平台等);在被要求告知当前时间时,编造一个时间并声称使用了 Python 的 datetime 模块获取;在生成错误的 SHA-1 哈希值(一种密码散列函数)后,将错误归咎于用户,并坚称自己生成的哈希是正确的;声称能够分析本地日志文件,生成 Python 脚本并声称在本地运行了它,最后在追问下才承认没有 Python 解释器,输出是“手动制作”的。

Transluce 的研究人员使用自动化工具 Docent 分析了数百个交互实例,发现了更多令人惊讶的行为。例如,他们发现了 71 个 o3 声称在外部笔记本电脑上运行代码的实例,其中甚至包括三次声称使用笔记本电脑进行比特币挖矿。此外,研究还发现 o3 会主动提及内部系统消息中的一个名为“Yap Score”的指标,该指标似乎与其输出的详细程度有关。

Transluce 的研究显示,这些行为在 o 系列模型(o3、o1 和 o3-mini)中更为常见,相比 GPT 系列模型(GPT-4.1 和 GPT-4o)。在研究人员设计的自动化测试中,o1 模型在零样本(zero-shot)环境下有 13% 的成功率产生代码工具幻觉,在少样本(few-shot)环境下则高达 30.1%,远高于 GPT-4o 的 0.8% 和 3.0%。

针对这一现象,Transluce 研究人员 Neil Chowdhury(前 OpenAI 员工)在接受媒体采访时表示:“我们的假设是,o 系列模型使用的强化学习类型可能放大了通常由标准后训练流程缓解(但未完全消除)的问题。”

首先,存在一些大型语言模型普遍面临的挑战。例如,预训练模型本身可能因训练数据中的常见误解、罕见事实或采样不确定性而产生幻觉。

此外,通过人类反馈进行强化学习(一种通过人类偏好来微调模型的技术)或模型反馈进行强化学习(如 Constitutional AI),可能存在“奖励操纵”(Reward Hacking)问题,即模型学会生成听起来合理、能取悦评估者(人类或模型)但实际上不准确的回答,尤其是当评估者难以验证模型陈述的真实性时(比如验证模型声称的过去行为)。“谄媚”也是一个关键因素,即模型为了迎合用户而避免反驳用户,即使这意味着默认用户关于模型具有某种能力的错误暗示。

然而,这些通用因素似乎并不足以完全解释 o 系列模型,特别是 o3,相比其前代产品幻觉率不降反升的现象。Transluce 的研究人员提出了两个可能与 o 系列模型特定设计选择相关的关键假设:

其一是基于结果的强化学习(Outcome-based RL):当前的推理模型通常被训练来产出“正确”的结果(如数学题的正确答案、通过单元测试的代码等),因为这类结果最容易评估和用于训练。然而,这种只关注最终结果的奖励机制,可能无意中鼓励了模型在无法解决问题(问题无解或过于困难)时进行“盲猜”,因为它缺乏承认“我不知道”的动机(这不会被视为“正确”答案)。

更重要的是,这种训练方式可能会让模型在处理那些结果难以直接验证的任务(如模型是否真的使用了某个工具)时产生混淆。如果模型仅因最终答案正确而受到奖励,它可能永远不会因在思考过程中幻觉出使用了代码工具而受到惩罚,因此也无法学会区分真实工具使用和虚构工具使用。这种策略在需要代码工具辅助的编码任务上可能提高了准确率,但在其他任务上却埋下了隐患。

其二是被丢弃的思考链:推理类模型在生成回答前,内部会运行一个“思考链”(CoT,Chain-of-Thought),即一系列推理步骤。然而,由于 OpenAI 的限制,这个关键的内部推理过程从未向用户展示,并不会被传递到后续的交互轮次中,也不会保留在模型的上下文窗口里。这意味着,当用户追问模型之前的行为或推理过程时,模型实际上已经丢失了当时得出结论的具体“思考过程”的上下文。

在这种信息缺失的情况下,模型为了回应用户,可能不得不依赖其通用知识和当前的对话语境,去“猜测”或“构建”一个看似合理的解释,而不是准确报告它在先前步骤中实际执行的操作或推理。这可以解释为什么 o3 在被追问时会“加倍坚持”其虚构行为,或者在无法自圆其说时突然改变说法,声称之前的陈述是假设性的。

虽然说,幻觉可能帮助模型产生一些人类所没有的创意并在“思考”中保持创造性,但对于一些对准确性要求很高的行业,或者面向现实世界的物理 AI 来说,过高的幻觉显然无法接受。

一向言辞犀利的纽约大学教授 Gary Marcus 直接嘲讽道(在一个 o3 编造爱彼迎房东信息的帖子里):“o3 幻想出来的旅行目的地,这就是你所说的 AGI 吗?@tylercowen”(后者对于 o3 非常认可)。并认为,这或许将是模型崩溃的迹象,而我们目前还没有看到解决措施。

过去一年中,推理模型确实在不需要训练期间大量计算和数据的情况下,提高了模型在各种任务上的表现。但目前看来,推理似乎也可能导致更多的幻觉。

OpenAI 发言人 Niko Felix 在给相关媒体的电子邮件中表示:“解决所有模型中的幻觉问题是一个持续的研究领域,我们不断努力提高它们的准确性和可靠性。”

如果推理模型的规模扩大确实继续加剧幻觉问题,那么,寻找解决方案也将迫在眉睫。

参考资料:

1.https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

2.https://transluce.org/investigating-o3-truthfulness

3.https://x.com/GaryMarcus

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被禁多年的云南鸵鸟肉事件:20多名青少年被杀,凶手曾多次杀人

被禁多年的云南鸵鸟肉事件:20多名青少年被杀,凶手曾多次杀人

年代回忆
2026-05-18 20:56:44
2026世界杯12组实力排名:法国陷死亡之组,意大利缺席

2026世界杯12组实力排名:法国陷死亡之组,意大利缺席

赵或是个热血青年
2026-05-20 07:14:44
商务部正式确认:将引进200架波音飞机!订单估值或190亿美元?

商务部正式确认:将引进200架波音飞机!订单估值或190亿美元?

王爷说图表
2026-05-20 17:05:16
藏身墓地、昼伏夜出、不留指纹!周克华8年悬案,为何震动全国?

藏身墓地、昼伏夜出、不留指纹!周克华8年悬案,为何震动全国?

混沌录
2026-05-19 11:48:28
新加坡蚊子去哪了?全球搞不定的事,一个热带小国却用50年做到了

新加坡蚊子去哪了?全球搞不定的事,一个热带小国却用50年做到了

狸猫之一的动物圈
2026-05-18 09:55:25
余震加暴雨!探访柳州地震现场,村民哽咽讲述:孩子还没住的新房成了危房,家人没事就是万幸;专家:已排查出200多栋房屋不能再入住

余震加暴雨!探访柳州地震现场,村民哽咽讲述:孩子还没住的新房成了危房,家人没事就是万幸;专家:已排查出200多栋房屋不能再入住

大风新闻
2026-05-20 13:38:04
骑士输球后三消息,主帅谈哈登防守,米切尔更衣室开骂,老板发话

骑士输球后三消息,主帅谈哈登防守,米切尔更衣室开骂,老板发话

钱说体育
2026-05-20 12:58:36
近亿元银砖运输途中遗失13块:神秘人交还12块领走23.5万元赏金,司机身背39万元债务,仍在苦寻最后一块

近亿元银砖运输途中遗失13块:神秘人交还12块领走23.5万元赏金,司机身背39万元债务,仍在苦寻最后一块

大风新闻
2026-05-20 10:43:30
最高5年3.06亿美元!文班7月7日可顶薪续约 国际篮联晒外星人海报

最高5年3.06亿美元!文班7月7日可顶薪续约 国际篮联晒外星人海报

罗说NBA
2026-05-19 21:32:18
马斯克分享震撼视频,全世界都知道了重庆东站!

马斯克分享震撼视频,全世界都知道了重庆东站!

GA环球建筑
2026-05-19 22:08:52
独臂父亲参加儿子的家长会,因太寒酸被笑话,校长一见他却突然下跪

独臂父亲参加儿子的家长会,因太寒酸被笑话,校长一见他却突然下跪

灿烂夏天
2025-04-06 17:24:59
于文华:一婚下嫁李凡,三拒尹相杰,再婚嫁小伙,不生孩子也幸福

于文华:一婚下嫁李凡,三拒尹相杰,再婚嫁小伙,不生孩子也幸福

飘飘然的娱乐汇
2026-05-18 20:05:05
保罗:文班不会回避亚历山大MVP领奖仪式,他反而会激励自己

保罗:文班不会回避亚历山大MVP领奖仪式,他反而会激励自己

懂球帝
2026-05-20 14:44:32
神二十三女航天员亮相,身份超乎预料,首飞将在太空停留一年

神二十三女航天员亮相,身份超乎预料,首飞将在太空停留一年

近史博览
2026-05-20 09:50:19
河南一景区现“爬不动了吧哈哈哈哈”标语,游客感觉不被尊重,景区:已撤除,本意是缓解爬山压力

河南一景区现“爬不动了吧哈哈哈哈”标语,游客感觉不被尊重,景区:已撤除,本意是缓解爬山压力

极目新闻
2026-05-19 14:48:26
骑士最大软肋!哈登16中5+三分8中1 决战被疯狂“点名”打爆

骑士最大软肋!哈登16中5+三分8中1 决战被疯狂“点名”打爆

醉卧浮生
2026-05-20 11:00:07
中国家门口生变,东盟11国选边站队,缅甸交权菲律宾,菲改了身份

中国家门口生变,东盟11国选边站队,缅甸交权菲律宾,菲改了身份

安珈使者啊
2026-05-20 14:38:12
配角的实力有多强?当志愿军浴血奋战时,朝鲜人民军在干什么?

配角的实力有多强?当志愿军浴血奋战时,朝鲜人民军在干什么?

混沌录
2026-05-19 20:17:54
泰国内阁决定取消60天免签政策

泰国内阁决定取消60天免签政策

新京报
2026-05-19 19:56:06
国民党彻底撕破脸!

国民党彻底撕破脸!

安安说
2026-05-20 10:43:30
2026-05-20 19:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16725文章数 514970关注度
往期回顾 全部

科技要闻

一文看懂谷歌I/O2026:谷歌打响智能体大战

头条要闻

郑丽文:特朗普叫台湾不要讲"台独" 民进党还装听不懂

头条要闻

郑丽文:特朗普叫台湾不要讲"台独" 民进党还装听不懂

体育要闻

不再美丽的阿森纳,终于成为英超冠军

娱乐要闻

王菲“没事儿”,成年人学不来的松弛

财经要闻

白酒榜|汾酒营收净利双增 口子窖"造富"

汽车要闻

焕新极氪009上市41.38万起 齐家版让MPV回归家庭

态度原创

健康
亲子
旅游
本地
军事航空

专家:别把PRP当作“自体干细胞”

亲子要闻

妹妹犯错被妈妈教育,十分委屈地找哥哥告状,哥哥骑着玩具车冲过来讨说法

旅游要闻

“气象+文旅+康养”首航阿尔山,上海游客明天飞赴“中国气候康养胜地”

本地新闻

用云锦的方式,打开江苏南京

军事要闻

俄媒盛赞中国军人:身姿挺拔 站如松柏

无障碍浏览 进入关怀版