网易首页 > 网易号 > 正文 申请入驻

合成数据的突破: 从降低迎合性偏差到认知自主性的重构

0
分享至

马来西亚思特雅大学博士生王立博,近两年来主要研究大语言模型。起初,王立博做这类研究也是被大语言模型给逼的,因为日常总得提防其“献媚(Sycophancy)”,这是由基于人类反馈的强化学习调优策略导致的固有缺陷。

因此,他致力于设计能够自主学习、思考和推理的人工智能,而不是人工宠物。

引入强化学习的训练奖励模型进行微调,尽管可以优化用户体验,但是引入偏见是不可避免的,因为“奖励”的依据是优先考虑用户反馈的满意度而未必是考虑客观事实。这种偏见通常来源于互联网数据,而大语言模型的训练数据集主要依赖于互联网信息。

基于此,王立博尝试通过合成数据干预来优化仅解码器(decoder-only)transformer 架构,弥补其对输入序列缺乏深度分析的不足。

在生成过程中他尝试设计加入额外阻碍,促使模型自主判断并拒绝不合理的输入。这一构想原理上能有效避免过度依赖用户的反馈,因为合成数据干预会更侧重于模型内在推理能力的培养,而非寻求 RAG 外部知识库。


(来源:OpenAI)

此外,实现自主思考的重要标志之一就是判断力,为此王立博构想加入反面示例和对抗性输入来提升模型的抗献媚性。

实验结果显示,经过合成数据干预后的 GPT4o 在量化献媚指标上显著下降。如果这一成果有机会走出实验室,它可能为 decoder-only 架构的模型会带来更客观的决策支持,并减少偏见。

同时,该成果在机器人、自动驾驶和医疗等领域的应用,有助于提升自动化科学研究的效率。

更令王立博兴奋的是,此次实验是通过提示词工程(prompt engineering)实现。这意味着未来合成数据干预可以不再依赖传统的代码编写,仅通过编写自然语言,推动“AI 工程师”从专业技术人员走向普罗大众,为更多探索者扩大平等契机。

未来,开发、优化、数据处理、特征挖掘以及对前沿技术知识的了解,可能无需再依赖少数掌握编程和数学知识的专家,而只需设计逻辑清晰的提示词。

日前,相关论文《减轻仅解码器变换器架构中的献媚:合成数据干预》(Mitigating Sycophancy in Decoder-Only Transformer Architectures: Synthetic Data Intervention)为题发在 arXiv[1]。


图 | 相关论文(来源:arXiv)

随着大语言模型推理思考和生成代码等能力的增强, 提示词工程使人们有机会更平等地与各领域科学家共享信息资源。因此,未来王立博会致力于推动未来工程的提示词化,简单直接平等。

比如,最近王立博通过设计 prompt 进行黑盒测试 (Black-Box Testing) 实验,尝试模拟攻击大语言模型的护栏。他发现即便如 GPT4o 和 Grok-2 Beta,其护栏在识别多步骤越狱倾向的提示词时仍存在较大困难。

其还通过模拟场景设计了 7 到 10 步的提示词成功顺利使得所有模型模拟生成言语攻击的内容。这意味着当前的大语言模型的护栏仍需完善。

在稀疏注意力方面,王立博曾设计通过稀疏注意力机制降低大语言模型中思维链推理的成本。

同样的,王立博通过提示词基于 GPTs 训练的实验模型与 o1 preview 进行对比。实验结果显示,在牺牲可接受范围内的准确率的条件下,稀疏注意力机制与具备思维链的编码器-解码器(encoder-decoder)transformer 架构结合,在推理时间和推理步骤方面都显著降低。

王立博也曾设计过将自动语音识别和大语言模型引入智能眼镜的架构,这些构想如今正在被工业界所实践。即便合成数据干预或稀疏注意力机制被广泛应用,由于其本身的限制性使交互仍主要集中在视觉和听觉。而随着当前深度强化学习技术不断优化更新,人形机器人将迎来质的高速发展。在促进自主学习能力的同时,王立博设计了人形机器人多场景推理 (Multi-Scenario Reasoning) 以及模块化机器人实现自主变形的认知模块化控制 (Cognitive Modular Control) 等架构。受到人脑认知架构的启发,他致力于为自适应机器人引入认知的自主化技术,促进机器人的多形态或多用途的方向转型。因此,探索机器人在工业领域具备感知、思考、推理、规划、记忆和决策等能力的认知自主性成为王立博的下一个研究目标。

参考资料:

1.https://doi.org/10.48550/arXiv.2411.10156

2.https://doi.org/10.48550/arXiv.2411.09111

3.https://doi.org/10.48550/arXiv.2411.16730

4.https://doi.org/10.48550/arXiv.2412.20429

5.https://openreview.net/pdf?id=lJr0M8vpZO

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
明日入三九,记得:1不洗,2不做,吃3样,温暖过冬迎新年

明日入三九,记得:1不洗,2不做,吃3样,温暖过冬迎新年

神牛
2025-01-07 13:48:36
网传12岁女孩深夜不回家,家长找到后拿灭火器喷同行大叔

网传12岁女孩深夜不回家,家长找到后拿灭火器喷同行大叔

映射生活的身影
2025-01-07 13:52:25
霍华德:想防住约基奇必须消耗他 不能让他在防守端偷懒

霍华德:想防住约基奇必须消耗他 不能让他在防守端偷懒

直播吧
2025-01-07 16:14:36
媒体人:但凡广州队有一丝可能救的活,广州豹这支球队都不会成立

媒体人:但凡广州队有一丝可能救的活,广州豹这支球队都不会成立

直播吧
2025-01-06 18:30:09
女子出轨被外甥意外发现,外甥:保密可以,但你要答应我一个条件

女子出轨被外甥意外发现,外甥:保密可以,但你要答应我一个条件

林林故事揭秘
2024-12-12 10:55:59
53岁汪峰真有口福,小20岁女友不穿围裙秀厨艺,颜值都能看饱了!

53岁汪峰真有口福,小20岁女友不穿围裙秀厨艺,颜值都能看饱了!

天行舰
2024-12-28 00:00:08
LV的品质却只卖270元,胖东来帆布袋遭网友购买支持

LV的品质却只卖270元,胖东来帆布袋遭网友购买支持

映射生活的身影
2025-01-06 23:19:40
99%的可能,本赛季CBA四强非这四支球队莫属!

99%的可能,本赛季CBA四强非这四支球队莫属!

田先生篮球
2025-01-07 06:18:28
领先19分被逆转!文班:我们今晚没有尊重篮球之神 我们不配赢球

领先19分被逆转!文班:我们今晚没有尊重篮球之神 我们不配赢球

直播吧
2025-01-07 12:41:10
中国拉紧南海防线!“巨无霸”直抵菲近海,马科斯紧急求助华盛顿

中国拉紧南海防线!“巨无霸”直抵菲近海,马科斯紧急求助华盛顿

文雅笔墨
2025-01-07 15:03:38
刚刚!香港放宽投资移民门槛!

刚刚!香港放宽投资移民门槛!

港你知
2025-01-07 13:06:28
再不裁掉将转全额保障?卡莱尔:我们需要詹姆斯-约翰逊 他会留下

再不裁掉将转全额保障?卡莱尔:我们需要詹姆斯-约翰逊 他会留下

直播吧
2025-01-07 16:26:15
公司通报批评并约谈准时下班员工,邮件里称:下班后4分钟内打卡员工有所增加

公司通报批评并约谈准时下班员工,邮件里称:下班后4分钟内打卡员工有所增加

小萝卜丝
2025-01-04 14:23:53
小米销售演示弹射起步撞飞电动自行车?宁波交警已通报

小米销售演示弹射起步撞飞电动自行车?宁波交警已通报

金融界
2025-01-07 13:55:52
赵丽颖林更新,如果这都不算爱,眼神细节太藏不住了

赵丽颖林更新,如果这都不算爱,眼神细节太藏不住了

祝晓塬
2025-01-07 09:01:47
演员星星泰缅失联新动态:已被关进妙瓦底园区,总领事馆展开救援

演员星星泰缅失联新动态:已被关进妙瓦底园区,总领事馆展开救援

素素娱乐
2025-01-06 12:14:57
原来每个孩子都有属于自己的“阿贝贝”,网友:这到底怎么养成的

原来每个孩子都有属于自己的“阿贝贝”,网友:这到底怎么养成的

有趣的火烈鸟
2025-01-06 14:57:20
大额存单市场热度上升 三年期利率最高者可达2.95%

大额存单市场热度上升 三年期利率最高者可达2.95%

中国经济网
2025-01-07 08:14:05
戒不掉!浙江一姑娘说自己每晚睡前都要用!有人担心:太依赖会不会对身体不好……

戒不掉!浙江一姑娘说自己每晚睡前都要用!有人担心:太依赖会不会对身体不好……

FM93浙江交通之声
2025-01-06 14:30:58
俄媒:冻结俄罗斯几千亿资产的西方,如今连中国的船都不敢登上去

俄媒:冻结俄罗斯几千亿资产的西方,如今连中国的船都不敢登上去

小lu侃侃而谈
2025-01-06 20:28:05
2025-01-07 16:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
14680文章数 513152关注度
往期回顾 全部

科技要闻

黄仁勋化身"美国队长" 发布RTX 50系列显卡

头条要闻

27岁警察抓捕嫌犯时受伤流血 5名嫌犯中有3人患艾滋病

头条要闻

27岁警察抓捕嫌犯时受伤流血 5名嫌犯中有3人患艾滋病

体育要闻

广州队解散,一场注定徒劳的自救

娱乐要闻

泰媒曝在缅甸找到中国演员王星,7号移交泰国

财经要闻

重要通知!各地区不得违法开展异地执法

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

艺术
房产
时尚
家居
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

房产要闻

海口楼市,突然爆发式成交!

范晓萱从春晚爆红到被骂 “堕落”,再到重生获奖,成就别样人生

家居要闻

简约大气 居心之所

军事要闻

朝鲜成功试射新型高超音速中远程弹道导弹

无障碍浏览 进入关怀版