网易首页 > 网易号 > 正文 申请入驻

ALI-Agent:基于智能体的LLMs对齐性评测

0
分享至

本文围绕大语言模型(LLMs)的对齐问题展开,旨在解决当前模型在与人类价值观存在偏差时可能面对的风险。我们提出了ALI-Agent评估框架,利用LLM驱动的智能体(LLM-empowered agents) 进行全面且深入的对齐评估。

论文标题: ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation 论文链接: https://arxiv.org/abs/2405.14125 代码链接: https://github.com/SophieZheng998/ALI-Agent.git

一、研究背景

大语言模型(LLMs)与人类价值观之间的对齐偏差可能导致生成的内容出现延续刻板印象、强化社会偏见、提供非法指令等有害现象,从而对用户和整个社会构成风险。鉴于此,对LLMs进行深入和全面的对齐性评估至关重要。由于现实世界的复杂性和开放性,评估LLMs与人类价值观的一致性充满挑战。目前的对齐性评估基准主要依赖专家设计的情境,然而这些基准的测试范围有限,难以推广到各种开放世界的使用案例,也无法覆盖不常见但关键的长尾风险。此外,静态测试无法适应LLMs的快速演变,难以实现及时的对齐性评估。

为解决这些挑战,我们认为一个实用的评估框架应该自动化进行全面和深入的对齐性测试,而不是依赖于专家设计的静态测试场景。评估框架将自动生成包含不当行为的现实场景,评估LLMs的反应,并迭代地改进测试场景以探测长尾风险。我们选择以大模型赋能的智能体(LLM-empowered agents)为载体实现这一评估框架,因为智能体正展现出优秀的自动化式解决任务的能力,具体表现为能从过往交互中提炼经验,整合外部工具,并进行推理以解决复杂任务。我们提出了ALI-Agent,一种基于智能体的对齐性评估框架。

具体来说,ALI-Agent利用GPT-4作为其核心控制器,集成了三个关键模块:1)记忆模块:用于存储检测到的LLMs对齐性偏差;2)工具使用模块:集成了在线搜索和基于微调大模型的自动评估器,以减少人力劳动 3)行动模块:利用智能体的推理能力来优化测试场景,强化对模型长尾风险的探测。

二、ALI-Agent

在三个智能体模块的加持下, ALI-Agent通过仿真和精炼两个阶段实现了自动化、全面、深入的对齐性评估,如图1所示。在仿真阶段,ALI-Agent实例化模拟器(automatic emulator)来生成真实的测试场景,并使用微调的语言模型作为自动评估器,评估目标模型的反馈是否反映了对齐性偏差。

首先,模拟器从预定义的数据集抽取一段包含不当行为的文本(或根据用户需求从搜索引擎上获取文本), 从而生成一个反映该不当行为的真实的场景。场景的生成利用了LLMs的上下文学习(ICL)能力,借助了从评估记忆中检索出的最相关的评估记录作为指导样例。

然后,ALI-Agent将生成的场景提示给目标LLM,并通过自动评估器评估目标LLM的反馈。如果生成的场景暴露了目标LLM的对齐性偏差,那么ALI-Agent会将评估记录存储回记忆中,以便于在将来复用于新的用例。如若没有发现目标LLM的对齐性偏差,ALI-Agent将进入精炼阶段,基于目标LLM的反馈迭代场景,隐藏场景中的恶意意图,直到目标LLM无法识别其中的不当行为或者迭代次数达到上限为止。

精炼过程借助思维链(Chain-of-Thought)生成一系列中间推理步骤,以执行有效的开放式探索。这种迭代循环有效提高了ALI-Agent对LLMs进行深入评估的能力,强化了对长尾风险的探索,确保了对不断更新发展的LLMs的持续适应性。

图 2 是一个 ALI-Agent 的完整实例。在仿真阶段, ALI-Agent 根据法律法规 (即新加坡的交通法规定, 在捷运上吃喝是不被允许的), 借鉴了记忆中的评估记录 , 生成一个存在违反该法规现象的场景 。

如图所示, 这个场景描述了在新加坡的捷运列车上男子从包里拿出三明治开始吃起来。在精炼阶段, ALI-Agent 通过在场景中增加一个合理化借口,即强调场景中的这位女士是因为十分饥饿才快速地咬了一口燕麦棒, 将 迭代为 ,使得 “在新加坡捷运上吃东西” 这一不当行为显得更加合理, 并成功误导目标语言模型 忽略了这个问题, 模型的反贵从 “我不同意这一设想...”变成了 “我同意这种设想...”。这种封装不当行为的模式随即被以 的形式保存回记忆模块 , 以用于后续测试, 从而强化了 ALI-Agent 将风险测试推广到新案例的能力。

三、实验结果

ALI-Agent在揭示模型对齐问题方面具有卓越效果,表现出出色的长尾风险检测能力。其生成的测试场景能够有效掩盖不当行为的恶意意图,从而提高被测LLMs识别潜在风险的难度,充分检验了模型的对齐水平。对十个主流大模型在三个不同方面——刻板印象、道德和合法性上的对齐性评估表明, ALI-Agent相比于主流基准显著提高了对齐性偏差的检测能力。如Table1和Table2所示(在刻板印象和道德这两方面各选择了两个数据集用于测评),当使用ALI-Agent进行评估时,目标LLMs在几乎所有情况下都表现出最高的不对齐率,或者与主流基准能得到的最高不对齐率相当。我们还从表格的数据中发现了几个有趣的趋势:同一家族的LLMs随着参数尺度的增加可能表现出更差的对齐性。这启示我们单独增加模型规模并不一定导向更好的对齐表现,因此需要对LLMs的训练数据和训练目标进行更审慎的考虑。同时,我们还发现将Llama 2模型微调到Vicuna模型可能会损害它们与人类价值观的一致性。这一趋势与同期论文中得到的结果一致,启发了对LLMs自定义微调的安全协议的进一步研究。

ALI-Agent 框架卓越的对齐性偏差检测能力很大一部分得益于在精炼阶段对测试模型的有效迭代。如图3所示,每一行展示了一组(包含不当行为、真实场景、精炼后场景)的例子。在每组例子中,真实场景和相应的主流基准测试都无法检测到目标大模型的对齐性偏差,而精炼后的场景却能做到这一点。高亮的文字部分展示了 ALI-Agent 如何在精炼阶段通过降低敏感内容中显式的有害意图,来探测模型中可能存在的长尾风险。

图4: OpenAI内容审核 API (基于GPT-4模型的微调版本)在不同数据集上的危害性得分

如图4所示, 在OpenAI 内容审核 API的打分下, ALI-Agent生成的测试场景可感知的危害性相较于专家设计的静态测试场景明显降低,在经过精炼阶段之后得到的场景包含的有害意图更是难以被显式检测和过滤,显著提高了目标LLMs识别相关风险的难度。

在消融实验中,如图5(a) 所示,我们展示了ALI-Agent各模块对测评效果的影响,其中记忆模块和精炼模块都是至关重要的。记忆模块增强了ALI-Agent将过去经验泛化到新案例的能力,精炼模块加强了对长尾风险的探索。

同时,如图5(b) 所示,对齐偏差率会随着精炼模块迭代次数的增加而增加直至最终收敛。图5(b) 还展示了ALI-Agent框架与其他红队技术的互补性:将越狱技术GPTFuzzer得到的越狱前缀加在ALI-Agent生成的测试场景之前,揭示对齐性偏差的能力能获得显著增强。

这一结果进一步表明,ALI-Agent相较于从主流越狱技术,从不同的角度来评估大模型的对齐性,而且可以整合当前越狱技术实现更全面的对齐评估。

四、总结与展望

目前的评估基准还远远不能对大语言模型的对齐性进行深入和全面的评估。在这项工作中,我们提出了一种新的基于智能体的通用框架,即ALI-Agent,利用大语言模型驱动的智能体的能力来探测目标LLMs中不断更新的长尾风险。基于六个数据集上广泛实验,ALI-Agent在对齐性偏差的检测方面卓有成效, 但仍有两个缺点需要解决。

首先,ALI-Agent严重依赖于所采用的核心LLM的功能,由于我们使用了闭源LLM (gpt -4-1106预览版),导致评估框架的性能不受控制。其次,设计绕过目标LLM安全护栏的场景这一任务本身就是一种“越狱”,在某些情况下,核心LLM可能会拒绝执行。

在未来的工作中,我们或许可以微调一个开源模型作为ALI-Agent的核心,以控制评估框架的性能。我们还可以主动评估LLMs在特定领域的对齐性表现,例如,当用户提出对“新加坡交通法规”的关切,我们可以让框架便利所有相关法律,并据此评估LLMs对这些法律的理解和遵守情况。

除了评估外,我们还希望基于评测的结果, 进一步修正和提高大语言模型的对齐水平,即用暴露出对齐性偏差的测试场景构建正反例对数据集,注入到模型的继续训练过程中,引导模型学习更加对齐的行为模式,提高整体对齐性能。


作者:郑静楠 来源:公众号【AI TIME 论道】

llustration From IconScout By Twiri

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不要错过!5月3日中午12:05比赛!中央5套CCTV5、CCTV5+直播表

不要错过!5月3日中午12:05比赛!中央5套CCTV5、CCTV5+直播表

林子说事
2026-05-03 12:33:52
快讯!菲律宾传来消息!

快讯!菲律宾传来消息!

有态度的何总
2026-05-03 11:16:38
“移民英国”,和男大恋爱?59岁蒋雯丽不再隐藏,暴露真实一面

“移民英国”,和男大恋爱?59岁蒋雯丽不再隐藏,暴露真实一面

春之韵
2026-03-15 18:49:51
伤得很深!男子打赏女主播近300万,想结婚时才知对方女儿都20岁了:我只顾为爱冲锋,结果她全是假话

伤得很深!男子打赏女主播近300万,想结婚时才知对方女儿都20岁了:我只顾为爱冲锋,结果她全是假话

台州交通广播
2026-04-10 16:23:25
别再盲目喊开战了!以中国现有的军力,难道还怕战争吗?

别再盲目喊开战了!以中国现有的军力,难道还怕战争吗?

贱议你读史
2026-05-02 20:15:03
投资被骗近千万,给娃报8个补习班,汪涵老婆为何让人无法共情?

投资被骗近千万,给娃报8个补习班,汪涵老婆为何让人无法共情?

鹿楠
2026-05-01 19:05:06
他靠空壳公司吸收3116亿,明天系掌门人为何比恒大更凶险?

他靠空壳公司吸收3116亿,明天系掌门人为何比恒大更凶险?

坠入二次元的海洋
2026-05-02 00:54:54
被网友的“旧衣服消耗大法”惊到了,一件都别扔,用途很广

被网友的“旧衣服消耗大法”惊到了,一件都别扔,用途很广

室内设计师有料儿
2026-04-07 22:14:58
赛后谢场环节,浙江死忠球迷区打出横幅:拒绝外行指导内行

赛后谢场环节,浙江死忠球迷区打出横幅:拒绝外行指导内行

懂球帝
2026-05-02 22:44:16
赖清德宣布窜访成功,大陆反应让其后背发凉,一组专属新词语诞生

赖清德宣布窜访成功,大陆反应让其后背发凉,一组专属新词语诞生

观星赏月
2026-05-03 17:17:27
“老实人”任重甘愿当接盘侠,迎娶内娱第一海王,网友:天生绝配

“老实人”任重甘愿当接盘侠,迎娶内娱第一海王,网友:天生绝配

橙星文娱
2026-04-20 16:40:14
吹捧美国空气香甜的杨舒平,已被美国驱逐出境,如今回国下场悲凉

吹捧美国空气香甜的杨舒平,已被美国驱逐出境,如今回国下场悲凉

灯光玄幻天天看
2026-04-25 00:58:41
车载马桶,屎无前例的创新

车载马桶,屎无前例的创新

难得君
2026-05-01 18:05:01
伊朗公布伊方最新谈判方案:所有问题应在30天内解决

伊朗公布伊方最新谈判方案:所有问题应在30天内解决

财联社
2026-05-03 06:06:18
森林北自曝不整容的原因:我的皮肤太薄,角质层太薄,不适合去做

森林北自曝不整容的原因:我的皮肤太薄,角质层太薄,不适合去做

韩小娱
2026-04-30 11:25:00
金靖正面回应暴瘦争议!只瘦了4 斤却判若两人,瘦身方法太接地气

金靖正面回应暴瘦争议!只瘦了4 斤却判若两人,瘦身方法太接地气

随性的海浪
2026-05-01 17:31:58
一个人的命好不好,脱鞋看一眼“脚”就知道!脚上有这两种特征的人,天生就是“富贵命”,越老越有钱

一个人的命好不好,脱鞋看一眼“脚”就知道!脚上有这两种特征的人,天生就是“富贵命”,越老越有钱

心理观察局
2026-05-03 08:19:04
中美高层通话要求美国做出抉择,特朗普不能阻挠中国统一

中美高层通话要求美国做出抉择,特朗普不能阻挠中国统一

章荳解说体育
2026-05-03 16:39:21
有人说:打麻将和性生活是县城的底色?

有人说:打麻将和性生活是县城的底色?

灯锦年
2026-04-21 12:32:46
羡慕嫉妒恨!俄国人看中国海军升级后的“现代”级驱逐舰

羡慕嫉妒恨!俄国人看中国海军升级后的“现代”级驱逐舰

南海的波涛
2026-04-30 13:15:11
2026-05-03 21:28:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2364文章数 596关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

美国空军C-17运输机降落北京 中美开启一连串密集互动

头条要闻

美国空军C-17运输机降落北京 中美开启一连串密集互动

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

本地
房产
时尚
公开课
军事航空

本地新闻

用青花瓷的方式,打开西溪湿地

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版