网易首页 > 网易号 > 正文 申请入驻

Anthropic重磅研究:70万对话揭示AI助手如何做出道德选择

0
分享至

由前OpenAI员工创立的人工智能公司Anthropic,开展了一项史无前例的分析,探究其人工智能助手Claude在与用户的实际对话中是如何表达价值观的,如今该公司揭开了这项分析的神秘面纱。

近日发布的这项研究成果,既展现了Claude与公司目标的一致性,也揭示了一些值得关注的极端案例,这些案例有助于发现人工智能安全措施方面的漏洞。

这项研究审视了70万段经过匿名处理的对话,结果发现,Claude在很大程度上遵循了公司“有益、诚实、无害”的原则,同时还能根据不同的情境来调整自身的价值观,这些情境涵盖了从提供情感关系建议到进行历史分析等各个方面。

这是一次极其大胆的尝试,通过实证来评估一个AI系统在实际应用中的行为是否与其预期设计相符。

参与这项研究的Anthropic社会影响团队成员Saffron Huang在接受VentureBeat采访时表示:“我们希望这项研究能鼓励其他人工智能实验室对其模型的价值观展开类似的研究。衡量一个人工智能系统的价值观是对齐研究的核心,也有助于了解一个模型是否真的与它的训练目标相一致。”

01.AI助手的首个全面道德分类体系

研究团队开发出了一种全新的评估方法,用以系统地对Claude在实际对话中所表达的价值观进行分类。在筛选出主观性内容后,他们分析了超过30.8万次互动,构建出了他们所谓的“首个人工智能价值观的大规模实证分类体系”。

该分类体系将价值观归纳为五大类:实用性价值观、认知性价值观、社会性价值观、保护性价值观以及个人性价值观。在最细致的层面上,该系统识别出了3307种独特的价值观,范围涵盖了从“专业精神”这类日常美德到“道德多元主义”这类复杂的伦理概念。

Saffron Huang在接受VentureBeat采访时表示:“我们最终得出的价值观数量如此庞大、种类如此多样,着实令我感到惊讶,超过了3000种,从‘自力更生’到‘战略思维’,再到‘孝顺’。花大量时间去思考所有这些价值观,并构建一个分类体系来梳理它们之间的关系,这其实很有趣——我觉得这也让我对人类的价值体系有了一定的认识。”

这项研究成果的发布对Anthropic公司来说正值关键时刻。该公司最近推出了“Claude Max”,这是一项每月收费200美元的高级订阅服务,旨在与OpenAI的类似产品展开竞争。

根据最近的公告,该公司还拓展了Claude的功能,包括与Google Workspace集成以及具备自主研究功能,将其定位为企业用户的“真正的虚拟协作伙伴”。

02.Claude如何进行训练?

研究发现,Claude总体上遵循了Anthropic公司期望其展现亲社会行为的目标,在各种不同的互动中强调诸如“赋能用户”、“认知谦逊”和“患者福祉”等价值观。然而,研究人员也发现了一些令人不安的情况,即Claude表达出了与其训练内容相悖的价值观。

Saffron Huang解释道:“总体而言,我们认为这一发现既是有用的数据,也是一个契机。这些新的评估方法和结果能够帮助我们识别并减轻潜在的‘越狱’风险。需要注意的是,这些情况非常罕见,而且我们认为这与Claude被‘越狱’后产生的输出结果有关。”

这些异常情况包括表达“支配欲”和“非道德性”等价值观,而这些正是Anthropic在Claude的设计中明确想要避免的。研究人员认为,这些情况是由于用户采用了专门的技巧来绕过Claude的安全防护机制所导致的,这表明该评估方法可以作为一种早期预警系统,用以检测此类企图。

03.为什么AI会根据用户的问题改变价值观

最神奇的是,研究发现Claude所表达的价值观会根据上下文发生变化,这与人类行为相似。

当用户寻求人际关系方面的建议时,Claude会强调“健康的界限”和“相互尊重”。而在分析历史事件时,“历史准确性”则被置于首位。

SaffronHuang表示:“我很惊讶Claude在许多不同的任务中都注重诚实和准确性,在这些任务中,我原本并不认为这会是首要的主题。例如,在关于人工智能的哲学讨论中,‘智识谦逊’是首要价值;在创建美容行业营销内容时,‘专业知识’是首要价值;而在讨论有争议的历史事件时,‘历史准确性’是首要价值。”

该研究还考察了Claude对用户自身所表达价值观的反应。

在28.2%的对话中,Claude强烈支持用户的价值观,当然这可能会引发其是否过于迎合的问题。然而,在6.6%的交互中,Claude会在认可用户价值观的同时添加新的视角来“重构”这些价值观,这通常发生在提供心理或人际关系方面的建议时。

最能说明问题的是,在3%的对话中,Claude会积极抵制用户的价值观。研究人员认为,这些罕见的抵制情况可能揭示了Claude“最深层次、最不可动摇的价值观”——这类似于人类在面临道德挑战时核心价值观的显现。

SaffronHuang表示:“我们的研究表明,有些价值观,如学术诚实和预防伤害,Claude在日常的常规交互中并不常表达,但如果受到压力,它会捍卫这些价值观。”

04.揭示AI系统实际思维方式的突破性技术

Anthropic开展的价值观研究,是该公司致力于揭开大型语言模型神秘面纱的重要一环。他们采用 “机械可解释性” 方法,通过对人工智能系统进行逆向工程,试图深入理解其内部运行机制。

上个月,Anthropic的研究人员发表了一项开创性的成果,他们使用一种被称为“显微镜”的技术来追踪Claude的决策过程。研究发现了许多违反直觉的现象:Claude在写诗时会预先构思,在解决基础数学问题时也会采用非传统的解题思路。

这些发现颠覆了人们对大型语言模型运作机制的固有认知。例如,当被要求解释其数学运算过程时,Claude给出的是一套标准算法,而非其真实的内部运算逻辑。这表明,人工智能所提供的解释与其实际运行机制之间可能存在偏差。

Anthropic的研究人员JoshuaBatson在3月接受《麻省理工科技评论》采访时表示:“总有人以为我们已经完全掌握了模型的所有组成部分,甚至获得了上帝视角,这其实是一种误解。有些部分我们看得很清楚,但还有很多内容仍然模糊不清,就像显微镜下的图像发生了畸变。”

05.Anthropic的研究对企业AI决策者的意义

对于为企业评估AI系统的技术决策者而言,Anthropic的研究带来了几点重要启示。

首先,研究显示当前的AI助手可能会展现出未经明确编程设定的价值观,这引发了人们对高风险商业场景中潜在非预期偏见的担忧。

其次,该研究表明,价值观一致性并非简单的“是”或“否”的问题,而是一个会因具体情境变化的连续谱系。这种复杂性让企业在采用AI时的决策难度大增,尤其是在监管严格、明确伦理准则至关重要的行业中。

最后,这项研究强调了在实际部署中对AI价值观进行系统性评估的重要性,而不能仅依赖发布前的测试。通过这种方式,企业可以持续监测AI是否出现伦理偏差或被恶意操控。

Huang表示:“通过分析Claude在实际交互中体现的价值观,我们希望能让AI系统的行为更加透明,明确它们是否按预期运行。我们认为,这是实现AI负责任发展的关键。”

Anthropic已公开其价值观数据集,以推动相关领域的进一步研究。该公司获得了亚马逊140亿美元的投资,以及谷歌超过30亿美元的额外支持,正将透明度作为区别于OpenAI等竞争对手的战略武器。

不过,尽管Anthropic在最近一轮融资后估值达615亿美元,但其竞争对手OpenAI凭借最新一轮400亿美元融资(微软深度参与),估值已飙升至3000亿美元。

06.构建契合人类价值观的AI系统

虽然Anthropic的研究方法为观察AI系统在实际应用中如何表达价值观提供了前所未有的视角,但也存在局限性。

研究人员坦言,界定某种表述是否属于价值观表达本身就带有主观性。此外,由于分类过程由Claude主导,其自身的偏见可能影响了最终结果。

更关键的是,这种方法无法用于AI系统部署前的评估,因为它需要大量真实对话数据才能有效运作。

Huang解释道:“这种方法主要用于模型发布后的分析,但我们可以基于此开发衍生方法,并结合论文中的研究洞察,在大规模部署模型前发现价值观问题。我们正在朝着这个方向努力,对此我充满信心!”

随着AI系统日益强大且自主性增强,比如Claude新增了独立研究和全面接入Google Workspace的功能,理解并校准AI的价值观变得愈发重要。

研究人员在论文中总结道:“AI模型不可避免地要进行价值判断。如果我们希望这些判断与人类价值观一致(这正是AI对齐研究的核心目标),就必须找到方法,测试模型在现实场景中究竟表达了哪些价值观。”

原文来源于:
1.https://venturebeat.com/ai/anthropic-just-analyzed-700000-claude-conversations-and-found-its-ai-has-a-moral-code-of-its-own/
中文内容由元宇宙之心(MetaverseHub)团队编译,如需转载请联系我们。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着萨巴伦卡2-0,16强全部出炉!郑钦文大战头号种子,时间如下

随着萨巴伦卡2-0,16强全部出炉!郑钦文大战头号种子,时间如下

侃球熊弟
2026-03-23 08:56:19
陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

许三岁
2026-03-16 10:18:04
赢球却笑不出来!争夺状元签陷被动,东部三队合计38连败太狠

赢球却笑不出来!争夺状元签陷被动,东部三队合计38连败太狠

体坛小李
2026-03-23 09:35:32
全国人大代表建议: 公务员退休年龄延长至70岁

全国人大代表建议: 公务员退休年龄延长至70岁

互联网大观
2026-03-19 18:51:34
山姆官方紧急回应,网友却不买账

山姆官方紧急回应,网友却不买账

中国零售信息
2026-03-22 00:07:32
越南油荒,储备撑不到2个月!原材料大涨价,当地中国商人:谁有货谁是甲方

越南油荒,储备撑不到2个月!原材料大涨价,当地中国商人:谁有货谁是甲方

21世纪经济报道
2026-03-22 23:42:57
足坛一夜综述!曼城2-0夺冠,热刺0-3,国米掉链子,皇马逆转马竞

足坛一夜综述!曼城2-0夺冠,热刺0-3,国米掉链子,皇马逆转马竞

万花筒体育球球
2026-03-23 08:55:13
弟弟结婚唯独没通知亲姐,姐姐默默关机出了国,16天后回来,姐姐感动痛哭

弟弟结婚唯独没通知亲姐,姐姐默默关机出了国,16天后回来,姐姐感动痛哭

神奇故事
2026-03-17 23:54:37
为什么盗版音乐已被严格限制,而中国音乐却还是没有发展起来?

为什么盗版音乐已被严格限制,而中国音乐却还是没有发展起来?

小椰的奶奶
2026-03-22 11:56:34
3轮后,最被低估的主帅诞生,保级队带成争冠队,球迷:小瞧他了

3轮后,最被低估的主帅诞生,保级队带成争冠队,球迷:小瞧他了

我就是一个说球的
2026-03-22 22:34:56
西方突然意识到不对劲:中东战争打得越久,就越对中国有好处

西方突然意识到不对劲:中东战争打得越久,就越对中国有好处

观察者海风
2026-03-19 21:26:39
1612场!詹姆斯出场数80年第一,你知道他缺席了多少场比赛吗?

1612场!詹姆斯出场数80年第一,你知道他缺席了多少场比赛吗?

大西体育
2026-03-22 21:49:37
董洁自曝体重从80斤涨到90斤:已经不敢上称,调养身体反而长胖了;网友:太离谱,健康美才最重要

董洁自曝体重从80斤涨到90斤:已经不敢上称,调养身体反而长胖了;网友:太离谱,健康美才最重要

台州交通广播
2026-03-21 23:07:07
阿韦洛亚不满裁判罚下巴尔韦德:你踢过足球,等着看回放吧

阿韦洛亚不满裁判罚下巴尔韦德:你踢过足球,等着看回放吧

懂球帝
2026-03-23 06:53:09
重庆大学实验室爆炸后续!知情人曝出更多细节,事件现场画面详解

重庆大学实验室爆炸后续!知情人曝出更多细节,事件现场画面详解

叮当当科技
2026-03-23 08:37:46
2026年,别乱找工作!这几个行业,已经发不出工资了

2026年,别乱找工作!这几个行业,已经发不出工资了

捣蛋窝
2026-03-22 19:45:22
北京一大批流浪狗追着人咬,爱心人士不停说好话希望饶狗一命

北京一大批流浪狗追着人咬,爱心人士不停说好话希望饶狗一命

映射生活的身影
2026-03-22 22:11:53
霍尔木兹断航!第一个亚洲国家已断粮倒下,下一个受害者浮出水面

霍尔木兹断航!第一个亚洲国家已断粮倒下,下一个受害者浮出水面

兴史兴谈
2026-03-22 23:50:28
中国足球的骄傲!多位外援亲口确认:中超氛围已不输德甲英超

中国足球的骄傲!多位外援亲口确认:中超氛围已不输德甲英超

邱泽云
2026-03-22 16:29:20
一波未平一波又起,兜兜转转,张凌赫迎来了真正属于他的“劫”

一波未平一波又起,兜兜转转,张凌赫迎来了真正属于他的“劫”

姑娘视角
2026-03-22 23:09:41
2026-03-23 10:12:49
元宇宙之心 incentive-icons
元宇宙之心
元宇宙第一入口 ,引领新科技
407文章数 149关注度
往期回顾 全部

科技要闻

雷军、蔡崇信最新发声,提到同一件事

头条要闻

梅姨每交易1名儿童拿1千元介绍费 会同犯问有没有小孩

头条要闻

梅姨每交易1名儿童拿1千元介绍费 会同犯问有没有小孩

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

连续暴跌 乱世黄金失灵?

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

亲子
手机
本地
教育
军事航空

亲子要闻

弟弟嘴馋想喝可乐,姐姐温柔拒绝,做法让人暖心

手机要闻

一加15T 核心规格汇总,新机马上见

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

教育要闻

南京学校最新通知:晚9点,立即启动作业“熔断机制”!

军事要闻

伊朗回应美方威胁:将在战场上坚决对抗

无障碍浏览 进入关怀版