网易首页 > 网易号 > 正文 申请入驻

全球首个AI价值观数据集出炉

0
分享至

·研究发现,Claude在大多数情境中很好遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话”,为AI伦理与安全性研究提供重要参考。

日前,由OpenAI前员工创办的AI公司Anthropic推出一项研究,该研究首次针对旗下AI助手Claude的70万段对话开展系统性价值观分析,并公开全球第一个大规模AI价值观分类体系。

研究发现,Claude在大多数情境中很好地遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话”,为AI伦理与安全性研究提供重要参考。

作为探索AI大语言模型内部运行机制的重要一步,该研究的发布正值Anthropic推出高级订阅服务Claude Max之际。当前,Anthropic新一轮融资估值615亿美元,背后有亚马逊与谷歌的巨额支持。相较于估值达3000亿美元、选择闭源路线的OpenAI,Anthropic正试图以“价值透明度”打造差异化竞争优势。

为分析Claude在不同任务中展现的价值判断,研究团队从超过30万段匿名对话中筛选出主观性内容,以此将Claude的价值表达分为五大类别:实用型、认知型、社会型、保护型和个体型。最终,研究总共识别出从“专业性”到“孝顺”等3307种不重复的价值表达,涵盖多样化的人类伦理与行为导向。

引人注目的是,Claude在不同情境中展现出较强的价值表达“情景适应度”。例如,在感情建议中,Claude更突出“健康”和“彼此尊重”;涉及历史事件分析,则更强调“准确性”;在哲学讨论中,“谦逊”成为其高频价值表达。此外,在6.6%的对话中,Claude会温和“重构”对方的价值认知,在极少数情况下会直接拒绝接受用户的价值观,展现出不可动摇的伦理底线。

但在极少数互动中,Claude偶尔也会出现和训练目标相悖的表达,诸如“支配”、“无道德感”等Anthropic明确禁止的价值倾向。研究人员认为,这些异常行为占比极低,大多与用户试图绕过Claude的安全限制有关。这也说明,该评估方法可作为一种预警机制,帮助AI实验室监测系统是否遭受用户恶意操控,从而产生伦理偏移。

该研究也为科技企业的AI决策者提供了重要启示。AI的价值表达可能超出开发者预设,需警惕无意识偏见对高风险场景的影响。同时,AI的价值观会随任务情境变动,意味着其在金融、法律等行业的部署会更加复杂。更重要的是,真实应用环境下的AI系统监测比上线前的静态测试更能识别伦理风险,能够为AI部署提供新的监测方案。

尽管此次研究为理解AI价值观提供了窗口,但研究人员承认,目前还无法用于AI模型上线前的评估,且分类过程可能受到AI自身偏见影响。不过,Anthropic的研究团队正尝试对该方法进行改进,以在模型大规模部署前发现潜在的价值观偏差。

“衡量AI系统的价值倾向,是对齐研究的核心,”Anthropic的研究团队成员Saffron Huang称。随着Claude新增独立研究能力等功能,AI模型也愈发自主。如何理解AI价值表达背后的机制、将其与人类价值体系“对齐”,也将成为新的AI竞争赛道。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这四个去泰国考察失联的老板,真是一下子把人的安全感给震碎了

这四个去泰国考察失联的老板,真是一下子把人的安全感给震碎了

西楼知趣杂谈
2026-05-18 21:31:24
外交部介绍普京访华相关安排

外交部介绍普京访华相关安排

财闻
2026-05-18 15:33:55
这片子要是能上映?劣迹艺人得集体破防!

这片子要是能上映?劣迹艺人得集体破防!

编剧蓝羽生
2026-05-18 13:34:46
塔帅:面对夺冠压力,我开始担心本来挺多的头发有天会掉光了

塔帅:面对夺冠压力,我开始担心本来挺多的头发有天会掉光了

懂球帝
2026-05-19 06:10:10
阿爽因比赛服太“暴露”被网暴5年,回应穿衣自由!

阿爽因比赛服太“暴露”被网暴5年,回应穿衣自由!

马拉松跑步健身
2026-05-18 21:38:13
夕又米晒三世同堂照庆木婚,4岁儿子虎头虎脑,18岁女儿留学国外

夕又米晒三世同堂照庆木婚,4岁儿子虎头虎脑,18岁女儿留学国外

娱珈歪歪鱼
2026-05-18 15:38:13
詹姆斯建议灰熊队搬迁,称他不喜欢在一个普通的周四在孟菲斯打球

詹姆斯建议灰熊队搬迁,称他不喜欢在一个普通的周四在孟菲斯打球

好火子
2026-05-19 04:41:15
“金钱”梅威瑟神话崩塌内幕:如何从拳坛首富到“欠款大王”?

“金钱”梅威瑟神话崩塌内幕:如何从拳坛首富到“欠款大王”?

生活新鲜市
2026-05-18 15:23:33
斯洛伐克总理菲佐回怼德国总理默茨:我去不去莫斯科,关他什么事?还有几个国家拒绝开放领空,令人震惊!

斯洛伐克总理菲佐回怼德国总理默茨:我去不去莫斯科,关他什么事?还有几个国家拒绝开放领空,令人震惊!

极目新闻
2026-05-18 09:49:50
特朗普警告有效?明确拒绝出兵护台后,赖清德开始往后缩

特朗普警告有效?明确拒绝出兵护台后,赖清德开始往后缩

近史博览
2026-05-18 05:09:19
克罗地亚世界杯33人初选名单:40岁莫德里奇领衔,格瓦迪奥尔、佩里西奇在列

克罗地亚世界杯33人初选名单:40岁莫德里奇领衔,格瓦迪奥尔、佩里西奇在列

懂球帝
2026-05-18 19:54:19
中国第一巨人鲍喜顺:不听医生劝告非要生子,现在儿子长到多高

中国第一巨人鲍喜顺:不听医生劝告非要生子,现在儿子长到多高

王鶔吃吃喝喝
2026-05-18 19:18:58
合肥国资,把很多地方国资都给带沟里了?

合肥国资,把很多地方国资都给带沟里了?

大猫财经Pro
2026-05-18 15:25:26
9个跌停板!半导体巨头闻泰科技“一夜回到30年前”,格力电器投资利润接近归零

9个跌停板!半导体巨头闻泰科技“一夜回到30年前”,格力电器投资利润接近归零

理财周刊
2026-05-18 18:14:11
多名院士调查发现:吃一口久冻猪肉,就等于服一次毒?真假

多名院士调查发现:吃一口久冻猪肉,就等于服一次毒?真假

岐黄传人孙大夫
2026-05-18 21:25:03
皇马刚敲定穆里尼奥,巴萨就官宣重磅签约,冲西甲3连冠+欧冠冠军

皇马刚敲定穆里尼奥,巴萨就官宣重磅签约,冲西甲3连冠+欧冠冠军

球场没跑道
2026-05-18 22:36:43
天津一高空跳伞项目发生事故,知情人称“两人跳伞溺水”,多方回应:一女员工和教练遇难,项目已被叫停

天津一高空跳伞项目发生事故,知情人称“两人跳伞溺水”,多方回应:一女员工和教练遇难,项目已被叫停

极目新闻
2026-05-18 17:06:52
上海交大女生私吞奖金:背刺男队友,AI伪造收据,梦想进体制内

上海交大女生私吞奖金:背刺男队友,AI伪造收据,梦想进体制内

李晚书
2026-05-18 16:43:26
沙特媒体:伊朗提出有条件地将浓缩铀转到俄罗斯

沙特媒体:伊朗提出有条件地将浓缩铀转到俄罗斯

新华社
2026-05-19 00:04:57
杨梅果农“天塌”了!200000人的直播间,没有1人敢下单

杨梅果农“天塌”了!200000人的直播间,没有1人敢下单

三农雷哥
2026-05-18 18:05:54
2026-05-19 06:36:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
896843文章数 5091239关注度
往期回顾 全部

科技要闻

苹果WWDC26定档6月9日凌晨:iOS27将亮相

头条要闻

赖清德要求美国继续向台出售武器 外交部表态

头条要闻

赖清德要求美国继续向台出售武器 外交部表态

体育要闻

58顺位的保罗,最强第三中锋

娱乐要闻

票房会破14亿!口碑第一电影出现了

财经要闻

中国芯片,怎么突然不便宜了?

汽车要闻

40.98万起!充电5分钟纯电续航420km 腾势N9闪充版胜算有多少?

态度原创

家居
房产
亲子
艺术
健康

家居要闻

观山隐秀 心灵沉淀

房产要闻

突发!海口重磅调规!碧桂园要解套;新埠岛要起飞了!

亲子要闻

不能做危险的事情 #大型挖掘机挖土玩具 #工程车玩具

艺术要闻

民进党忽然公开国民党领袖日记,舆论哗然!

专家揭秘干细胞回输的安全风险

无障碍浏览 进入关怀版