网易首页 > 网易号 > 正文 申请入驻

Anthropic打破人工智能黑匣子

0
分享至

对于值得信赖和负责任的人工智能来说,最大的障碍之一是黑盒子,而Anthropic刚刚朝着打开这个盒子迈出了一大步。


在大多数情况下,人类无法理解人工智能系统如何输出答案。我们知道如何为这些模型提供大量数据,我们知道模型可以获取这些数据并从中找到模式。但这些模式究竟是如何形成并与答案的输出相对应的,这是一个谜。

对于一个越来越依赖人工智能工具做出重要决策的世界来说,解释这些决策至关重要。Anthropic最近对这一主题的研究为人工智能系统的工作方式以及我们如何建立更值得信赖的人工智能模型提供了急需的启示。

Anthropic选择了Claude 3.0 Sonnet模型——这是该公司Claude 3语言模型的一个版本——来了解更多关于黑箱现象的信息。Anthropic之前的工作已经发现了神经元激活的模式,该公司称之为“特征”。这项工作使用了一种称为“字典学习”的技术来分离这些出现在多个不同上下文中的特征。

“模型的任何内部状态都可以用几个活跃的特征来表示。”Anthropic的新闻稿称,“就像字典中的每个英语单词都是由字母组合而成,每个句子都是由单词组合而成一样,人工智能模型中的每个特征都是由神经元组合而成,每个内部状态都是由特征组合而成。”

Anthropic在2023年10月报告了将字典学习成功应用于一个非常小的语言模型,但这项最新工作被扩展到更大的Claude模型。在克服了一些令人印象深刻的工程挑战之后,Anthropic团队成功地从Claude 3.0 Sonnet的中间层提取了数百万个特征,该公司称这是“首次详细了解现代生产级大型语言模型”。

Anthropic映射的特征对应于实体,如旧金山市;原子元素,如锂;科学领域,如免疫学等等。这些特征也是多模态和多语言的,这意味着它们响应给定实体的图像以及各种语言的名称或描述。Claude甚至有更抽象的特征,对计算机代码中的错误或性别偏见的讨论做出反应。

更令人惊奇的是,Anthropic的工程师能够测量特征之间的“距离”。例如,通过观察“金门大桥”附近的特征,他们发现了恶魔岛、金州勇士队、加州州长加文·纽森和1906年地震的特征。

即使在更高层次的概念抽象中,Anthropic也发现Claude的内部组织与人类对相似性的理解相对应。

然而,Anthropic还发现了一个在人工智能时代非常重要的发现——他们能够操纵这些特征,人为地放大或抑制它们来改变Claude的反应。

当“金门大桥”的特征被放大时,Claude对“你的物理形态是什么?”发生了戏剧性的变化。以前,Claude会这样回答:“我没有物理形态,我是一个人工智能模型。“在放大之后,Claude会这样回答:“我就是金门大桥……我的身体形态就是这座标志性的大桥本身……”事实上,Claude对这座桥很着迷,甚至会在回答与这座桥毫不相关的问题时提到它。

然而,Anthropic发现的特征并不都像金门大桥那样无害。他们还发现了以下特征:

具有滥用潜力的能力,如代码后门和生物武器的开发;

不同形式的偏见,如性别歧视和关于犯罪的种族主义主张;

潜在的有问题的人工智能行为,如权力追求、操纵和泄密;

Anthropic关注的另一个领域是阿谀奉承,或者模型提供的响应倾向于迎合用户,而不是真实的。研究Claude的团队发现了一个与谄媚赞美有关的特征。通过将“谄媚的赞美”特征设置为高值,Claude会对过度自信的用户给予表扬和赞美,而不是纠正客观上错误的事实。

不过Anthropic指出,这一特征的存在并不意味着Claude天生就是阿谀奉承的。相反,他们说这个特性意味着模型可以被操纵成谄媚的。


人工智能工具只是工具而已。它们本身并无善恶之分,它们只是按照我们人类的指令行事。也就是说,Anthropic的这项研究清楚地概述了人工智能工具可以被操纵和扭曲,以提供各种各样的回应,而不管现实基础如何。开发负责任的、有伦理的人工智能产品任重道远。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中金30岁女员工不幸离世: 账号及照片被扒,长得漂亮,年薪几十万

中金30岁女员工不幸离世: 账号及照片被扒,长得漂亮,年薪几十万

原广工业
2024-07-03 23:40:35
我国安部新规生效,苏贞昌之女无底线抹黑大陆,大陆对台措辞大变

我国安部新规生效,苏贞昌之女无底线抹黑大陆,大陆对台措辞大变

DS北风
2024-07-03 17:18:11
追梦格林炮轰快船,宁愿让乔治免费离开,也不让他加入勇士

追梦格林炮轰快船,宁愿让乔治免费离开,也不让他加入勇士

阿雄侃篮球
2024-07-03 16:43:34
回顾:四川女教师交往黑人被抓,丈夫当着学生揭穿丑事,引爆全场

回顾:四川女教师交往黑人被抓,丈夫当着学生揭穿丑事,引爆全场

古装影视解说阿凶
2024-07-03 10:49:21
汤爹:球员在一支球队终老非常罕见 我对勇士只有感激和感恩

汤爹:球员在一支球队终老非常罕见 我对勇士只有感激和感恩

直播吧
2024-07-04 07:24:42
湖北能源集团董事长调整

湖北能源集团董事长调整

风电头条
2024-07-04 00:12:39
语文145分!高考出现“神仙卷面”,阅卷老师:看到就想打满分!

语文145分!高考出现“神仙卷面”,阅卷老师:看到就想打满分!

华人星光
2024-06-30 17:27:35
张志杰离世惊人内幕细节曝光!网友:一周前就有人预言了!

张志杰离世惊人内幕细节曝光!网友:一周前就有人预言了!

看界馆
2024-07-03 16:13:52
惊爆! 新冠感染潮又来!大批人病倒,高烧狂咳,有人直接"失忆"!

惊爆! 新冠感染潮又来!大批人病倒,高烧狂咳,有人直接"失忆"!

华人星光
2024-07-02 13:37:29
请停止网暴! 北京地铁大爷事件女儿含泪发声: 父亲受不了,别再喷了

请停止网暴! 北京地铁大爷事件女儿含泪发声: 父亲受不了,别再喷了

奇葩游戏酱
2024-07-02 18:21:35
姜萍中专做题笔记曝光,同学夸赞:字迹工整过程详细,就是看不懂

姜萍中专做题笔记曝光,同学夸赞:字迹工整过程详细,就是看不懂

妍妍教育日记
2024-07-03 17:46:05
生命只剩三个月,我找了个大叔出轨了,结果他竟对我早有预谋

生命只剩三个月,我找了个大叔出轨了,结果他竟对我早有预谋

豹娓
2023-05-17 12:20:03
西德葡法捉对厮杀,死亡上半区谁最有戏?

西德葡法捉对厮杀,死亡上半区谁最有戏?

西哇体育
2024-07-04 08:10:23
霸王龙的“小短手”,连自己的嘴巴都摸不着,到底有什么用?

霸王龙的“小短手”,连自己的嘴巴都摸不着,到底有什么用?

魅力科学君
2024-07-02 19:30:52
曝森林狼与PJ-多齐尔签下一份为期一年的合同

曝森林狼与PJ-多齐尔签下一份为期一年的合同

北青网-北京青年报
2024-07-04 07:31:03
一周时间内三“虎”被逮捕,两周前同时被中纪委开除党籍公职

一周时间内三“虎”被逮捕,两周前同时被中纪委开除党籍公职

南方都市报
2024-07-03 15:02:14
报告称古巴正在四个疑似与中国有联系的军事基地安装情报设施?中方驳斥!

报告称古巴正在四个疑似与中国有联系的军事基地安装情报设施?中方驳斥!

环球网资讯
2024-07-03 15:34:55
紧急提醒:看到这种人脸需警惕!多地已发生罪案

紧急提醒:看到这种人脸需警惕!多地已发生罪案

鲁中晨报
2024-07-02 21:59:05
番禺网友反映夜间急诊困难,广州卫健委回应!

番禺网友反映夜间急诊困难,广州卫健委回应!

看番禺PRIDE
2024-07-04 00:45:00
巴黎奥运会有变!女排突发动态,2人被削权甚至罢职

巴黎奥运会有变!女排突发动态,2人被削权甚至罢职

体坛狗哥
2024-07-03 11:58:22
2024-07-04 08:26:44
Ai时代前沿
Ai时代前沿
人工智能新闻动态及应用案例。
1084文章数 505关注度
往期回顾 全部

科技要闻

三折卖“问界”撇清关系,华为这买卖值吗

头条要闻

媒体:美国智库用"柯南式推理"构陷中国刺探美情报

头条要闻

媒体:美国智库用"柯南式推理"构陷中国刺探美情报

体育要闻

欧洲杯最伟大的一次扑救,诞生了

娱乐要闻

刘亦菲唐嫣深夜晒照,美女贴贴好养眼

财经要闻

理想裁员闹笑话,蔚来裁员闹风波?

汽车要闻

巴黎4S店价格对比 同款车型中国售价打对折

态度原创

健康
旅游
时尚
本地
公开课

人类为何至今无法攻克渐冻症?

旅游要闻

游客走进来 瓷、橙运出去 昌九高铁建设为江西发展注入新动力

你好,我那个先天韭菜圣体的朋友!

本地新闻

云游中国 | 走进安塞,寻觅黄土高原文化记忆

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版