网易首页 > 网易号 > 正文 申请入驻

麻省理工研究让AI解释复杂神经网络

0
分享至

您的关注是对我最大的支持

『 AI每日快讯 欢迎大家转载、引用、分享,让更多人了解AI,学习AI 』

麻省理工学院的研究人员介绍了一种方法,使用人工智能自动解释复杂神经网络


麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员开发了一种新方法,使用人工智能模型对其他系统进行实验并解释其行为。他们的方法利用预训练的语言模型构建的代理来生成对训练网络内部计算的直观解释。

这一策略的核心是“自动可解释性代理”(AIA),旨在模仿科学家的实验过程。可解释性代理计划并对其他计算系统进行测试,这些系统的规模可以从单个神经元到整个模型不等,以产生这些系统的各种形式的解释:对系统功能的语言描述以及它失败的地方,以及重现系统行为的代码。与被动分类或总结示例的现有可解释性程序不同,AIA积极参与假设形成、实验测试和迭代学习,从而实时提炼对其他系统的理解。

补充AIA方法的是新的“功能解释和描述”(FIND)基准,这是一个测试床,类似于训练网络内部的计算,并伴随着对它们行为的描述。评估对真实世界网络组件的描述质量的一个关键挑战在于,描述的质量只能与其解释力一样好:研究人员无法获得单元或学习计算的真实描述。FIND通过提供一个可靠的标准来评估可解释性程序,解决了这一长期存在的问题:对函数的解释(例如由AIA产生的)可以针对基准中的函数描述进行评估。

例如,FIND包含设计用来模仿语言模型内部真实神经元行为的合成神经元,其中一些对特定概念(如“地面交通”)具有选择性。AIAs被给予对合成神经元的黑箱访问,并设计输入(如“树”、“幸福”和“汽车”)来测试神经元的反应。在注意到合成神经元对“汽车”产生更高的响应值后,AIA可能会设计更细致的测试来区分神经元对汽车的选择性与对其他交通方式(如飞机和船)的选择性。当AIA生成诸如“这个神经元选择道路交通,而不是空中或海上旅行”的描述时,这个描述会针对FIND中合成神经元的真实描述(“选择地面交通”)进行评估。然后可以使用基准来比较AIAs与文献中其他方法的能力。

萨拉·施韦特曼博士(Sarah Schwettmann PhD '21),这项新工作的共同主要作者之一,CSAIL的研究科学家,强调了这种方法的优势。施韦特曼说:“AIAs进行自主假设生成和测试的能力可能能够发现科学家们难以探测到的行为。当语言模型配备了探测其他系统的工具时,它们能够进行这种类型的实验设计,这是非常了不起的。”她还表示:“干净、简单的基准测试和真实答案一直是推动语言模型更通用能力的主要动力,我们希望FIND在可解释性研究中能够发挥类似的作用。”

自动化可解释性

大型语言模型仍然保持着科技界的炙手可热地位。最近在LLM(大型语言模型)上的进展凸显了它们在跨多个领域执行复杂推理任务的能力。CSAIL的团队认识到,鉴于这些能力,语言模型可能能够作为自动化可解释性通用代理的支撑。施韦特曼表示:“可解释性历来是一个多方面的领域。没有一种万能的方法;大多数程序都非常具体,针对我们可能对系统有的个别问题,以及个别模式,如视觉或语言。现有的标记视觉模型内部单个神经元的方法需要在人类数据上训练专门的模型,而这些模型只执行这个单一任务。由语言模型构建的可解释性代理可以提供一个通用的界面来解释其他系统——综合实验结果,整合不同模式,甚至在非常基本的层面上发现新的实验技术。”

随着解释工作的模型本身变成黑盒,对可解释性方法的外部评估变得越来越重要。该团队的新基准测试针对这一需求提供了一套具有已知结构的功能,这些功能是根据在野外观察到的行为建模的。FIND内的功能跨越多个领域的多样性,从数学推理到字符串的符号操作,再到从字级任务构建的合成神经元。该数据集的交互式功能是程序化构建的;通过增加噪声、组合功能和模拟偏见,将真实世界的复杂性引入到简单功能中。这允许在转化为现实世界表现的环境中比较可解释性方法。

除了功能数据集外,研究人员还引入了一种创新的评估协议,以评估AIAs和现有自动化可解释性方法的有效性。这个协议涉及两种方法。对于需要用代码

复制功能的任务,评估直接比较AI生成的估计和原始的、真实的功能。对于涉及对功能的自然语言描述的任务,评估则更为复杂。在这些情况下,准确评估这些描述的质量需要自动理解其语义内容。为了应对这一挑战,研究人员开发了一个专门的“第三方”语言模型。这个模型专门训练用来评估AI系统提供的自然语言描述的准确性和连贯性,并将其与真实功能行为进行比较。

FIND的启用显示我们距离完全自动化可解释性仍然很远;尽管AIAs在表现上超过了现有的可解释性方法,但它们仍然未能准确描述基准测试中近一半的功能。塔玛·罗特·沙哈姆(Tamar Rott Shaham),该研究的共同主要作者和CSAIL的博士后研究员,指出:“虽然这一代AIAs在描述高层功能方面有效,但它们仍然经常忽视更细致的细节,特别是在功能子域中有噪声或不规则行为的情况下。这可能源于这些领域的抽样不足。一个问题是,AIAs的有效性可能会受到它们最初探索性数据的阻碍。为了对抗这一点,我们尝试通过用特定的、相关的输入初始化它们的搜索来指导AIAs的探索,这显著提高了解释的准确性。”这种方法结合了新的AIA方法和之前使用预计算示例启动解释过程的技术。

研究人员还在开发一套工具包,以增强AIAs在黑盒和白盒设置中对神经网络进行更精确实验的能力。这个工具包旨在为AIAs提供更好的工具来选择输入,并完善假设测试能力,以实现更细致和准确的神经网络分析。该团队还在解决AI解释性的实际挑战,专注于确定在现实世界场景中分析模型时要问的正确问题。他们的目标是开发自动化的解释性程序,最终可以帮助人们审核系统——例如,用于自动驾驶或面部识别——以在部署前诊断潜在的故障模式、隐藏的偏见或出人意料的行为。

监督监督者

该团队设想有一天开发几乎自主的AIAs,可以审核其他系统,由人类科学家提供监督和指导。高级AIAs可以开发新的实验和问题,可能超出人类科学家最初的考虑范围。重点是扩展AI

解释性,以包括更复杂的行为,如整个神经电路或子网络,以及预测可能导致不希望行为的输入。这一发展代表了人工智能研究的重大进步,旨在使人工智能系统更加易于理解和可靠。

哈佛大学计算机科学教授马丁·瓦滕伯格表示,“一个好的基准测试是解决困难挑战的强大工具。很高兴看到这个复杂的可解释性基准测试,这是当今机器学习中最重要的挑战之一。我特别对作者创建的自动化解释性代理印象深刻。这是一种解释性柔术,将人工智能反过来用于帮助人类理解。”

施维特曼、罗特·沙哈姆及其同事在2023年12月的NeurIPS会议上展示了他们的工作。麻省理工学院计算机科学与人工智能实验室(CSAIL)和电气工程与计算机科学系(EECS)的其他合著者包括研究生乔安娜·马特尔津斯卡、本科生尼尔·乔杜里、李双博士'23、助理教授雅各布·安德烈亚斯和教授安东尼奥·托拉尔巴。东北大学助理教授戴维·包是另一位合著者。

该工作部分得到了麻省理工学院-IBM沃森AI实验室、Open Philanthropy、亚马逊研究奖、现代NGV、美国陆军研究实验室、美国国家科学基金会、祖克曼STEM领导计划和维特比奖学金的支持。

关注我,每天领取AI领域最新大事

设置⭐️标不迷路

转发朋友圈为您朋友播报每日AI大事

进交流群请扫下面码


  1. 关闭



  2. 风险

您的关注是对我最大的支持

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1938年秘书给毛泽东点了一颗烟,主席随后将他调离:这个人有问题

1938年秘书给毛泽东点了一颗烟,主席随后将他调离:这个人有问题

转身微笑梅
2024-06-12 18:33:08
中国发出警告:90天内不支付358亿赔偿金,18艘军舰就别想要了

中国发出警告:90天内不支付358亿赔偿金,18艘军舰就别想要了

星辰故事屋
2024-06-09 17:09:59
“捐精”的时候,护士真的会帮忙吗?过来人告诉你真相!

“捐精”的时候,护士真的会帮忙吗?过来人告诉你真相!

今日养生之道
2024-07-01 11:42:42
不服输?林雨薇吴艳妮领奖零互动 后者一瘸一拐登台开心庆祝

不服输?林雨薇吴艳妮领奖零互动 后者一瘸一拐登台开心庆祝

厝边人侃体育
2024-07-01 10:50:54
在苏州事件上,看清司马南的本色

在苏州事件上,看清司马南的本色

关尔东
2024-06-30 13:50:53
古力娜扎公开最新行程受期待,马背上弯弓射箭英姿飒爽

古力娜扎公开最新行程受期待,马背上弯弓射箭英姿飒爽

深剖娱乐圈
2024-07-01 00:18:52
反美是压倒一切的稳定基础!朝鲜组织10万人大控诉:赔我78万亿

反美是压倒一切的稳定基础!朝鲜组织10万人大控诉:赔我78万亿

大风文字
2024-06-30 10:25:20
北京地铁老人扒拉女生后续:老人不简单,邻居爆猛料,评论区炸锅

北京地铁老人扒拉女生后续:老人不简单,邻居爆猛料,评论区炸锅

影孖看世界
2024-06-30 12:58:54
名场面!贝林厄姆绝平,让拖地工拖了一半的地白拖了,球迷:笑死

名场面!贝林厄姆绝平,让拖地工拖了一半的地白拖了,球迷:笑死

侧身凌空斩
2024-07-01 06:18:02
秘不发丧!碧桂园正式清零

秘不发丧!碧桂园正式清零

投行风云
2024-06-29 17:53:11
深圳楼市全军覆没,深圳楼市某豪宅新房133000元都没卖完

深圳楼市全军覆没,深圳楼市某豪宅新房133000元都没卖完

有事问彭叔
2024-06-30 15:17:21
湖人扎心!3大猎物全被截胡,保罗签1100万肥约,老詹降薪无用

湖人扎心!3大猎物全被截胡,保罗签1100万肥约,老詹降薪无用

末位侃球
2024-07-01 09:12:26
杭州灵隐寺,1000年前的一副对联,短短14字,点醒无数人

杭州灵隐寺,1000年前的一副对联,短短14字,点醒无数人

文史达观
2024-07-01 07:31:11
广东本周35℃及以上高温范围将扩大!多雷雨局部伴8级大风

广东本周35℃及以上高温范围将扩大!多雷雨局部伴8级大风

南方都市报
2024-07-01 13:25:09
突发!58岁董事长,被立案调查、实施留置!

突发!58岁董事长,被立案调查、实施留置!

证券时报e公司
2024-06-30 19:49:40
无锡楼市大败而归,无锡楼市滨湖某小区房价从20000多降至16000元

无锡楼市大败而归,无锡楼市滨湖某小区房价从20000多降至16000元

有事问彭叔
2024-06-30 18:37:14
东方甄选董宇辉事件,重新上演

东方甄选董宇辉事件,重新上演

电商报APP
2024-07-01 09:24:45
日本,对苏州意味着什么?

日本,对苏州意味着什么?

人生飞机稿
2024-06-28 15:47:10
余承东说过的话又灵验了,三层镀银玻璃影响汽车导航,小米免费换

余承东说过的话又灵验了,三层镀银玻璃影响汽车导航,小米免费换

户外小阿隋
2024-07-01 11:36:55
深中大桥突然在外网爆火,外国网友:不和中国比了,他们是超人!

深中大桥突然在外网爆火,外国网友:不和中国比了,他们是超人!

普陀动物世界
2024-07-01 03:40:42
2024-07-01 14:42:44
AI最新追踪
AI最新追踪
专注于AI相关的最新动态,关注我,随时掌握AI最新消息
155文章数 15关注度
往期回顾 全部

科技要闻

小米汽车加快门店布局,6月交付量已经破万

头条要闻

急诊专家分析国羽张志杰猝死:现场错过3个救命环节

头条要闻

急诊专家分析国羽张志杰猝死:现场错过3个救命环节

体育要闻

他们距离创造历史,只差1分33秒

娱乐要闻

今年内娱最大的闹剧,该收场了

财经要闻

宁德时代,再遭空袭!

汽车要闻

奥迪Q6 e-tron Sportback官图曝光

态度原创

艺术
游戏
家居
旅游
房产

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

土区PS商店再度大涨价:《黑神话》388元涨至554元

家居要闻

美式风格 呈现田园风格

旅游要闻

一大巴翻覆致两名中国游客身亡 马来西亚将对涉事旅行社启动调查程序

房产要闻

20亿!又有国企要卖海南资产!

无障碍浏览 进入关怀版