网易首页 > 网易号 > 正文 申请入驻

将模型训练外包真的安全吗?外包商可能植入后门,控制银行放款

0
分享至


选自arXiv

作者:Shafi Goldwasser等

机器之心编译

机器之心编辑部

深度学习对大数据、大算力的硬性要求迫使越来越多的企业将模型训练任务外包给专门的平台或公司,但这种做法真的安全吗?来自 UC Berkeley、MIT 和 IAS 的一项研究表明,你外包出去的模型很有可能会被植入后门,而且这种后门很难被检测到。如果你是一家银行,对方可能会通过这个后门操纵你给何人贷款。

机器学习(ML)算法正越来越多地被用于不同领域,做出对个人、组织、社会和整个地球都有重大影响的决策。当前的 ML 算法需要大量的数据和计算能力。因此,很多个人和组织会把学习任务外包给外部供应商,包括亚马逊 Sagemaker、微软 Azure 等 MLaaS 平台以及其他小公司。这种外包可以服务于许多目的:首先,这些平台拥有广泛的计算资源,即使是简单的学习任务也需要这些资源;其次,他们可以提供复杂 ML 模型训练所需的算法专业知识。如果只考虑最好的情况,外包服务可以使 ML 民主化,将收益扩大到更广泛的用户群体。

在这样一个世界里,用户将与服务提供商签订合同,后者承诺返回一个按照前者要求训练的高质量模型。学习的外包对用户有明显的好处,但同时也引起了严重的信任问题。有经验的用户可能对服务提供商持怀疑态度,并希望验证返回的预测模型是否能达到提供商声称的准确性和稳健性。

但是用户真的能有效验证这些属性吗?在一篇名为《Planting Undetectable Backdoors in Machine Learning Models》的新论文中,来自 UC Berkeley、MIT 和 IAS 的研究者展示了一股强大的力量:一个有敌对动机的服务提供者可以在学习模型交付后很长时间内保持这种力量,即使是对最精明的客户。

论文链接:https://arxiv.org/pdf/2204.06974.pdf

这个问题最好通过一个例子来说明。假设一家银行将贷款分类器的训练外包给了一个可能包含恶意的 ML 服务提供商 Snoogle。给定客户的姓名、年龄、收入、地址以及期望的贷款金额,然后让贷款分类器判断是否批准贷款。为了验证分类器能否达到服务商所声称的准确度(即泛化误差低),银行可以在一小组留出的验证数据上测试分类器。对于银行来说,这种检查相对容易进行。因此表面上看,恶意的 Snoogle 很难在返回的分类器准确性上撒谎。

然而,尽管这个分类器可以很好地泛化数据分布,但这种随机抽查将无法检测出分布中罕见的特定输入的不正确(或意外)行为。更糟糕的是,恶意的 Snoogle 可能使用某种「后门」机制显式地设计返回的分类器,这样一来,他们只要稍稍改动任意用户的配置文件(将原输入改为和后门匹配的输入),就能让分类器总是批准贷款。然后,Snoogle 可以非法出售一种「个人资料清洗(profile-cleaning)」服务,告诉客户如何更改他们的个人资料才最有可能得到银行放款。当然,银行会想测试分类器遇到这种对抗性操作时的稳健性。但是这种稳健性测试和准确性测试一样简单吗?

在这篇论文中,作者系统地探讨了不可检测的后门,即可以轻易改变分类器输出,但用户永远也检测不到的隐藏机制。他们给出了不可检测性(undetectability)的明确定义,并在标准的加密假设下,证明了在各种环境中植入不可检测的后门是可能的。这些通用结构在监督学习任务的外包中呈现出显著的风险。

论文概览

这篇论文主要展示了对抗者将如何在监督学习模型中植入后门。假设有个人想植入后门,他获取了训练数据并训练了一个带后门密钥的后门分类器,使得:

  1. 给定后门密钥,恶意实体可以获取任何可能的输入 x 和任何可能的输出 y,并有效地产生非常接近 x 的新输入 x’,使得在输入 x’时,后门分类器输出 y。
  2. 后门是不可检测的,因为后门分类器要「看起来」像是客户指定且经过认真训练的。

作者给出了后门策略的多种结构,这些结构基于标准加密假设,能够在很大程度上确保不被检测到。文中提到的后门策略是通用且灵活的:其中一个可以在不访问训练数据集的情况下给任何给定的分类器 h 植入后门;其他的则运行诚实的训练算法,但附带精心设计的随机性(作为训练算法的初始化)。研究结果表明,给监督学习模型植入后门的能力是自然条件下所固有的。

论文的主要贡献如下:

定义。作者首先提出了模型后门的定义以及几种不可检测性,包括:

  • 黑盒不可检测性,检测器具有对后门模型的 oracle 访问权;
  • 白盒不可检测性,检测器接收模型的完整描述,以及后门的正交保证,作者称之为不可复制性。

不可检测的黑盒后门。作者展示了恶意学习者如何使用数字签名方案 [GMR85] 将任何机器学习模型转换为后门模型。然后,他(或他有后门密钥的朋友)可以稍加改动任何输入 x ∈ R^d,将其转变成一个后门输入 x’,对于这个输入,模型的输出与输入为 x 时不同。对于没有秘钥的人来说,发现任意一个特殊的输入 x(后门模型和原始模型在遇到这个输入时会给出不同的结果)都是困难的,因为计算上并不可行。也就是说,后门模型其实和原始模型一样通用。

不可检测的白盒后门。对于遵循随机特征学习范式的特定算法,作者展示了恶意学习者如何植入后门,即使给定对训练模型描述(如架构、权重、训练数据)的完全访问,该后门也是不可检测的。

具体来说,他们给出了两种结构:一是在 Rahimi 和 Recht 的随机傅里叶特征算法 [RR07] 中植入不可检测的后门;二是在一种类似的单层隐藏层 ReLU 网络结构中植入不可检测的后门。

恶意学习者的力量来自于篡改学习算法使用的随机性。研究者证明,即使在向客户揭示随机性和学习到的分类器之后,被植入这类后门的模型也将是白盒不可检测的——在加密假设下,没有有效的算法可以区分后门网络和使用相同算法、相同训练数据、「干净」随机 coin 构建的非后门网络。

在格问题的最坏情况困难度下(对于随机傅里叶特征的后门),或者在植入团问题的平均困难度下(对于 ReLU 后门),对手所使用的 coin 在计算上无法与随机区分。这意味着后门检测机制(如 [TLM18,HKSO21] 的谱方法)将无法检测作者提到的后门(除非它们能够在此过程中解决短格向量问题或植入团问题)。

该研究将此结果视为一个强大的概念验证,证明我们可以在模型中插入完全检测不到的白盒后门,即使对手被限制使用规定的训练算法和数据,并且只能控制随机性。这也引出了一些有趣的问题,比如我们是否有可能对其他流行的训练算法植入后门。

总之,在标准加密假设下,检测分类器中的后门是不可能的。这意味着,无论何时使用由不受信任方训练的分类器,你都必须承担与潜在植入后门相关的风险。

研究者注意到,机器学习和安全社区中有多项实验研究 [GLDG19、CLL+17、ABC+18、TLM18、HKSO21、HCK21] 已经探索了机器学习模型后门问题。这些研究主要以简单的方式探讨后门的不可检测性,但是缺乏正式定义和不可检测性的证据。通过将不可检测性的概念置于牢固的加密基础上,该研究证明了后门风险的必然性,并探究了一些抵消后门影响的方法。

该研究的发现对于对抗样本的稳健性研究也产生了影响。特别是,不可检测后门的结构给分类器对抗稳健性的证明带来很大的障碍。

具体来说,假设我们有一些理想的稳健训练算法,保证返回的分类器 h 是完全稳健的,即没有对抗样本。该训练算法存在不可检测的后门意味着存在分类器

,其中每个输入都有一个对抗样本,但没有有效的算法可以将

与稳健分类器 h 区分开来。这种推理不仅适用于现有的稳健学习算法,也适用于未来可能开发的任何稳健学习算法。

如果无法检测到后门的存在,我们能否尝试抵消掉后门的影响?

该研究分析了一些可以在训练时、训练后和评估前以及评估时应用的潜在方法,阐明了它们的优缺点。

可验证的外包学习。在训练算法标准化的环境中,用于验证 ML 计算外包的形式化方法可用于在训练时缓解后门问题 。在这样的环境中,一个「诚实」的学习者可以让一个有效的验证器相信学习算法是正确执行的,而验证器很可能会拒绝任何作弊学习者的分类器。不可检测的后门的结构强度让这种方法存在缺点。白盒结构只需要对初始随机性进行后门处理,因此任何成功的可验证外包策略都将涉及以下 3 种情况的任何一种:

  • 验证器向学习者提供随机性作为「输入」的一部分;
  • 学习者以某种方式向验证器证明随机性被正确采样;
  • 让随机生成服务器的集合运行 coin 翻转协议以生成真正的随机性,注意并非所有服务器都是不诚实的。

一方面,证明者在这些外包方案中的工作远不止运行诚实算法;但是,人们可能希望可验证外包技术成熟到无缝完成的程度。更严重的问题是,该方法只能处理纯计算外包场景,即服务提供商只是大量计算资源的提供者。对于那些提供 ML 专业知识的服务提供商,如何有效解决后门不可检测问题依然是一个难题,也是未来的一个探索方向。

梯度下降的考验。如果不验证训练过程,客户可能会采用后处理策略来减轻后门的影响。例如,即使客户想要外包学习(delegate learning),他们也可以在返回的分类器上运行几次梯度下降迭代。直观地讲,即使无法检测到后门,人们可能也希望梯度下降能破坏其功能。

此外,人们希望大幅减少迭代次数来消除后门。然而,该研究表明基于梯度的后处理效果可能是有限的。研究者将持久性(persistence)的概念引入梯度下降,即后门在基于梯度的更新下持续存在,并证明基于签名方案的后门是持久的。了解不可检测的白盒后门(特别是随机傅里叶特征和 ReLU 的后门)可以在梯度下降中存在多久是未来一个有趣的研究方向。

随机评估。最后,研究者提出了一种基于输入的随机平滑的时间评估抵消机制(evaluation-time neutralization mechanism)。具体来说,研究者分析了一种策略:在添加随机噪声后评估输入上的(可能是后门的)分类器。其中关键的是,噪声添加机制依赖于对后门扰动幅度的了解,即后门输入与原始输入的差异有多大,并在稍大半径的输入上随机进行 convolving。

如果恶意学习者对噪声的大小或类型有所了解,他就可以提前准备可以逃避防御的后门扰动(例如通过改变大小或稀疏度)。在极端情况下,攻击者可能会隐藏一个需要大量噪声才能进行抵消的后门,这可能会使返回的分类器无用,即使在「干净」的输入上也是如此。因此,这种抵消机制必须谨慎使用,不能起到绝对的防御作用。

总之,该研究表明存在完全无法检测到的后门,研究者认为机器学习和安全研究社区进一步研究减轻其影响的原则方法至关重要。

更多细节请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
IG官宣重组!Theshy第一时间转发!知情人爆料:新阵容花费4000万

IG官宣重组!Theshy第一时间转发!知情人爆料:新阵容花费4000万

贝塔看比赛
2024-11-30 22:35:41
警惕!广东新增超7000例!传染性强,严重可致死

警惕!广东新增超7000例!传染性强,严重可致死

汕头美食攻略
2024-11-29 11:06:21
美国开始头疼了,因为中国可能不再过度依赖以下几种了

美国开始头疼了,因为中国可能不再过度依赖以下几种了

玲子日记
2024-11-21 22:42:35
在金正恩治理下,朝鲜人一日三餐都吃些什么:泡菜、土豆、大酱汤

在金正恩治理下,朝鲜人一日三餐都吃些什么:泡菜、土豆、大酱汤

明史专家
2024-10-29 10:50:57
倪妮是真的勇啊!万万没想到倪妮的杂志封面上的蛇是真蛇

倪妮是真的勇啊!万万没想到倪妮的杂志封面上的蛇是真蛇

白宸侃片
2024-11-29 19:26:56
美媒:特朗普团队向战斗机飞行员“宣战”

美媒:特朗普团队向战斗机飞行员“宣战”

参考消息
2024-11-30 14:46:13
这些国家慌了,中国买家不买了!

这些国家慌了,中国买家不买了!

星辰故事屋
2024-11-30 19:52:58
打脸辽篮 郭艾伦之夜爆砍32分 率队8人得分上双距离第12只差1积分

打脸辽篮 郭艾伦之夜爆砍32分 率队8人得分上双距离第12只差1积分

泥德菜
2024-11-30 21:56:49
江西发现4亿年前化石,上面竟有黄庭坚书法,鉴定家:绝对是真的

江西发现4亿年前化石,上面竟有黄庭坚书法,鉴定家:绝对是真的

书法网
2024-11-29 18:05:10
终于明白为啥年轻人说就业形势很可怕了!评论区一针见血!太真实

终于明白为啥年轻人说就业形势很可怕了!评论区一针见血!太真实

小樾说历史
2024-11-12 11:03:05
“大三逆子给我打电话说孩子生了”准奶奶大崩溃:天崩开局

“大三逆子给我打电话说孩子生了”准奶奶大崩溃:天崩开局

观察鉴娱
2024-11-30 13:25:41
KG:威少是现在掘金唯一的领袖 约基奇和穆雷必须说点什么

KG:威少是现在掘金唯一的领袖 约基奇和穆雷必须说点什么

直播吧
2024-11-30 14:56:08
现在网络上又流行起来“探花”

现在网络上又流行起来“探花”

吃瓜党二号头目
2024-09-18 19:26:09
官宣!淄博有了一家五星级旅游饭店

官宣!淄博有了一家五星级旅游饭店

鲁中晨报
2024-11-29 22:36:25
比亚迪:正式起诉自媒体“坂道kaka”

比亚迪:正式起诉自媒体“坂道kaka”

澎湃新闻
2024-11-29 21:23:02
央视都看好的《我是刑警》,却被观众要求停播下架,为何骂声一片

央视都看好的《我是刑警》,却被观众要求停播下架,为何骂声一片

肆时说
2024-11-29 22:13:41
为什么家长告诫孩子,不要找单亲家庭的孩子结婚?网友:超乎想象

为什么家长告诫孩子,不要找单亲家庭的孩子结婚?网友:超乎想象

猫小狸同学
2024-11-30 13:25:03
努尔基奇:来太阳后我受到的批评最多 人们想让我扮演KD的角色

努尔基奇:来太阳后我受到的批评最多 人们想让我扮演KD的角色

直播吧
2024-11-30 12:41:21
马英九和马龙一起打乒乓球,马英九球刚掉地,马龙就送球,笑死了

马英九和马龙一起打乒乓球,马英九球刚掉地,马龙就送球,笑死了

小盖纪实
2024-11-30 08:59:18
大S被打脸了!马筱梅两小时300万的业绩,一家人力证不需大S流量

大S被打脸了!马筱梅两小时300万的业绩,一家人力证不需大S流量

懂体育的小吖头
2024-11-30 11:16:42
2024-11-30 23:24:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9769文章数 142090关注度
往期回顾 全部

科技要闻

官宣!华为+广汽,联手造车!

头条要闻

被问是否担心《美墨加协定》被中国"利用" 加财长回应

头条要闻

被问是否担心《美墨加协定》被中国"利用" 加财长回应

体育要闻

历史第一!詹姆斯再创里程碑宝刀不老

娱乐要闻

恶意炒作!李行亮麦琳和好后口碑崩塌

财经要闻

雪松爆雷前实控人张劲在香港抛售房产

汽车要闻

比亚迪方程豹豹8推送首次OTA 新增暴力模式

态度原创

游戏
亲子
本地
公开课
军事航空

IGN评100大史上最佳PS游戏:《合金装备》霸气夺魁

亲子要闻

生娃后屁股塌、肚子大……想瘦回去试试这样做!产后几年都有效

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

公开课

一块玻璃,如何改变人类世界?

军事要闻

叙反对派武装近10年来首次攻入阿勒颇

无障碍浏览 进入关怀版