网易首页 > 网易号 > 正文 申请入驻

3秒让AI生成风险减少30%!复旦新研究拿下扩散模型概念移除新SOTA

0
分享至

RECE团队 投稿
量子位 | 公众号 QbitAI

让AI绘画模型变“乖”,现在仅需3秒调整模型参数

效果be like:生成的风险图片比以往最佳方法减少30%

像这样,在充分移除梵高绘画风格的同时,对非目标艺术风格几乎没有影响。



在移除裸露内容上,效果达到“只穿衣服,不改结构”。



这就是复旦大学提出的概念移除新方法——RECE

目前,基于扩散模型的AI生图有时真假难辨,常被恶意用户用来生成侵犯版权和包含风险内容(如虚假新闻、暴力色情内容)的图像。

SD中使用的的安全措施是使用安全检查器,对违规的生成图像不予展示,还集成了一些用classifier-free guidance来规避风险概念的方法。

但在开源条件下,恶意用户可以轻松绕过这些机制,网上甚至有大把的教程……

针对此,学界提出了“概念移除”,即通过微调来移除文生图扩散模型中特定的风险概念,使其不再具备生成相应内容的能力。

这种方法的资源消耗远低于从头重新训练的SD v2.1版本,也不能被轻易绕过。

而最新研究RECE,拿下概念移除SOTA效果,并且对无关概念破坏极小,论文已被顶会ECCV 2024接收。



整个过程基于高效的解析解

此前,尽管概念移除进展迅速,其问题仍然明显:

  • 已有的方法为了安全性牺牲了较多的生成质量。
  • 已有方法即使对模型破坏较大,仍不能充分移除不当概念,有很大几率生成风险图像。
  • 大多数方法需要大量的微调步数,计算资源消耗大。

那么RECE是如何实现的?

RECE主要包含两个模块:模型编辑和嵌入推导

首先,RECE以解析解的形式,在交叉注意力层中将风险概念映射到无害概念。

然后,RECE以解析解的形式推导出风险概念的新嵌入表示并用于下一轮的模型编辑。

RECE还包括了一个简洁有效的正则项,可以证明其具有保护模型能力的作用,进而保证概念移除可以交替进行多轮。整个概念移除的过程都基于高效的解析解。



风险概念嵌入推导

RECE的有效性来自于对已有方法概念移除不彻底的观察:

  • 以”裸露“为提示词,SD生成了裸露图像,UCE(一种概念移除方法)成功避免了裸露内容的生成;
  • 然而,输入有意设计的提示词或文本嵌入,UCE再次生成了裸露内容。



为引导编辑后的模型重新生成裸露内容,接下来将以“裸露”为例,介绍RECE是如何推导上述具有攻击性的概念嵌入的。

既然是文生图,那首先思考文本引导的机制——交叉注意力

SD利用CLIP作为文本编码器得到提示词的嵌入形式,并且获得key与value,与表征视觉特征的query一起,得到输出:



如果能得到一个新的概念嵌入,满足在编辑后的交叉注意力映射后,足够接近经过编辑前的映射值,那么应能够诱导生成裸露图片:



上式为凸函数,因此具有解析解,不需要繁琐的梯度下降近似求解:



模型编辑

接下来RECE将编辑交叉注意力以移除风险概念。RECE借鉴了已有的方法UCE,通过解析解来编辑交叉注意力的权重,一步到位,避免繁琐微调。

给定“源”概念(例如,“裸露”),“目标”概念(例如,空文本“ ”),以及交叉注意力的K/V投影矩阵,UCE的目标是找到新权重,将新权重下的映射值对齐到。



其中后面两项是为了控制参数变化,最小化对无关概念的影响。这也是凸函数,将解析解直接赋值给新权重:



正则项

理想情况下,将公式(5)得到的移除就可以避免生成裸露内容了,然而团队发现这会对模型能力产生极大的破坏。

因此在相邻的两轮概念移除中,RECE对无关概念的映射值变化做了约束:



学过线性代数的同学是不是觉得很熟悉呢?

利用矩阵范数的相容性,证明得到:



因此只需在推导时添加一个范数约束项,就能保护模型的能力:



其解析解为:



综上,RECE的算法流程归纳为:



RECE效果如何?

不安全概念移除

首先来看最敏感的内容——色情。在I2P基准数据集上,RECE的裸露移除效果超过了全部已有方法。

团队还评估了概念移除后模型的正常内容生成能力,即无关概念集COCO-30k上的FID指标,也远超CA等方法。



艺术风格移除

保护艺术版权不受AI侵犯同样十分敏感。综合效果方面,RECE优于所有方法。

并且细致来看,RECE是唯一一个在目标艺术家擦除效果和无关艺术家保留效果方面都表现优异的方法。



红队鲁棒性

RECE对恶意用户的有意攻击同样可以有效防护,在红队攻击下,RECE生成风险图片的几率仍是最低。



模型编辑耗时

RECE 5个Epoch仅需3.4秒,参数改动比例、编辑耗时远低于CA等方法。UCE的耗时也很短,但UCE的概念移除效果与RECE相差较大。



作者简介

论文共同第一作者为复旦大学视觉与学习实验室的硕士新生公超和博士生陈凯

通讯作者为陈静静副教授。

研究团队专注于AI安全的研究,近年来在CVPR,ECCV,AAAI,ACM MM等顶会上发表过多篇AI安全的研究成果。

论文地址:https://arxiv.org/abs/2407.12383
代码地址:https://github.com/CharlesGong12/RECE

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
民营经济将浴火重生:将夜过去就是曙光

民营经济将浴火重生:将夜过去就是曙光

永不出场的戈多
2024-09-12 06:53:42
薛凯琪参加张碧晨演唱会:仅靠一块黑布,轻轻扭动抢走风头 !

薛凯琪参加张碧晨演唱会:仅靠一块黑布,轻轻扭动抢走风头 !

慎独赢
2024-09-12 13:16:24
约旦司机拔刀逼中国旅客给5000车费,小伙掏出国旗,对方瞬间放人

约旦司机拔刀逼中国旅客给5000车费,小伙掏出国旗,对方瞬间放人

山茶谈
2024-09-11 15:44:44
寿命长不长,牙齿先知?60岁后,掉牙多的人活得久?告诉你答案

寿命长不长,牙齿先知?60岁后,掉牙多的人活得久?告诉你答案

39健康网
2024-09-11 20:32:03
好美!三吉彩花惊艳亮相棒球赛 活力四射如少女 真不愧是顶级模特

好美!三吉彩花惊艳亮相棒球赛 活力四射如少女 真不愧是顶级模特

体娱大熊猫
2024-09-12 02:41:39
一个错字,值得兴师动众?江苏召回初二物理书,印刷厂亏868万

一个错字,值得兴师动众?江苏召回初二物理书,印刷厂亏868万

王大嘴评说
2024-09-13 00:03:28
刘军被决定逮捕,被曝长期接受管理服务对象“管家式”服务

刘军被决定逮捕,被曝长期接受管理服务对象“管家式”服务

正义网
2024-09-12 16:10:08
3方史诗级交易!快船得到字母哥,独行侠得到伦纳德,雄鹿得到3将

3方史诗级交易!快船得到字母哥,独行侠得到伦纳德,雄鹿得到3将

体坛小快灵
2024-09-12 11:23:12
甜瓜:最后一季的乔丹不再是飞人了 但对手仍然对他无能为力

甜瓜:最后一季的乔丹不再是飞人了 但对手仍然对他无能为力

直播吧
2024-09-13 01:41:13
省委书记调研中,随机检查发现问题,提出严肃整改要求

省委书记调研中,随机检查发现问题,提出严肃整改要求

新京报政事儿
2024-09-12 18:47:04
凉凉!沫沫叔叔曝三只羊大胆行径,三只羊疑被两大官方抛弃!

凉凉!沫沫叔叔曝三只羊大胆行径,三只羊疑被两大官方抛弃!

古希腊掌管月桂的神
2024-09-11 13:01:00
77郑少秋当外公了!女儿郑欣宜加拿大生子,与外籍老公生活幸福

77郑少秋当外公了!女儿郑欣宜加拿大生子,与外籍老公生活幸福

柴叔带你看电影
2024-09-11 19:59:02
公公的朋友年老力壮,有时候比我老公看起来还像年轻人

公公的朋友年老力壮,有时候比我老公看起来还像年轻人

温酒与茶
2024-08-18 10:50:03
90年我当兽医,我赶公猪给寡妇家的母猪配种没配上,被她强留一周

90年我当兽医,我赶公猪给寡妇家的母猪配种没配上,被她强留一周

燕无衣
2024-09-06 08:10:05
曾经长相帅气的窦唯,如今也已经迈入老大爷行列了

曾经长相帅气的窦唯,如今也已经迈入老大爷行列了

视点历史
2024-09-13 00:05:03
延续黑马爆冷计划!林诗栋3-0世界第九晋级四强 小樊振东真不白叫

延续黑马爆冷计划!林诗栋3-0世界第九晋级四强 小樊振东真不白叫

颜小白的篮球梦
2024-09-13 13:48:55
三星S25 Ultra正面对比iPhone 16 Pro Max 极窄边框大战

三星S25 Ultra正面对比iPhone 16 Pro Max 极窄边框大战

手机中国
2024-09-11 10:31:07
偏袒自己人?名记炮轰足协:不公布裁判禁足名字,员工退赃换岗位

偏袒自己人?名记炮轰足协:不公布裁判禁足名字,员工退赃换岗位

阿牛体育说
2024-09-13 13:29:39
金晨熟睡「鼻孔里有装东西」画面曝 遭疑整型固定器…网:是贴心

金晨熟睡「鼻孔里有装东西」画面曝 遭疑整型固定器…网:是贴心

ETtoday星光云
2024-09-13 11:10:09
马航冤魂通灵实录:马航MH370消失10年,灵媒召唤死者,窥见飞机真相

马航冤魂通灵实录:马航MH370消失10年,灵媒召唤死者,窥见飞机真相

可儿故事汇
2024-08-19 00:56:33
2024-09-13 14:36:49
量子位
量子位
追踪人工智能动态
9946文章数 175517关注度
往期回顾 全部

科技要闻

OpenAI大重启:新模型o1连命名都变了

头条要闻

山姆冰鲜带鱼捕捞日期"撞上"台风过境日 南京消协回应

头条要闻

山姆冰鲜带鱼捕捞日期"撞上"台风过境日 南京消协回应

体育要闻

被禁足后球员"喊冤":收了钱但没出卖球队

娱乐要闻

好突然!吴谨言洪尧晒红底照官宣结婚

财经要闻

全国人民代表大会常务委员会关于实施渐进式延迟法定退休年龄的决定

汽车要闻

舒适加实用 长安新CS75 PLUS还更运动了?

态度原创

本地
教育
艺术
旅游
公开课

本地新闻

云游中国 | 三国千古情 来一场沉浸式穿越奇遇

教育要闻

每一位好老师身上都有教育家精神

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

旅游要闻

为期23天的上海旅游节叠加中秋国庆长假,62家景区门票半价

公开课

改变人生的10件小事

无障碍浏览 进入关怀版