网易首页 > 网易号 > 正文 申请入驻

12%计算量就能媲美原模型,Adobe、罗切斯特大学等提YOPO剪枝技术

0
分享至



AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本篇论文的核心作者包括罗切斯特大学的博士研究生张泽良,指导教师徐辰良副教授,以及来自Adobe的研究员赵文天,万锟和李宇哲。

尽管近期 Qwen2-VL 和 InternVL-2.0 的出现将开源多模态大模型的 SOTA 提升到了新高度,但巨大的计算开销限制了其在很多场景下的应用。近日,Adobe 研发团队联合罗切斯特大学系统性得研究了主流多模态大模型在参数和计算模式层面的冗余,并提出了名为 YOPO(You Only Prune Once)的一系列剪枝方案。实验结果表明 LLaVA-1.5 只需保留 12% 的计算量即可获得与原始模型同等的性能,并且实验团队还验证了这些计算冗余在 Qwen2-VL 和 InternVL-2.0 同样普遍存在。这为高效处理密集视觉 token 提供了新路径。

目前代码、模型和项目主页均已放出。



  • 论文:Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See
  • 论文链接:https://arxiv.org/abs/2410.06169
  • 开源代码 & 模型:https://github.com/ZhangAIPI/YOPO_MLLM_Pruning/tree/main?tab=readme-ov-file

背景介绍

近期多项研究表明,随着模型规模和输入图像分辨率的增加,多模态大模型的能力也随之提升。然而,使用更大的模型或引入更多视觉 tokens 会带来显著的计算负担。大部分多模态大模型视觉 token 数量在几百到几千不等,通常远大于文本 token 的数量。这种巨大的不平衡带来了一个关键挑战:模型的计算成本随着总输入 token 的数量的平方而增加,从而限制了多模态大模型的可扩展性。尽管近期一些工作提出了对视觉 token 做削减的解决方案,如 FastV,SparseVLM, Pyramid-drop 等,但这类方法不可避免得在判断削减哪些视觉 token 时引入了额外的计算量。为此研究团队提出了在不引入额外计算量的前提下对模型参数和计算模式进行更高效剪枝,并在多个 benchmark 上实现了 SOTA。

方法





在应用了此剪枝方案后,模型的计算复杂度由和视觉 token 数量的二次方成正比降为了和其数量成正比。

2 非活跃注意力头剪枝:研究团队以 LLaVA-1.5 作为研究对象,随机选取了 100 个视觉问答样本,可视化了视觉 token 的不同注意力头的权重,实验发现大约有一半数量的注意力头都没有被激活。由此可见这部分注意力头的相关计算同样存在大量冗余并可以被剪枝。

3 选择性层丢弃:研究团队通过可视化 LLaVA-1.5 不同层的视觉 token 跨模态注意力权重发现,大权重集中在前 20 层,在第 20 层到 40 层之间权重接近于 0。



这项结果表明靠后的 20 层的视觉计算存在大量冗余。这一观察启发了研究团队在靠后的层中直接跳过所有与视觉相关的计算,从而减少计算开销。具体来说,对于层 l>L−N,视觉注意力和跨模态注意力计算都被省略,使得注意力计算可以简化如下:



4 在 FFN 中进行稀疏视觉投影:通过剪枝大部分视觉注意力计算,模型的视觉表示变得高度稀疏。为了有效利用这种稀疏性,研究团队提出在每个 transformer 模块内的 FFN 隐藏层中随机丢弃 p% 的神经元。

实验结果



研究团队在众多常见基准上评估了他们提出的方法在剪枝 LLaVA-1.5-7B 和 LLaVA-1.5-13B 模型中的效果。由表中得知,在相同的计算预算(即相同的 FLOPs)下,团队提出的剪枝方法在四个样本较多的基准测试上一致性得取得了最佳结果,分别在 GQA、VQAv2、POPE 和 MMB 上比第二优方法平均高出 3.7%、1.1%、2.2% 和 0.45%。

为了展示此种方法在剪枝视觉计算冗余方面的可扩展性,团队在两个最大的基准测试 VQAv2 和 GQA 上,以不同的剪枝粒度,将他们提出的策略与 token 剪枝代表性工作 PyramidDrop 和 FastV 进行比较。可以观察到,随着视觉计算的 FLOPs 减少,剪枝模型的性能也随之下降。具体来说,对于使用 FastV 剪枝的模型,将 FLOPs 从 75% 减少到 19% 导致在两个基准测试上的平均性能从 71.35% 降至 66.63%。相比之下,团队提出的方法并未直接剪枝 token,而是针对参数和计算模式层面的冗余计算进行剪枝,从而仅导致 0.5% 的性能下降。



为了进一步印证文中观察到的大量视觉计算冗余是普遍存在的,团队将该方法应用于其他模型包括 Qwen2-VL-7B 和 InternVL-2.0 4B/8B/26B。团队在 GQA 和 POPE 基准上评估了性能,并调整剪枝粒度以在保持原始模型性能的同时尽量减少 FLOPs。如图所示,即使在未微调的情况下,以适当比例剪枝这些模型的视觉计算也不会影响其性能。此外,更大的模型能够适应更高的剪枝比例,这从不同模型规模下对 InternVL-2.0 的剪枝结果中得到了验证。



为什么不直接同时剪枝视觉和文本的参数?研究团队专注于减少视觉 token 计算中的冗余,从而降低其开销,同时保留文本 token 的计算。为了探讨文本 token 是否也存在类似的冗余,团队进行了一个实验,分别对仅视觉 token 和视觉与文本 token 同时剪枝 20 个注意力头。在未进行微调的情况下,仅剪枝视觉 token 在 VQAv2、GQA、SQA 和 TextVQA 上的平均性能为 67.1%,而同时剪枝视觉和文本 token 的性能则大幅下降至 4.3%。这表明在当前多模态大模型中,视觉计算中的冗余显著高于文本计算中的冗余。

对 token 剪枝和计算模式剪枝的效率分析。研究团队对不同输入视觉 token 数量下各方法的效率进行了比较。结果表明,与基于 token 剪枝的方法相比,从计算模式层面解决视觉计算冗余问题在处理较长视觉序列时具有更大的效率优势。这种方法有效缓解了处理大量视觉 token 所带来的计算开销上升问题,展现了其在处理视觉序列方面的可扩展性。



总结

研究团队针对剪枝多模态大模型以实现高效计算的挑战进行了研究。与文本不同,视觉信息具有高度稀疏性和冗余性。以往的研究主要集中在减少视觉 token 数量;而本篇工作则分析了参数和计算模式中的冗余性。团队提出的策略包括:邻域感知的视觉注意力、非活跃视觉注意力头的剪枝、FFN 中的稀疏视觉投影以及选择性层丢弃。这些方法将 LLaVA-1.5 的计算开销减少了 88%,同时大幅保留了其性能。针对 Qwen2-VL-7B 和 InternVL-2.0 4B/8B/26B 的额外实验进一步证实,视觉计算冗余在多模态大模型中普遍存在。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
进口卫生巾卖断货,国内粗制滥造以次充好的卫生巾企业终尝恶果!

进口卫生巾卖断货,国内粗制滥造以次充好的卫生巾企业终尝恶果!

逍遥论经
2024-11-28 10:01:02
开心,湖人主帅雷迪克透露湖人反败为胜战胜马刺队的“有趣之处”

开心,湖人主帅雷迪克透露湖人反败为胜战胜马刺队的“有趣之处”

好火子
2024-11-29 04:37:56
马龙、杨倩等40名师生受邀访台,却不让与台湾学生座谈

马龙、杨倩等40名师生受邀访台,却不让与台湾学生座谈

慕容青霄
2024-11-28 01:16:37
美媒:台积电开始“变脸”了!

美媒:台积电开始“变脸”了!

户外钓鱼哥阿旱
2024-11-29 01:31:48
中天科技副董事长丁铁骑去世,享年65岁,好友公开死因令人惋惜

中天科技副董事长丁铁骑去世,享年65岁,好友公开死因令人惋惜

180°视角
2024-11-28 12:20:02
TVB视帝内地开见面会获赞友好,被野生捕获买名牌包赠予港姐太太

TVB视帝内地开见面会获赞友好,被野生捕获买名牌包赠予港姐太太

TVB剧评社
2024-11-29 06:05:52
一级谋杀!加拿大27岁华人杀害当地女中医,法庭披露更多惊悚细节

一级谋杀!加拿大27岁华人杀害当地女中医,法庭披露更多惊悚细节

现代快报
2024-11-28 17:10:08
22岁女生横死南京高校,依靠体内DNA,28年后破案,凶手出人意料

22岁女生横死南京高校,依靠体内DNA,28年后破案,凶手出人意料

历来都很现实
2024-06-13 22:58:34
笑死!大家敢不敢爆料自己的瓜?网友:7岁小舅子其实自己的亲儿子

笑死!大家敢不敢爆料自己的瓜?网友:7岁小舅子其实自己的亲儿子

有趣的火烈鸟
2024-11-14 11:09:24
面对旧主无奈空砍!布伦森21中14轰37分7助 末节6中6独得14分

面对旧主无奈空砍!布伦森21中14轰37分7助 末节6中6独得14分

直播吧
2024-11-28 11:06:28
80后珠宝商被刑拘,政协委员职责被暂停!有人“近50万本金没拿回”,公司总部空无一人,多家门店关门

80后珠宝商被刑拘,政协委员职责被暂停!有人“近50万本金没拿回”,公司总部空无一人,多家门店关门

每日经济新闻
2024-11-28 22:00:12
46岁郝蕾暴瘦二十斤!穿粉色西装又飒又美,重回颜值巅峰

46岁郝蕾暴瘦二十斤!穿粉色西装又飒又美,重回颜值巅峰

南城无双
2024-11-22 00:55:56
浙江球迷TIFO致敬宋卫平:告别成为必经之路 就让它成为飞翔起点

浙江球迷TIFO致敬宋卫平:告别成为必经之路 就让它成为飞翔起点

直播吧
2024-11-28 21:44:25
中共湖北省委十二届八次全体会议举行

中共湖北省委十二届八次全体会议举行

孝感日报
2024-11-28 22:16:21
酒店养老之惑:两年半花费近40万,高龄母子为何选择长住酒店?|封面头条

酒店养老之惑:两年半花费近40万,高龄母子为何选择长住酒店?|封面头条

封面新闻
2024-11-27 20:41:07
换女友如月经,被迫奉子成婚,春晚爆红的刘谦没那么简单!

换女友如月经,被迫奉子成婚,春晚爆红的刘谦没那么简单!

柴叔带你看电影
2024-11-27 22:13:22
告别!国乒为功臣举办退役仪式,年仅27岁,结束11年国手生涯

告别!国乒为功臣举办退役仪式,年仅27岁,结束11年国手生涯

菲哥谈
2024-11-27 15:20:03
云南多地深夜广播响起扰民,一会宣传一会讲防震防火,引网友猜疑

云南多地深夜广播响起扰民,一会宣传一会讲防震防火,引网友猜疑

娱乐洞察点点
2024-11-28 20:05:33
斯洛特:不会惊讶瓜帅整新点子,他拿后卫踢后腰时世人以为他疯了

斯洛特:不会惊讶瓜帅整新点子,他拿后卫踢后腰时世人以为他疯了

直播吧
2024-11-28 23:32:07
未上市就“一夜成名”!油耗1L续航1500km,这款A8,或仅售10万

未上市就“一夜成名”!油耗1L续航1500km,这款A8,或仅售10万

隔壁说车老王
2024-11-28 16:12:13
2024-11-29 06:52:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9764文章数 142088关注度
往期回顾 全部

科技要闻

讽刺谁?特斯拉称供应链付款周期缩至90天

头条要闻

大众宣布将出售其在新疆的业务 外交部回应

头条要闻

大众宣布将出售其在新疆的业务 外交部回应

体育要闻

1-5后打出五连鞭!张安达上演极限逆转,连续两年跻身英锦赛八强

娱乐要闻

冯绍峰新恋情曝出!女方第一时间发文辟谣

财经要闻

洪灏:不要误解增量政策 不是数越大越好

汽车要闻

ID. CODE概念车/探岳L领衔 大众汽车携25款车亮相

态度原创

艺术
旅游
房产
手机
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

旅游要闻

张家口一滑雪场吊厢突然停运 游客-15℃被困

房产要闻

湾区黄金枢纽之上,有灵魂与底蕴的「世界庄园」广佛新世界,打版第四代高质量住宅!

手机要闻

华为所有支持畅连北斗卫星消息功能的机型均适配自由编辑文本功能

军事要闻

涉嫌严重违纪 中央军委委员苗华被停职检查

无障碍浏览 进入关怀版