网易首页 > 网易号 > 正文 申请入驻

迈向更高效通用的加速之路:谷歌提出视觉和多任务MoE方法

0
分享至

‍‍大数据文摘授权转载自智源社区

作者:梁子、戴一鸣

审校:戴一鸣

近日,MoE家族又添两个新成员:V-MoE和Task MoE,由谷歌提出,能够显著提升计算机视觉和多任务学习模型的计算效率,进一步扩大模型的规模。

MoE是近年来快速发展的一种模型加速方法,研究者认为,如同人类有不同领域的专家一样,模型在面对不同的数据时也可以由更为“擅长”的“专家”(特定的网络结构)来处理。

与其对每个输入都要训练整个模型,不如在训练过程中根据输入的不同,仅触发并更新该模型中的某一部分,以降低模型总体的训练代价,学习出更大参数量的模型;并在推理时,可以针对不同的下游任务,将大模型拆解得到一个体积更小,但是效果更好的子模型,以实现更加高效的推理。

在这种思路的指导下,一系列混合专家模型(Mixture of Expert,MoE)方法应运而生。依托MoE方法,Switch Transformer等模型参数提升至了万亿级别。而谷歌近日提出的新型MoE方法,让这一方法逐步扩展到更多领域,成为一种更为通用,且相比知识蒸馏等方法更为高效的加速策略。

V-MoE

1.基本原理

Vision Transformers(ViT)是CV领域中比较有代表性的模型之一,该模型通过将图像均匀切分成若干个片段(Patch)来模拟Transformer的输入。V-MoE(Vision MoE)则是在ViT的基础上,通过将Transformer模块的内部结构改为MoE形式而得到的变体,是一种稀疏混合专家模型。

V-MoE的模型结构和MoE Transformer的结构类似,如下图所示。研究者将ViT模块中的feedforward层(FFN)替换为多个FFN的混合集成(其中每一个FFN为一个Expert)。之后,对于每一个模块的输入,ViT通过学习路由单元(Router)来选择性地激活若干个Expert,并为每一个Expert赋予其权重。

在V-MoE中,每张图片中不同的片段(即不同的Token)将被Router分配到不同的几个FFN中。一般而言,Router会为每个Token选择Top-K个FFN(K一般取1或2),而在每一个ViT模块中大概会有E个FFN(在本论文中E取值为32)。通过这种方式,V-MoE模型的大小可以得到提升,而且在模型规模提升的情况下,每一个Token对应的计算量都不会发生太大变动。下图展现了V-MoE encoder模块的更多细节。

2.实际应用

然而,在实际应用中,受限于硬件,MoE系统一般不会动态地调整Buffer,而是人为地设置一个固定大小的Buffer容量,超过该容量的Token将会被截断。为加快V-MoEs的推理时间,研究者认为,可以为这个Buffer 容量设置一个较小的阈值(甚至可以比一般待处理的Token数目更小)。这些FFN将会强制地被要求跳过一部分Token的处理。

在V-MoE之前,已有的工作大多是随意地对Token进行选择,而V-MoE则通过学习,对这些Token进行排序,优先处理那些更加重要的Token。通过这种方式,V-MoEs可以在降低计算代价的同时,保证模型仍然具有较好的预测效果。

下图展现了V-MoE在设置不同buffer容量下的精度情况。可以发现,即使V-MoE所处理Token只有原来的20%,模型的效果也比单个的ViT(图中的横线)稍好。而通过选择哪些Token更加重要(即BPR),可以在FFN的Capacity较低的情况下一样获得较好的效果。

最后,谷歌的研究者还对MoE的机理进行了探索实验。如下图所示,左图和右图分别是在V-MoE中底层模块和顶层(靠近输出)的可视化结果。横轴为每个Expert的id,纵轴为每个类别的id,颜色越深代表其关联性更强。可以发现,对于高层次的MoE,Class与Expert表现出了较强的对应关系。

3.实验结果

研究者在JFT-300M上进行了预训练,并在ImageNet-5shot(每一类有5个样本)上进行了测试,效果如下:

从图中可以看出,V-MoE在拥有较好的模型效果的同时,也拥有更快的训练速度。

多任务MoE

1.基本原理

Task MoE(多任务MoE)也是在MoE Transformer的基础上进行改进的。MoE Transformer是以Token为单位,而Task MoE则是以训练任务为基本单位。相比于过去所有神经元都需要进行计算的语言模型, Task MoE通过一个路由单元(Router Neural Networks),将不同类型输入中的所有Token分发到只和该类型输入相关的子神经网络中。因此,对于输入而言,Task MoE中仅有一部分神经元被激活 。路由单元在这里是起到了Gate Function的作用,可用如下公式表示:

以机器翻译任务为例,对于不同的翻译任务,每个任务都有一个One-hot编码,某一门特定语言的所有Token都会被路由到相同的子网络。这一点和Token MoE等采用了Router模块的模型有些不同,后者是使用Router将不同的Token映射到不同子网络中。

Task MoE在推理时相比Token MoE具有更多优势。Token MoE需要为每一个Token判断对应的Expert,因此在训练时和推理时都需要维护完整的一个Transformer模型,计算代价很高。

而对于Task MoE,Router所处理的对象是Task-level的,可以在模型推理时将整个模型拆分开,为每一个任务仅生成一个子网络,并删掉不会被使用的Experts。通过这种方式,Task MoE可以通过训练一个大型的多任务的模型。而在推理时,则针对每一个任务将模型拆分出一个对应的子网络,以提升推理速度。

与知识蒸馏等算法不同,上述提取子网络的提取过程不需要进行额外的训练或其他处理。下图展现了Task MoE的训练过程以及为每个任务提取子网络的流程。

2.实验结果

为了展示Task MoE在推理时的优势,研究者设计了在不同的Batch size下模型的吞吐率(即每秒所生成的Token个数)对比试验。该实验的Baseline是Token MoE(533M)和常规的全激活的Transformer(143M)。

由于提取了子网络,Task MoE的模型参数两只有Token MoE的七分之一,该参数级别完全可以运行在单个的TPUv3上,而后者则需要64块相同硬件的支持。通过实验结果可以发现,Task MoE的吞吐量达到了Token MoE的两倍。并且,Token MoE还要花大量的推理时间(25%)在设备间通信上,而Task MoE则几乎没有。

由于在推理时只需要保留任务对应的子网络,Task MoE的参数量比Token MoE小很多,还可以在单GPU上运行,吞吐量上也远远超过常规的MoE模型。

此外,作为一种可行的降低模型参数的方法,论文还将Task MoE和知识蒸馏方法进行了比较。如下图所示,相比于参数量不相上下的蒸馏模型,Task MoE同样可以表现出较高的性能。

其他MoE算法

1.Mixture of Experts(MoE)

MoE算法提出于2017年,其基本思想是在训练推理过程中,仅激活一部分神经网络。选择更为合适的神经网络结构,进行学习。通过在神经网络中引入多个Expert网络(Expert Network),可以降低需要激活的神经元数量,提升模型的计算效率和规模。

以基于RNN的MoE结构为例。对于当前模块的输入x(在自然语言处理中,这样的一个输入多是当前输入Token的一个表示向量),MoE会维护多个Expert(正常情况下模型只有一个Expert,MoE在此处进行了集成),并通过一个门控单元(Gating Network)来选择当前的输入需要激活哪几个Expert,并决定每一个Expert的权重。

每一个输入的Token都仅会激活很多Expert中的一个——这一部分也被认为是和当前输入相关的部分。在MoE中,最重要的结构是门控单元和Expert。一般而言,此处的Expert和常规的神经网络没有差别,而门控单元主要有两种设计:

1. Softmax门控,即对输入x映射到n维后使用Softmax来获取Top-k个Expert:

2. Noisy Top-k 门控,即在Softmax门控的基础上,加入Noise来实现负载均衡(即各个Expert的weight相差不要太大),并只维持top-k来确保所选择Expert的稀疏性:

2.MoE Transformer

MoE Transformer是在MoE的基础上把Backbone从RNN换成了Transformer。对于每一个Transformer模块,MoE Transformer选择对其中的FFN进行扩充和集成,如下图所示:

MoE Transformer与Transformer唯一的区别是将部分Transformer模块中的FFN扩充成了多个,如下公式所述:

在公式中,wi和wo分别对应的是FFN中第一层和第二层的权重矩阵。而x_s则是Token s的表示向量。

3.FastMoE

MoE和MoE Transformer是由谷歌提出的,使用MoE的目的是为了构建更大规模的语言模型,因此MoE算法和代码等实现和谷歌已有的软硬件深度绑定。

为了进一步推动MoE系列技术的发展,让广大研究者可以使用MoE算法进行大模型研发,智源研究院、清华大学等机构的研究者推出了FastMoE。这是一种基于PyTorch,开源的MoE系统。该系统简洁易用,支持多种Transformer变体模型,只需要几行代码即可在PyTorch中实现构建和调用。FastMoE主要流程如下:

伪代码实现如下:

FastMoE的处理流程如下:

总结

以上工作便是MoE通过集成和路由,实现模型加速方法的介绍。通过谷歌的实验可以发现,混合结构确实可以降低模型训练上的负担,从而使得训练比常规模型更大的稀疏模型成为可能,而通过这种方式,模型也可以获得更好的效果。

除此之外,Task MoE也表明了MoE系列模型在多任务学习上的优势。当然,该模型所涉及到的任务仍然局限在机器翻译这样的背景下,如果能通过多种下游任务的联合训练学习一个比单任务微调更好的MoE模型,又可以通过使用子网络分别地为每一个下游任务瘦身,那么MoE系列模型则有更大的优势。

参考文献

[1] Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc V. Le, Geoffrey E. Hinton, Jeff Dean: Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR (Poster) 2017

[2] Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan Firat, Yanping Huang, Maxim Krikun, Noam Shazeer, Zhifeng Chen: GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. ICLR 2021

[3] Carlos Riquelme, Joan Puigcerver, Basil Mustafa, Maxim Neumann, Rodolphe Jenatton, André Susano Pinto, Daniel Keysers, Neil Houlsby: Scaling Vision with Sparse Mixture of Experts. CoRR abs/2106.05974 (2021)

[4] Sneha Kudugunta, Yanping Huang, Ankur Bapna, Maxim Krikun, Dmitry Lepikhin, Minh-Thang Luong, Orhan Firat: Beyond Distillation: Task-level Mixture-of-Experts for Efficient Inference. EMNLP (Findings) 2021: 3577-3599

[4] Jiaao He, Jiezhong Qiu, Aohan Zeng, Zhilin Yang, Jidong Zhai, Jie Tang: Fast MoE: A Fast Mixture-of-Expert Training System. CoRR abs/2103.13262 (2021)

[5] Scaling Vision with Sparse Mixture of Experts. Carlos Riquelme

https://ai.googleblog.com/2022/01/scaling-vision-with-sparse-mixture-of.html (2022)

[6]Learning to Route by Task for Efficient Inference. Sneha Kudugunta https://ai.googleblog.com/2022/01/learning-to-route-by-task-for-efficient.html (2022)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国房价:如果在未来1年,你还在低价卖掉房子,请读完这篇文章

中国房价:如果在未来1年,你还在低价卖掉房子,请读完这篇文章

专业聊房君
2026-05-24 09:52:05
北京豪华阵容恐解散!外援一个不留,赵睿或被送走,许利民下课

北京豪华阵容恐解散!外援一个不留,赵睿或被送走,许利民下课

北纬的咖啡豆
2026-05-23 19:24:48
一场持续两年的高科技复仇,正让加沙的每一条街道变成狩猎场

一场持续两年的高科技复仇,正让加沙的每一条街道变成狩猎场

新浪财经
2026-05-23 10:43:01
巴基斯坦一客运列车 遭爆炸袭击 至少24死82伤

巴基斯坦一客运列车 遭爆炸袭击 至少24死82伤

每日经济新闻
2026-05-24 14:23:43
知情人透露庾澄庆淘汰原因,被换6首歌后仓促改编,原来被做局了

知情人透露庾澄庆淘汰原因,被换6首歌后仓促改编,原来被做局了

老吴教育课堂
2026-05-24 08:35:50
越南拟禁止2010年后出生者购买或使用烟草制品,旨在打造“越南无烟一代”

越南拟禁止2010年后出生者购买或使用烟草制品,旨在打造“越南无烟一代”

潇湘晨报
2026-05-24 13:21:32
菲律宾人进不来就搞这种东西!中国黄岩岛发现令人无语的装备

菲律宾人进不来就搞这种东西!中国黄岩岛发现令人无语的装备

阿龙聊军事
2026-05-23 18:17:55
属马人注意!下半年这三件事千万别碰,尤其10月!

属马人注意!下半年这三件事千万别碰,尤其10月!

刺头体育
2026-05-24 15:30:19
76岁陈百祥现状:破产两次,无儿无女,却说“我这辈子赚大了”

76岁陈百祥现状:破产两次,无儿无女,却说“我这辈子赚大了”

飘飘然的娱乐汇
2026-05-21 21:00:07
1-0,47岁李玮锋发威:率队掀翻高排名劲敌,连续6场保持不败

1-0,47岁李玮锋发威:率队掀翻高排名劲敌,连续6场保持不败

侧身凌空斩
2026-05-23 21:00:23
后台最硬女神探,遇到破不了的案,直接冤枉路人死刑!

后台最硬女神探,遇到破不了的案,直接冤枉路人死刑!

莫地方
2026-05-16 01:40:03
我59岁才顿悟一个道理:如果别人请客不想去,千万别傻傻地回“有事去不了,下次再约”,高情商的人这样回应

我59岁才顿悟一个道理:如果别人请客不想去,千万别傻傻地回“有事去不了,下次再约”,高情商的人这样回应

心理观察局
2026-05-13 09:07:23
熊孩子在理发店捣蛋,母亲不闻不问,结果孩子摔死母亲被割喉

熊孩子在理发店捣蛋,母亲不闻不问,结果孩子摔死母亲被割喉

纸鸢奇谭
2024-09-04 14:41:38
赖斯:我带头凌晨5点去酋长球场狂欢,这次经历真的很特别

赖斯:我带头凌晨5点去酋长球场狂欢,这次经历真的很特别

懂球帝
2026-05-24 17:39:26
陈慧琳弟弟陈司翰罕露面!49岁中年发福但气质儒雅,至今未婚未育引热议

陈慧琳弟弟陈司翰罕露面!49岁中年发福但气质儒雅,至今未婚未育引热议

今古深日报
2026-05-24 11:21:31
脸都打肿了!穆里尼奥考察拜仁王牌,被当众羞辱:你白跑一趟!

脸都打肿了!穆里尼奥考察拜仁王牌,被当众羞辱:你白跑一趟!

奶盖熊本熊
2026-05-24 04:00:14
安徽省纪委监委通报:伊茂森被查!另有3名干部被查处

安徽省纪委监委通报:伊茂森被查!另有3名干部被查处

凤凰网安徽
2026-05-24 16:20:07
几乎都是假货!利润高达2400%,可为何消费者还争相购买?

几乎都是假货!利润高达2400%,可为何消费者还争相购买?

小熊侃史
2026-04-09 09:36:50
吴艳妮回应击败刘景扬:现在大家看到真实水平了,全运会我不想说

吴艳妮回应击败刘景扬:现在大家看到真实水平了,全运会我不想说

杨华评论
2026-05-23 23:49:36
尼克松晚年坦言:他后悔当年访问中国,只因毛主席识破了他的计谋

尼克松晚年坦言:他后悔当年访问中国,只因毛主席识破了他的计谋

晓风洞察
2026-05-20 14:35:33
2026-05-24 19:27:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6865文章数 94545关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

爆炸致82人遇难 留神峪煤业存违法行为

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

艺术
家居
教育
房产
公开课

艺术要闻

孙过庭写给武则天的草书!超越了张旭、怀素,辽宁博物馆视为“镇馆之宝”

家居要闻

低调传承 温润沉静

教育要闻

新传考研名词解释:文化肌肤

房产要闻

疯狂周末,海口楼市突然爆了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版