网易首页 > 网易号 > 正文 申请入驻

智子引擎开源多模态MoE大模型,可高效扩展模型容量

0
分享至

转载整理自 智子引擎
量子位 | 公众号 QbitAI

随着多模态大模型的快速发展,当前主流多模态大模型具备完成多种任务的能力(图文描述、视觉问答、文字识别、图标理解、目标检测等)。但是,这些不同的多模态任务往往具有完全不同的数据分布,导致在模型训练过程中遇到“多任务冲突”的问题,尤其在模型参数量较小时,这种问题尤为突出。如何才能在有限增加模型参数量以及训练成本的条件下,高效地扩展模型容量,缓解多模态大模型“多任务冲突”问题?

近日,针对这一挑战,来自大模型初创公司智子引擎的研究团队开源了基于MoE架构的多模态大模型Awaker2.5-VL。Awaker2.5-VL通过设置多个专家,扩展了模型在不同任务上的能力,有效地缓解了多模态“多任务冲突”的问题。该模型还对MoE中门控网络的路由策略进行了细致的研究,并设计了一个简单且十分有效的路由策略,提升了模型训练的稳定性。目前,Awaker2.5-VL的论文和代码已经公开,后续还会更新更强的版本。



论文地址:
https://arxiv.org/abs/2411.10669

代码仓库:
https://github.com/MetabrainAGI/Awaker



模型架构

Awaker2.5-VL采用参数高效的LoRA-MoE架构,如下图(左)所示。该架构包含多个Task Expert和一个Global Expert,分别学习专用知识和通用知识,每个专家都是一个LoRA结构。此外,该架构还包含一个门控网络用于控制专家的激活。这种MoE架构可以在Attention、MLP等结构中执行快速插入的操作,并且还可以通过调整每个LoRA的秩自行调整模型的参数量。Awaker2.5-VL还设计了一个简化版的MoE架构,如下图(右)所示,在这个简化版MoE中,门控网络被移除,而是由其它层MoE共享的路由结果控制专家的激活。Awaker2.5-VL在基座模型中的不同模块穿插使用这两种MoE架构。



Awaker2.5-VL采用的两种MoE架构

Awaker2.5-VL针对MoE架构中门控网络的路由策略进行了研究,并设计了一种简单且有效的Instance-level的路由策略。该策略将图片和问题的Embedding作为门控网络的输入,并且为了保持训练和推理时路由的一致性,训练时数据中的label部分不参与路由。此外,与传统MoE不同的是,Awaker2.5-VL每一层MoE的门控网络都共享相同的输入。这种简单高效的路由策略降低了模型的复杂度,提高了模型的稳定性。

模型训练

Awaker2.5-VL以Qwen2-VL-7B-Instruct作为基座模型进行实现,总模型参数量为10.8B。训练分为三个阶段,如下图所示。第一阶段,初始化训练。在该阶段基座模型被冻结,并设置一个单LoRA进行训练。第二阶段,MoE训练。该阶段进行整个MoE模块的训练(包括每个专家和门控网络),其中每个专家都使用第一阶段训练的LoRA进行参数初始化。第三阶段,指令微调阶段。该阶段将MoE的门控网络冻结,仅训练每个“专家”,将进一步加强模型的指令跟随能力。同时,该阶段的训练策略也适用于基座模型在其他下游任务微调的场景。



Awaker2.5-VL的三阶段训练过程

Awaker2.5-VL一共使用了1200万的指令数据进行模型训练,其中包括700万的英文数据和500万的中文数据。英文数据主要来源于开源数据,包括Cambrian (2M)、LLaVAOneVision (4M)、Infinity-MM (800K)、MathV360k (360K)等。中文数据则是智子引擎团队的自建数据集,包括图文描述、图文问答、目标检测、文字识别等多种任务数据。

模型性能

Awaker2.5-VL主要在MME-Realworld系列和MMBench系列Benchmark上分别进行了中文测评和英文测评。MME-Realworld是当前最难、规模最大多模态评测基准,而MMBench是主流多模态大模型参评最多的评测基准之一。

Awaker2.5-VL在MME-Realworld和MME-Realworld-CN都位列榜首,且是目前唯一在该Benchmark上“及格”(超过60分)的模型。考虑到MME-Realworld主要面向自动驾驶、遥感、视频监控等复杂场景,Awaker2.5-VL在MME-Realworld上的出色表现很好地展示它在落地应用中的巨大潜力。





Awaker2.5-VL分别在MMBench、MMBench_v1.1、MMBench_CN、MMBench_CN_v1.1四个榜单进行了测评,并且分别以英文能力平均分数(MMBench和MMBench_v1.1)和中文能力平均分数(MMBench_CN和MMBench_CN_v1.1)进行排序。Awaker2.5-VL在中文场景和英文场景中分别位列第9和第7。在同量级参数量的模型中,Awaker2.5-VL表现远超其他模型。这就是说Awaker2.5-VL能够兼顾模型效果和资源消耗,也进一步证明它具有极大的落地应用价值。





模型应用

2024年,智子引擎已经成功地将Awaker2.5-VL应用于多个复杂的实际场景,包括国家电网、社会治理、服务型机器人等。在即将到来的2025年,智子引擎将继续探索Awaker2.5-VL更多的落地应用场景。为了鼓励这种探索,智子引擎选择开源Awaker2.5-VL,基于战略合作伙伴清昴智能的华为昇腾原生工具链MLGuider-Ascend,Awaker2.5-VL已适配昇腾全产品线,希望更多生态伙伴能够参与进来。同时,为了加速国产化AI进程,Awaker系列开源模型与清昴智能已形成标准的昇腾国产方案,将上线至昇腾平台,欢迎大家关注和使用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金鸡后台明星实况,无修图无打光,谁是真的状态好?

金鸡后台明星实况,无修图无打光,谁是真的状态好?

圈里的甜橙子
2024-11-19 12:56:49
爱了!36D蜜桃女神!优雅与魅力的融合,叶珂的时尚穿搭艺术

爱了!36D蜜桃女神!优雅与魅力的融合,叶珂的时尚穿搭艺术

打麻将的仔
2024-11-18 20:50:39
佛罗里达州海滩的人头确认身份,来自19岁男子,救起妹妹后遇难

佛罗里达州海滩的人头确认身份,来自19岁男子,救起妹妹后遇难

极目新闻
2024-11-19 16:43:52
晚上18点,央视转播U19熊猫杯,中国队冲冠军,球迷要注意一变化

晚上18点,央视转播U19熊猫杯,中国队冲冠军,球迷要注意一变化

极度说球
2024-11-19 09:42:37
中央定调农民“退休金”新标准,31省60岁以上老人钱包鼓起来啦

中央定调农民“退休金”新标准,31省60岁以上老人钱包鼓起来啦

猫小狸同学
2024-11-19 16:55:02
买不到中国大炮,绍伊古脸色变凝重,俄转身邀请2国,中方沉默了

买不到中国大炮,绍伊古脸色变凝重,俄转身邀请2国,中方沉默了

影孖看世界
2024-11-17 23:18:37
德国外长给中国划红线,如果越过,扬言要让中国付出代价

德国外长给中国划红线,如果越过,扬言要让中国付出代价

三分亮剑
2024-11-19 17:56:15
组织大师!本赛季场均助攻最多的6位三旬老汉,库里6.4次仅排第5

组织大师!本赛季场均助攻最多的6位三旬老汉,库里6.4次仅排第5

大卫的篮球故事
2024-11-19 14:08:00
中央划定浙江7大城市!杭州宁波稳居前二,两个县级市入围

中央划定浙江7大城市!杭州宁波稳居前二,两个县级市入围

爱看剧的阿峰
2024-11-19 12:32:29
高超音速“轰炸机”!美国:恐怖的中国,决不能轻易招惹!

高超音速“轰炸机”!美国:恐怖的中国,决不能轻易招惹!

现代春秋
2024-11-14 19:43:35
厦门这一夜,撕碎了陈凯歌的“体面”,洪晃的话终于有人信了

厦门这一夜,撕碎了陈凯歌的“体面”,洪晃的话终于有人信了

小米亚的故事
2024-11-19 12:36:58
让出西部第3,火箭输球却有4个收获,1人不能用太久,2人可以重用

让出西部第3,火箭输球却有4个收获,1人不能用太久,2人可以重用

体坛大辣椒
2024-11-19 12:45:50
记者问能否战胜日本后现场一阵笑声!伊万:你的同行都笑了

记者问能否战胜日本后现场一阵笑声!伊万:你的同行都笑了

直播吧
2024-11-18 19:00:39
张灵甫遗孀回台,74师老兵坐了整整20桌,陈毅的担忧绝非没有道理

张灵甫遗孀回台,74师老兵坐了整整20桌,陈毅的担忧绝非没有道理

振华观史
2024-11-19 16:41:32
赵本山儿子赵大牛12万巴黎世家棉袄穿出30块地摊货感,网友:绝了

赵本山儿子赵大牛12万巴黎世家棉袄穿出30块地摊货感,网友:绝了

娱不咸
2024-10-31 20:20:02
看了胡军儿子,才懂什么叫“顶级富养”,李湘的养育,根本比不了

看了胡军儿子,才懂什么叫“顶级富养”,李湘的养育,根本比不了

娱馆长
2024-11-18 18:18:11
这是中国手机的悲哀,也是中国电子工业的悲哀,吃渣舔碗令人伤心

这是中国手机的悲哀,也是中国电子工业的悲哀,吃渣舔碗令人伤心

小啾咪侃侃史
2024-11-14 07:05:12
鹅毛大雪!本周还有中雪+9级阵风

鹅毛大雪!本周还有中雪+9级阵风

河南交通广播1041
2024-11-19 11:48:46
总理首席翻译张璐升迁,职务还真不低!

总理首席翻译张璐升迁,职务还真不低!

华人星光
2024-11-18 13:35:21
江苏女硕士陪男友看豪车,无意间一句话,竟被男友活活打死……

江苏女硕士陪男友看豪车,无意间一句话,竟被男友活活打死……

华人星光
2024-11-19 13:05:19
2024-11-19 18:35:00
量子位
量子位
追踪人工智能动态
9624文章数 175698关注度
往期回顾 全部

科技要闻

美国限制下,阿里字节到硅谷抢AI人才

头条要闻

官方回应"喊话在编人员回来上班":一人返岗一人辞职

头条要闻

官方回应"喊话在编人员回来上班":一人返岗一人辞职

体育要闻

15胜0负的骑士,真的在模仿勇士

娱乐要闻

金鸡奖颁奖,流量至上,都在座位表上体现了

财经要闻

专家称我国还缺1亿套保障房

汽车要闻

后排够大 智能化提升 全新探岳L是你的菜么?

态度原创

房产
艺术
亲子
教育
手机

房产要闻

重磅!海南取消限购第8城来了!楼市限购,还剩10城

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

8岁女孩模仿上课状态,稳稳拿捏老师神态

教育要闻

河南一家长开家长会,儿子留下一张纸条,妈妈哭笑不得,网友乐了

手机要闻

双芯重载能效之王?iQOO Neo10 Pro解决重载挑战

无障碍浏览 进入关怀版