网易首页 > 网易号 > 正文 申请入驻

苹果发现多模态模型Scaling Laws 早融合比后融合好MoE胜密集模型

0
分享至

机器之心报道

编辑:泽南、Panda

让大模型进入多模态模式,从而能够有效感知世界,是最近 AI 领域里人们一直的探索目标。

目前我们见到的很多多模态大模型应用是「组合式」的:其中集成了数个单独预训练的组件,例如将视觉编码器连接到 LLM 上并继续进行多模态训练;而在谷歌 Gemin 2.0 推出之后,原生多模态模型(NMM)被认为是正确的方向。

但从零开始训练的多模态大模型真的是更好的方法吗?近日,来自法国索邦大学、苹果的研究者进行了一项广泛的 Scaling Laws 研究,涵盖了 457 个采用不同架构和训练方式的模型。

研究表明,不依赖图像编码器的早融合架构与后融合架构相比并没有固有优势。不过,早融合在较低的参数数量下表现出更强的性能,训练效率更高,并且更易于部署。受早融合架构强大性能的启发,实验表明,结合混合专家 (MoE) 可以使模型学习特定于模态的权重,从而显著提升性能。

论文标题:Scaling Laws for Native Multimodal Models

论文地址:https://arxiv.org/abs/2504.07951

研究人员的发现可以概括如下:原生早融合和后融合模型的性能相当,从零开始训练的早融合模型性能与后融合模型性能相当,在计算预算较低的情况下,略优于早融合模型。此外,对于多模态 Scaling Laws 的研究表明,随着计算预算的增加,早融合和后融合的计算最优模型性能相似。

NMM 的Scaling Law与 LLM 类似:原生多模态模型的 Scaling Law 遵循与纯文本 LLM 类似的规律,scaling 指数根据目标数据类型和训练组合略有不同。

与此同时,后融合的模型需要更多参数:与早融合相比,计算最优的后融合模型需要更高的参数与数据比(见图 1 右)。

再往下,稀疏性显著有利于早融合的 NMM:在相同的推理成本下,稀疏 NMM 与密集 NMM 相比表现出显著的改进。

在稀疏性训练中,它们会隐式学习特定于模态的权重(图 23)。此外,随着计算预算的增长,计算优化模型更多地依赖于训练 token 数量的扩展,而不是活动参数的数量(图 1 右)。

对于稀疏 NMM,模态无关路由优于模态感知路由:使用模态无关路由训练稀疏混合专家模型,其性能始终优于使用模态感知路由的模型(图 11)。

原生多模态模型的 scaling 属性

下面具体展示原生多模态模型的 Scaling Laws。该团队研究了多种架构选择、不同的数据混合方式、早融合和后融合 NMM 之间的实际权衡、NMM 的原生预训练和持续预训练的性能表现。

NMM 的 Scaling Laws

早融合和后融合模型的 Scaling Laws。

图 2 左图展示了早融合 NMM 在多模态交织数据集、图像 - 描述数据集和文本数据集上的平均最终损失。其最低损失边界遵循与 FLOPs 的幂律关系。拟合该幂律可得出表达式 L ∝ C^−0.049,这指示了随着计算量的增加,性能提升的速率。

拟合该幂律可得出表达式 L ∝ C^−0.049,这指示了随着计算量的增加,性能提升的速率。

分析每种数据类型(例如,图像 - 说明、多模态交织的文档、文本)的 Scaling Laws 时,可以观察到指数会发生变化(表 3)。例如,与多模态交织(L ∝ C^−0.046)相比,该模型在图像说明数据(L ∝ C^−0.061)上实现了更高的性能提升。

为了将损失建模为训练 token 数量 D 和模型参数 N 的函数,他们还拟合了以下参数函数,得到了 scaling 指数 α = 0.301 和 β = 0.335。它们分别描述了 scaling 模型参数和训练 token 数量时的性能提升率。

该团队假设计算量、N 和 D 之间存在线性关系(即 C ∝ N D),推导出了模型参数与计算预算之间的相关规律,详见原论文附录 C。简单来说,对于给定的计算预算 C,以对数间隔的 D 值计算相应的模型大小 N,并确定使损失最小化的参数数量 N_opt。对不同的 FLOPs 值重复此操作,可得到一个 (C, N_opt) 数据集,该团队对其拟合了一个幂律,可预测计算最优模型大小与计算量的关系:N ∗ ∝ C^0.526。

类似地,他们也拟合了估计计算最优训练数据集大小与计算量和模型大小的关系:

这些关系可让实践者在给定固定计算预算的情况下确定最佳模型和数据集大小。在根据数据类型分析时,该团队发现与图像说明数据 (a = 0.520) 相比,多模态交织数据可从较大的模型 (a = 0.532) 中获益更多,而训练 token 则呈现相反的趋势。

该团队在图 2(右)中对后融合模型进行了类似的研究,并观察到了类似的 scaling 行为。具体而言,损失 scaling 指数 (c = −0.0494) 与早融合 (c = −0.0492) 几乎相同。这一趋势在图 3 中显而易见,在较小的模型规模下,早融合的表现优于后融合,而在较大的模型规模下,两种架构的性能收敛到相似的水平。在改变后融合配置时,该团队也观察到了类似的趋势,例如使用较小的视觉编码器和较大的文本解码器。

NMM 和 LLM 的 Scaling Laws 比较。

通过比较 NMM 的 scaling laws 系数与纯文本 LLM(例如 GPT-3、Chinchilla)的 scaling laws 系数,该团队发现它们处于相似的范围内。

具体来说,如果将损失看作计算量的函数,GPT-3 遵循 L ∝ C^−0.048,而该团队的模型遵循 L ∝ C^−0.049,这表明 NMM 的性能遵循与 LLM 类似的 scaling 规律。同样,该团队对 α 和 β 参数的估计值 (α = 0.301, β = 0.335) 与 Hoffmann 等人报告的值 (α = 0.339, β = 0.285) 非常接近。同样,该团队计算出的 a = 0.526 和 b = 0.473 与 Hoffmann 等人的 a = 0.46 和 b = 0.54 非常接近。

这表明:对于原生多模态模型,训练 token 的数量和模型参数应按比例 scaling。然而,由于 a 和 b 之间的差距小于 LLM,因此这一原则对于 NMM 更为适用。此外,由于在该团队的案例中 a = 0.526 大于 b = 0.473,因此在计算预算固定的情况下,NMM 的最佳模型大小大于 LLM,而最佳训练 token 数量则较低。

早融合与后融合 NMM 的计算优化权衡。

虽然后融合和早融合模型的损失会随着 FLOP 的增加以相似的速率降低,但该团队观察到它们的计算优化模型中存在明显的权衡。具体而言,后融合模型的 N_opt 较大,而早融合模型的 D_opt 较大。这表明,在计算预算固定的情况下,后融合模型需要更多参数,而早融合模型则受益于更多训练 token。

早融合的训练效率更高。

该团队比较了后融合和早融合架构的训练效率。如图 5 所示,在相同的计算预算下,早融合模型消耗的内存更少,训练速度更快。随着计算量的增加,这一优势更加明显,这表明:早融合在保持与后融合相当的大规模性能的同时,拥有卓越的训练效率。

值得注意的是,在相同的 FLOPs 下,与早融合模型相比,后融合模型具有更高的参数数量和更高的有效深度(即除了解码器层之外还增加了额外的视觉编码器层)。

不同数据混合方式的 Scaling Laws

图 4 展示了不同的混合方式都遵循相似的 scaling 趋势;然而,scaling 系数会有差别(表 4)。有趣的是,增加图像 - 说明数据的比例(mixtures 1 和 2)会导致 a 降低、b 升高,而增加多模态交织数据和文本数据的比例(mixtures 3 和 4)则会产生相反的效果。

值得注意的是,图像说明数据包含的图像 token 比文本 token 多;因此,增加其比例会导致图像 token 增多,而增加多模态交织数据和文本数据的比例会增加文本 token 的数量。这表明,当图像 token 占主导地位时,训练时间越长,损失的降低速度就越快,而增加模型大小则更快。

该团队还发现,对于固定的模型大小,增加纯文本和多模态交织数据的比例有利于早融合(图 6)。

原生多模态预训练 vs. LLM 的持续训练

下面比较这两种情况:从零开始进行原生训练,以及使用预训练的 LLM 进行初始化后再进行持续训练。

这里使用的初始模型是 DCLM-1B,该模型已使用超过 2T 个 token 进行训练。图 8 表明,当训练时间更长时,原生多模态模型可以缩小与初始化模型的差距。

具体而言,在图像说明数据上,该模型需要不到 100B 个多模态 token 即可达到相当的性能。然而,在多模态交织数据和文本数据上,该模型可能需要更长时间的训练 —— 可多达 1T 个 token。考虑到预训练的成本,这些结果表明,为了在多模态基准测试中实现相同性能,原生训练可能是更有效方法。

迈向多模态专业化

研究证明了在固定计算预算下,早融合模型的性能与后融合模型相当。然而,多模态数据本质上是异构的,训练一个统一的模型来拟合如此多样化的分布可能并非最优方案。

因此研究人员主张在统一架构内进行多模态特化。理想情况下,模型应该隐式地适应每种模态,例如,通过学习特定于模态的权重或专门的专家。多模态模型 + MoE 是一个有潜力的方向,MoE 已在 LLM 中证明了其有效性。

研究观察了不同数量活动参数、不同数量 token 训练的模型,比较了稀疏 MoE 模型和密集 MoE 模型。图 9 显示,在相同的推理成本(或活动参数数量)下,MoE 的性能显著优于密集模型。有趣的是,这种性能差距在模型规模较小时更为明显。这表明 MoE 能够使模型更有效地处理异构数据,并专注于不同的模态。然而,随着密集模型规模变得足够大,两种架构之间的差距会逐渐缩小。

先前关于大模型 Scaling Laws 的研究主要观察验证损失,这种评估与下游任务的表现有很好的相关性。为了验证这一点,研究人员对 LLaVA 混合模型进行了多模态指令调整阶段 (SFT),并报告了其在多个 VQA 和字幕任务中的准确率和 CIDEr 得分。表 7 证实了不同模型配置的排名。

具体而言,早融合优于后融合,而多模态 MoE 优于密集模型。然而,由于这些模型规模相对较小(15 亿规模)、从零开始训练,并在小型数据集上进行微调,因此总体得分低于目前的 SOTA 水平。

更多细节可参看论文原文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法媒:再夺欧冠为巴黎带来巨大经济效益,市值已超过40亿欧元

法媒:再夺欧冠为巴黎带来巨大经济效益,市值已超过40亿欧元

懂球帝
2026-06-02 17:38:52
印度拟购114架“阵风”战机,军方称必要时准备“辛杜尔行动2.0”

印度拟购114架“阵风”战机,军方称必要时准备“辛杜尔行动2.0”

澎湃新闻
2026-06-02 19:30:33
1949年,渡江战役若晚20天开战,中国可能被推入分裂深渊

1949年,渡江战役若晚20天开战,中国可能被推入分裂深渊

鹤羽说个事
2026-05-29 22:59:33
女技师漂亮,打赏她300块小费,小伙被拘留

女技师漂亮,打赏她300块小费,小伙被拘留

阿振观点
2026-06-02 08:59:32
哪一瞬间让你觉得没文化真可怕?网友:上海交大毕业后是当交警的

哪一瞬间让你觉得没文化真可怕?网友:上海交大毕业后是当交警的

另子维爱读史
2026-06-02 10:54:14
38岁刘亦菲接连被爆料,和陈晓彭冠英交往细节流出,关系藏不住了

38岁刘亦菲接连被爆料,和陈晓彭冠英交往细节流出,关系藏不住了

舍长阿爷谈事
2026-06-01 23:56:25
赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

花哥扒娱乐
2026-05-22 20:17:55
北京北控管理层大震荡,张庆鹏连累总经理一块下课,刘家成入职

北京北控管理层大震荡,张庆鹏连累总经理一块下课,刘家成入职

阿嵀体育评论
2026-06-03 00:20:19
调查发现:血管最怕的早餐,油条排第6,第1名很多人天天都在吃

调查发现:血管最怕的早餐,油条排第6,第1名很多人天天都在吃

健康之光
2026-06-02 21:50:03
微信将迎史诗级变革?腾讯市值瞬间暴涨4000亿

微信将迎史诗级变革?腾讯市值瞬间暴涨4000亿

说财猫
2026-06-02 22:20:54
李晨郑恺,正式开除跑男

李晨郑恺,正式开除跑男

动物奇奇怪怪
2026-06-02 22:14:39
383453辆!5月销量公布:最可怕的不是卖得多,而是没人能跟上了

383453辆!5月销量公布:最可怕的不是卖得多,而是没人能跟上了

趣味萌宠的日常
2026-06-02 15:38:05
黎晓宏,机床少年的爬升之路

黎晓宏,机床少年的爬升之路

城市局
2026-06-02 21:44:56
瞒不住了!尹乃菁突然辞职内幕曝光,根本不是身体原因

瞒不住了!尹乃菁突然辞职内幕曝光,根本不是身体原因

李博世财经
2026-06-01 17:25:18
比赖清德还狂!若2028年她当台湾地区领导人,解放军出手武力统台

比赖清德还狂!若2028年她当台湾地区领导人,解放军出手武力统台

阿讯说天下
2026-05-26 13:40:22
随着世界第7爆冷1-2出局,法网女单半决赛对阵诞生第一组

随着世界第7爆冷1-2出局,法网女单半决赛对阵诞生第一组

侧身凌空斩
2026-06-02 20:36:52
在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

山河路口
2026-06-02 14:04:22
蒋志刚落马被查!曾主编多部经济专著

蒋志刚落马被查!曾主编多部经济专著

科技金融在线
2026-06-02 22:08:41
宝妈“托举”5岁儿子逛山姆后续:她道歉了,但自始至终没有说错

宝妈“托举”5岁儿子逛山姆后续:她道歉了,但自始至终没有说错

李晚书
2026-06-02 18:21:13
3年斩获12个冠军!恩里克和大巴黎续约四年,冲击欧冠三连冠!

3年斩获12个冠军!恩里克和大巴黎续约四年,冲击欧冠三连冠!

海浪星体育
2026-06-02 11:32:20
2026-06-03 03:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13151文章数 142660关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

本地
时尚
手机
数码
公开课

本地新闻

用剪纸的方式,打开江苏扬州

蓝色系下装看着清爽不闷,裤子、裙子都凉快,随便穿都不出错

手机要闻

华为畅享100 Pro Max被曝立项:代号叶问,真的要打十个了!

数码要闻

苹果watchOS 27前瞻:改进心率追踪、引入新表盘、升级Siri

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版