网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

苹果多模态模型大升级！文本密集、多图理解，全能小钢炮

2024-10-13 12:26:15　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：alan

【新智元导读】近日，一向画风精致的「苹果牌AI」，也推出了升级版的多模态大模型，从1B到30B参数，涵盖密集和专家混合模型，密集文本、多图理解，多项能力大提升。

多模态大语言模型（MLLM）如今已是大势所趋。

过去的一年中，闭源阵营的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引领了时代。

而开源MLLM也同样在蓬勃发展，LLaVA系列，InternVL2，Cambrian-1和Qwen2-VL的强劲表现，让作为老大哥的GPT-4o时常躺枪。

开源与闭源之间差距缩小，兼具单图、多图、视频理解能力的MLLM也成为大家研究的重点。

说到潮流，怎么能没有苹果的一席之地？

近日，一向画风精致的「苹果牌AI」，也推出了升级版的多模态大模型——MM1.5。

论文地址：https://arxiv.org/pdf/2409.20566

MM1.5以前代MM1模型为基础，采用数据为中心的方法进行训练，显著增强了文本密集型图像理解、视觉指代和定位、以及多图像推理的能力。

MM1.5系列的参数量从1B到30B，涵盖密集和专家混合（MoE）模型，即使较小的尺寸也有优异的表现。

具体来说，MM1.5提升了OCR（光学字符识别）能力，支持任意图像长宽比和高达4M像素的分辨率，并且擅长理解富含文本的图像。

在强大而细粒度的图像理解能力加持下，MM1.5能够超越文本提示来解释视觉内容，例如点和边界框。

研究人员还通过对额外的高质量多图像数据进行监督微调（SFT），进一步提高了模型的上下文学习和开箱即用的多图像推理能力。

本文作者重点关注两种小规模的MLLM，包括1B和3B的密集模型与MoE模型，其中小尺寸的密集模型可以轻松部署在移动设备上。

「小模型」也符合苹果一贯的作风，在自家的各种设备上，能够更好地与用户场景（如隐私和安全性）融为一体。

之前微软和苹果的很多实践也证明了，利用高质量数据和先进的训练策略，小个子的模型在各种下游任务中同样表现强劲，足以超越大尺寸的模型。

当然了，光是小还不够，通用性更为重要。

MM1.5系列模型在30B参数的范围之内，都能很好地符合缩放定律，模型越大，性能越强。

另一方面，研究人员以MM1.5为基础，微调出服务于视频理解的MM1.5-Video，以及为移动UI（比如iPhone屏幕）理解定制的MM1.5-UI。

模型构建

MM1.5保留了与MM1相同的模型架构，并将改进的努力集中在以下几个关键方面：

持续的预训练

作者在SFT阶段之前引入了一个额外的高分辨率连续预训练阶段，这对于提高富含文本的图像理解性能至关重要。

作者探索了用于持续预训练的富含文本的OCR数据，重点关注图像中文本的详细转录，还尝试了高质量的合成图像字幕。

SFT

混合中的每一类SFT数据如何影响最终模型的性能？特别是支持每种功能的数据对其他功能有何影响，作者对此进行了广泛的消融实验。

动态高分辨率

对于高分辨率图像编码，作者遵循流行的任意分辨率方法，将图像动态划分为子图像，并进行彻底的消融以细化设计中的关键细节。

为了保留前代模型的零样本和少样本学习能力，并更有效地将它们转移到SFT阶段，在开发MM1.5时，研究人员通过探索纯文本数据的影响，并优化不同预训练数据类型的比例，来进一步扩展MM1的预训练。

这种方法提高了知识密集型基准测试的性能，并增强了模型整体的多模态理解能力。

如上图所示，模型训练包含三个阶段：

(i) 使用低分辨率图像 (378×378) 进行大规模预训练； (ii) 使用高分辨率（高达4M像素）OCR数据和合成字幕进行持续预训练； (iii) 监督微调（SFT）。

在每个阶段，都需要确定最佳数据组合并评估每种数据类型的影响。

消融实验设置

在消融研究中遵循以下默认设置：

静态图像分割通过4个子图像分割（加上一个概览图像）来实现，并且每个子图像通过位置嵌入插值调整为672×672分辨率。为了加快实验迭代速度，在消融过程中没有使用动态图像分割。

对于多图像数据的编码，仅当当前训练样本包含少于三幅图像时才启用图像分割，以避免序列长度过长。

如下图所示，模型可以以引用坐标和边界框的形式，解释对输入图像中的点和区域的引用。

MM1.5采用与前代相同的CLIP图像编码器和LLM主干网络，并以C-Abstractor作为视觉语言连接器。

对于连续预训练和SFT，作者将批量大小设置为256。使用AdaFactor优化器，峰值学习率为1e-5，余弦衰减为0。对于连续预训练，最多训练30k步。在SFT期间，所有模型都针对一个epoch进行优化。

模型使用MM1的预训练检查点进行初始化。这个阶段对45M高分辨率OCR数据（包括PDFA、IDL、Renderedtext和DocStruct-4M）进行持续的预训练，每个训练批次从这四个数据集中均匀采样数据。

与SFT阶段类似，作者使用静态图像分割，将每个图像分为五个子图像，每个子图像的大小调整为672×672分辨率。作者发现这种高分辨率设置对于持续预训练至关重要。

最后，将数据集分组有助于数据平衡和简化分析。在较高层面上，作者根据每个示例中呈现的图像数量将数据集分为单图像、多图像和纯文本类别，详细的分类情况如下图所示：

研究人员根据主要衡量的功能将基准分为几类，并提出类别平均分数（每个子类别的所有基准数字的平均分数），以代表该功能的平均性能。

SFT消融

然后是对于SFT数据混合的全面消融。作者首先评估一般数据类别，然后逐步评估单独添加其他子类别的影响。

在训练过程中，作者混合来自不同子类别的数据，通过从混合物中随机采样数据来构建每个训练批次，并使用类别平均得分来比较使用每种功能的模型，结果如下图所示。

作者观察到，添加富含文本的数据可以显著提高文本密集型和知识基准的性能，数学数据也遵循类似的趋势。

以一般数据类别为参考，对目标类别数据进行上采样/下采样，使得在每个训练批次中，一般数据类别和目标类别的数据比例为1：α。

为了衡量α的平均影响，作者提出MMBase分数用于模型比较。如下图所示，作者针对不同的数据类别改变α。对于科学、数学和代码类别，作者发现α的最佳比率分别为0.1、0.5和0.2。

下一项需要探究的是单图像、多图像和纯文本数据的混合比例。

枚举三个比率之间的所有组合将产生大量的计算成本。因此，作者分别对纯文本数据和多图像数据进行消融，以评估模型对比例的敏感程度。

对于纯文本数据，作者测试了0到0.2的范围，下图结果表明，不同的w值对模型的基础影响较小。

通过图7（右）还可以观察到，增加多图像数据的采样率会导致基本功能的性能下降（MMBase分数减少），而多图像平均分数会增加。所以作者选择w= 0.1为单图像数据分配更高的权重，以提高潜在的性能。

基于上述研究，作者提出了三种混合：基础混合、单图像混合、全混合。

下图前三列表明，包含参考数据和多图像数据会稍微降低密集文本、知识和一般基准的平均性能。

最后一栏表明，作者优化的组合实现了最佳的整体性能，平衡了基准测试中的所有功能。

最后，放几张跑分对比，包括Text-rich、In Context Learning和Multi-image：

参考资料：

https://arxiv.org/pdf/2409.20566

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

机器之心Pro 2024-11-19 15:50:17
2 跟贴 2
你还说这是AI？我们体验了一波生成亚洲人最好看的文生图大模型

机器之心Pro 2024-12-30 10:34:05
1 跟贴 1

字节AI版小李子一开口：黄风岭，八百里

量子位 2024-09-13 22:49:29
0 跟贴 0

中国AI的进步之快，让美国人开始怀疑现实了

钛媒体APP 2024-12-28 16:28:54
357 跟贴 357
全球首个！稚晖君开源百万级机器人数据集，比谷歌规模高10倍

智东西 2024-12-30 15:09:03
48 跟贴 48

算力直降97%，GPT-3存储只用20MB？！这篇新论文火了

量子位 2024-12-29 12:11:42
9 跟贴 9

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

量子位 2024-09-08 13:27:35
80 跟贴 80
第一个100%开源的MoE大模型，7B的参数，1B的推理成本

机器之心Pro 2024-09-05 10:30:36
0 跟贴 0

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

机器之心Pro 2024-09-03 14:38:55
59 跟贴 59
研究：苹果、谷歌、三星等智能手表表带中含高浓度有毒化学物质

IT之家 2024-12-29 09:47:03
2001 跟贴 2001
苹果还是应该造汽车

爱范儿 2024-09-18 18:32:22
0 跟贴 0
问界车主都用什么手机？华为占比近6成苹果2成，小米也有！

科技松鼠 2024-12-30 16:22:54
3 跟贴 3
小伙在垃圾堆捡到一部苹果手机，翻新修复后竟然跟新一模一样

影看 2024-12-29 17:47:11
1 跟贴 1
iPhone 16：苹果拉了一坨大的，又臭又馊

雷科技 2024-10-14 21:04:36
0 跟贴 0
苹果不能随便吃？什么时间吃最好？医生提醒：“3类人”最好少吃

小文谈谈 2024-12-28 05:37:00
0 跟贴 0
苹果电脑丝滑玩悟空，实测有效！ Mac也能直面天命，手把手教你解锁. 只要你的电脑符合M2、内存8G

爱范儿 2024-08-23 20:17:49
40 跟贴 40
苹果Siri升级订阅制引热议

雷科技 2024-08-09 19:39:09
0 跟贴 0
战场上为何禁止使用苹果手机

美食陈仔 2024-12-30 14:05:59
0 跟贴 0
女子徒手没掰开苹果，在手上随便一“画”苹果掰开了

青岛广播 2024-12-29 19:35:56
1 跟贴 1
女生给同学掰苹果，网友：其实能掰开苹果挺厉害的

河海观潮 2024-12-29 21:14:49
0 跟贴 0
苹果微软特斯拉，最大股东都是它！

华商韬略 2024-11-27 18:03:46
0 跟贴 0
湖人篮网官宣5换2交易达成！全新首发助力詹眉魔术师狂赞佩林卡

罗说NBA 2024-12-30 06:14:42
3435 跟贴 3435
出门没拔苹果充电器，家里被烧光！女子“废墟”中淡定拍照打卡

重庆观天下 2024-12-29 16:43:47
0 跟贴 0
果里果气是假，挖苹果墙角是真｜OPPO Find X8

雷科技 2024-10-30 22:44:51
0 跟贴 0
颜值即正义！带着高尔夫打卡我的沪上时光

Autolab 2024-12-27 21:12:40
58 跟贴 58
本以为是黑白模型手机没想到还能打电话！

青岛文艺 2024-12-29 16:06:33
0 跟贴 0
坏了！苹果真有生产力了：我用3500块的Mac mini跑了这些大模型

量子位 2024-12-03 15:39:55
0 跟贴 0
4分险胜！勇士险胜谁是关键？数据告诉你答案，终于等到你了！

易说篮球 2024-12-29 13:09:40
6 跟贴 6
苹果在做人形机器人，碰撞减少63%

量子位 2024-12-30 18:47:32
0 跟贴 0
新娘子双手插兜，网友：新娘子是不是太小了

动态新闻 2024-12-30 18:57:12
2542 跟贴 2542
第二个“阿萨德”现身？坐标还是中东，俄罗斯的选择很重要！

掷低有声 2024-12-30 12:57:58
0 跟贴 0
足坛悲喜1夜：利物浦5-0屠杀曼城6场首胜米兰4轮1胜尤文叕平局

风过乡 2024-12-30 06:09:31
537 跟贴 537
餐饮店老板们的奇葩揽客方式主打一个提供情绪价值

橙薪视频 2024-12-30 16:53:47
2186 跟贴 2186
女生的苹果手机出现故障，整个操作都得反着来

青观察 2024-12-30 18:45:30
0 跟贴 0
苹果手机怎么看内存空间

互通小助手 2024-12-30 10:35:12
0 跟贴 0
089五年级易错题题目不难学生却经常出错这个模型要牢记

我服子佩 2024-12-29 10:35:54
2 跟贴 2
ChatGPT拒绝谈论这个人，没人知道为什么

量子位 2024-12-02 13:07:36
523 跟贴 523
浙江2015年理科状元郑恩柏长篇小说《蛮与痴》出版！“这本书的内容和制作，几十年后将仍然具有生命力”

辅导员娘亲 2024-12-29 11:46:33
0 跟贴 0
大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

机器之心Pro 2024-08-16 17:22:16
1 跟贴 1
几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

机器之心Pro 2024-09-04 22:17:21
0 跟贴 0

最新！昆明地铁运营时间将调整！

最新！昆明地铁运营时间将调整！

掌上春城

2024-12-30 12:38:55

何时能破！约克雷斯62球锁定年度射手王，梅西91球纪录已保持12年

何时能破！约克雷斯62球锁定年度射手王，梅西91球纪录已保持12年

直播吧

2024-12-30 08:59:07

4800万，重签湖人！被伤病毁了生涯，佩林卡下一个放弃的或将是你

4800万，重签湖人！被伤病毁了生涯，佩林卡下一个放弃的或将是你

呆哥聊球

2024-12-30 21:40:11

马步芳骑兵来袭，我军营长命人持日本刀顶前排，敲响马家军的丧钟

马步芳骑兵来袭，我军营长命人持日本刀顶前排，敲响马家军的丧钟

我是玲玲

2024-12-06 15:50:07

赵露思后续治疗面临难题，30多种危险曝光，工作室证实病情严重！

赵露思后续治疗面临难题，30多种危险曝光，工作室证实病情严重！

古希腊掌管月桂的神

2024-12-30 11:30:36

1963年罗荣桓病危，拉着妻子的手嘱咐说：我走以后，房子别再住了

1963年罗荣桓病危，拉着妻子的手嘱咐说：我走以后，房子别再住了

东哥讲历史1

2024-12-30 08:41:56

重磅！央行历史首次！

财经三分钟pro

2024-12-30 17:58:13

看上海申花主帅斯卢茨基访谈或许会明白曹赟定为何不被重用

看上海申花主帅斯卢茨基访谈或许会明白曹赟定为何不被重用

小彭美识

2024-12-30 15:59:29

两岸统一为什么迫在眉睫？再晚了台湾就新加坡化了，等不及了

两岸统一为什么迫在眉睫？再晚了台湾就新加坡化了，等不及了

无根树花正孤

2024-12-28 22:20:14

实话实说，这才是人美身材好！在刘湘面前，吴柳芳瞬间不香了。

实话实说，这才是人美身材好！在刘湘面前，吴柳芳瞬间不香了。

人情皆文史

2024-11-30 14:20:52

年薪K联赛第一！韩媒：林加德年薪18.2亿韩元，约等于在曼联1/10

年薪K联赛第一！韩媒：林加德年薪18.2亿韩元，约等于在曼联1/10

直播吧

2024-12-30 22:58:12

生三胎奖21万、生四胎奖23万，生娃奖房子，这里正式打响第一枪！

生三胎奖21万、生四胎奖23万，生娃奖房子，这里正式打响第一枪！

阅微札记

2024-12-20 14:10:03

给2024年最好的8部国剧排名：《玫瑰的故事》仅第8，第1名没争议

给2024年最好的8部国剧排名：《玫瑰的故事》仅第8，第1名没争议

阿矗论古今

2024-12-26 10:53:31

2024年最令人失望10部国剧：《清明上河图密码》第8，第1名没争议

2024年最令人失望10部国剧：《清明上河图密码》第8，第1名没争议

皮皮电影

2024-12-30 11:24:48

平鑫涛密友透露不为人知的真相，深度还原琼瑶平鑫涛二人感情生活

平鑫涛密友透露不为人知的真相，深度还原琼瑶平鑫涛二人感情生活

浩哥爱聊天

2024-12-29 02:14:38

外行看热闹，一般人看不懂，侯耀华为啥帮杨议，其实心里另有打算

外行看热闹，一般人看不懂，侯耀华为啥帮杨议，其实心里另有打算

阿凫爱吐槽

2024-12-30 16:46:42

100架战机抵达基辅，俄900燃烧弹空降，国际机场爆炸，88架炸毁

100架战机抵达基辅，俄900燃烧弹空降，国际机场爆炸，88架炸毁

听风者说

2024-12-30 22:00:34

嗯哼具像化谈家的味道，霍思燕踢腿示意反应太搞笑，幸福一家人

嗯哼具像化谈家的味道，霍思燕踢腿示意反应太搞笑，幸福一家人

美食阿鳕

2024-12-30 21:22:48

被前任折磨10年，为导演流产2次，富豪5个亿“买断”她终生幸福

被前任折磨10年，为导演流产2次，富豪5个亿“买断”她终生幸福

简读视觉

2024-12-30 22:45:02

免疫力低下的几种表现，有些人很明显了但不当回事，要当心大毛病

免疫力低下的几种表现，有些人很明显了但不当回事，要当心大毛病

呼吸科大夫胡洋

2024-12-17 07:21:57

AI产业主平台领航智能+时代

11939文章数 65748关注度

往期回顾全部

科技要闻

千万年薪！雷军挖来“AI天才少女”

头条要闻

美参议员：特朗普巴拿马言论动摇美国“可信度”

头条要闻

美参议员：特朗普巴拿马言论动摇美国“可信度”

体育要闻

湖人拿到"电风扇" 西部有意思了

娱乐要闻

放飞自我？阿娇演出胖成“阿爆”

财经要闻

新股民激战2024股市！

汽车要闻

阿维塔陈卓谈2025年规划阿维塔06明年上市

态度原创

艺术

教育

手机

家居

亲子

艺术要闻

故宫珍藏的墨迹《十七帖》，比拓本更精良，这才是地道的魏晋写法

教育要闻

【地理试题】 2024重庆地理卷、2024北京地理卷官方答案

手机要闻

华为新机突然官宣：麒麟8000A+RYYB主摄，千元机也很疯狂！

家居要闻

轻奢极简空间有序合理

亲子要闻

小朋友拿玩具枪打自己，被打到后直接倒下

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版