网易首页 > 网易号 > 正文 申请入驻

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

0
分享至


新智元报道

编辑:alan

【新智元导读】以开源极客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。

作为欧洲的OpenAI,Mistral最近压力不小。

端侧小模型端不出来,对比评测的结果又遭到质疑。

上个月震撼登场的自家首款多模态大模型Pixtral 12B,也疑似遇到了成绩不如人的窘境。


不过世间纷扰,留待时间之中去见分晓。

毕竟Mistral AI当年也是以开源极客之姿杀入江湖的,以后的以后,圈内人总会想起有个一言不合就甩出磁力链的公司吧。

按照惯例,在9月份甩出多模态Pixtral 12B的开源链接之后,Mistral会在一段时间后放出技术报告。

我们来看一下Mistral家的第一个MMLM有什么新花样。


论文地址:https://arxiv.org/abs/2410.07073

开源代码:https://github.com/mistralai

首先,许多开源模型一般有个问题,就是为了多模态的性能而牺牲了本身的自然语言性能,之前英伟达的NVLM 1.0也谈到了这点。

Pixtral本次也是成功避开了这个缺陷,单单比较文本模型的性能,也在同等尺寸的模型中居于前列。


另一点与大多数模型不同的是,Pixtral选择从头开始训练了一个全新的视觉编码器。

基于此,Pixtral 12B输入图片的分辨率和长宽比不受任何限制,并且在128K的上下文窗口范围内,想放多少张图片都行!


从论文的测试结果来看,Pixtral 12B明显优于其他类似大小的开源模型(比如Llama-3.2 11B和Qwen-2-VL 7B),

甚至在一些评测中,表现比Meta家的多模态老大哥Llama-3.2 90B还要好。


最后,与开源模型一起,Mistral还贡献了一个开源基准测试MM-MT-Bench,用于在实际场景中评估视觉语言模型。

技术细节

当前的多模态大模型基本上都是:模态编码器 + 投影模块 + 大语言模型主干。

如果需要多模态输出,后面还会对称地拼接投影层和各种解码器。

所以,在模型结构方面,我们可以分部分来看Pixtral都做了哪些工作。

模型结构

Pixtral 12B整体为Transformer架构,在大规模交错图像和文本文档上进行了预训练,具备多轮、多图像对话的能力。

多模态解码器

Pixtral的大语言模型主干选择了自家的Mistral Nemo 12B,decoder-only架构。


内部维度14336,层数40,32个头分为4组(GQA),词表大小131072。

视觉编码器

视觉编码器部分是随Pixtral 12B一起新鲜出炉的PixtralViT。

顾名思义,采用ViT架构打底,4亿参数量。同时为了能够处理各种分辨率和纵横比的图像,作者对标准架构进行了四项关键更改:

Break tokens:为了帮助模型区分具有相同patch数量(相同区域)但纵横比不同的图像,需要在图像行之间加入[IMAGE BREAK],在图像序列的末尾加上[IMAGE END]。 FFN中的门控:在隐藏层中使用门控,而非注意力块中的标准前馈层。 序列打包:为了在单个批次中有效地处理图像,作者沿序列维度将图像展平并连接起来,并构建了一个块对角掩码,以确保来自不同图像的patch之间没有注意力泄漏。 RoPE-2D:在自注意层中用相对旋转位置编码代替传统的绝对位置嵌入。虽然必须对学习到的位置嵌入进行插值以处理新的图像大小(通常以牺牲性能为代价),但相对位置编码自然而然地适合可变的图像大小。


RoPE-2D的变换可以表示为:


这样的设计可以自然地以原始纵横比适应高分辨率和低分辨率图像,从而显著提高多模态任务的性能。

相比之下,传统的编码器一般就是针对ImageNet训练的,分辨率为224 × 224或336 × 336。

当应用到多模态语言模型(需要灵活执行标准分类任务,或者光学字符识别等任务)时,通常会将图像分解成更小的方块,然后再独立地将图块馈送到视觉编码器。

完整架构

Pixtral的视觉编码器通过两层全连接网络连接到多模态解码器(LLM)。MLP层维度不变,用于将视觉编码器的输出转换为解码器所需的输入嵌入大小,激活函数为GeLU。


多模态解码器对图像token的处理方式与文本token相同,包括所有token的RoPE-1D位置编码。解码器使用了因果自注意力机制,能够平滑地促进多图像对话等能力。

MM-MT-Bench

大多数现有的多模态基准测试,衡量的是模型在给定输入图像的情况下执行某种形式的多项选择问答的能力。

这种能力有用,但还不够。

大模型说到底是给人用的,比如有多模态能力的小助手或者聊天机器人。

在纯文本领域,MT-Bench可以很好衡量这种性能,它采用独立LLM裁判根据参考答案对模型的输出进行评分。


本文中,研究人员构建并发布了一个名为多模态MT-Bench(MM-MT-Bench)的新基准测试,风格与纯文本的MT-Bench类似,以评估指令调整的多模态模型的性能。

MM-MT-Bench总共包含92个对话(单回合对话69个,2回合对话18个,3回合对话4个,4回合对话1个),涵盖了广泛的实际使用案例,包括五类图像:图表、表格、PDF页面 、示意图和杂项。


为了评估模型,研究人员在对话的所有轮次中并行查询模型,为过去的轮次提供参考答案作为历史记录。裁判会独立对每个回合进行评分,并提供整个对话历史记录。

评分依据正确性(提取的信息是否正确)和完整性(标准答案是否涵盖了参考文献中提出的所有要点)以1到10的等级为对话进行评分。


MM-MT-Bench旨在模拟视觉语言模型的实际使用,用于提取、总结和推理图像内容。

作者手动整理了图像、提示和答案,并验证了标签编写者的答案,确保所有提示都需要参考图像输入才能正确回答。

实验测试结果表明,MM-MT-Bench的性能与LMSys Vision排行榜上的ELO排名高度相关。

实验结果

在评估Pixtral和基线的过程中,作者发现多模态模型的评估协议没有标准化,设置中的微小变化可能会极大地改变某些模型的性能(比如要求模型生成与参考答案完全匹配时,6.0和6就可能是不同的)。


为了缓解这个问题,作者建议使用「Explicit」提示来明确指定参考答案所需的格式。

多模态性能


上表显示,在多模态基准测试中,Pixtral的性能大大优于所有同尺寸的开源模型,以及Claude-3 Haiku和Gemini-1.5 Flash 8B等闭源模型。

值得注意的是,Pixtral在针对实际用例的MM-MT-Bench上的表现优于所有同等尺寸的模型,而在LMSys Vision排行榜上,Pixtral 12B的性能接近最大的开源模型,Qwen2-VL 72B和Llama-3.2 90B。

不过,由于「Explicit」提示的原因,一些开源模型的性能远低于其报告的数字,这主要是由于模型没有遵循答案格式说明(例如,生成「The answer is 6.」而不是「Final answer:6」)。

为了与这些模型进行透明的比较,下面使用更宽松的指标进一步评估。


语言性能


上表展示了在常见的纯文本基准测试(使用常见的提示和评估协议)中,Pixtral 12B与同等大小开源模型的比较结果。Pixtral没有为了追求多模态功能而牺牲文本理解,可以作为文本和视觉任务的通用模型。

参考资料:

https://arxiv.org/abs/2410.07073

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
探访阿富汗喀布尔大学孔子学院

探访阿富汗喀布尔大学孔子学院

新华社
2024-11-18 14:56:49
费高云率团访问新西兰、澳大利亚

费高云率团访问新西兰、澳大利亚

中安在线
2024-11-19 10:30:01
吉林一高校拟推“女生应主动微笑点头”礼仪规范,校方回应:只是倡导,并非强制执行

吉林一高校拟推“女生应主动微笑点头”礼仪规范,校方回应:只是倡导,并非强制执行

上游新闻
2024-11-19 13:38:13
扎哈罗娃:俄方的反击将“绝不手软”

扎哈罗娃:俄方的反击将“绝不手软”

参考消息
2024-11-19 11:18:15
50万解放军武力统一台湾,马英九:朝鲜战争让台湾有了喘息机会

50万解放军武力统一台湾,马英九:朝鲜战争让台湾有了喘息机会

正观历史
2024-11-18 18:45:02
最新研究发现真相:一个简单改变,可延长寿命11年!

最新研究发现真相:一个简单改变,可延长寿命11年!

徐德文科学频道
2024-11-17 20:23:36
外媒发长文称:《黑神话》不配TGA年度最佳提名

外媒发长文称:《黑神话》不配TGA年度最佳提名

3DM游戏
2024-11-19 10:35:05
终于可以痛快杀敌!泽连斯基指示军队使用西方远程武器攻击俄罗斯

终于可以痛快杀敌!泽连斯基指示军队使用西方远程武器攻击俄罗斯

一种观点
2024-11-18 07:49:22
金鸡奖这一夜,不尊重刘德华礼节的陈凯歌,不再被网友宽容了

金鸡奖这一夜,不尊重刘德华礼节的陈凯歌,不再被网友宽容了

喵喵娱乐团
2024-11-18 17:07:15
文强之子现状

文强之子现状

我是娱有理
2024-11-19 06:34:43
“挖呀挖”女幼师家中抑郁,觉得自己活不下去了,出现自残倾向

“挖呀挖”女幼师家中抑郁,觉得自己活不下去了,出现自残倾向

大头博士记
2024-11-16 16:55:03
特朗普正式敲定内阁名单,对华释放重要信号,一场大风暴或将来临

特朗普正式敲定内阁名单,对华释放重要信号,一场大风暴或将来临

兵说
2024-11-18 16:15:35
黑龙江省人民检察院原副检察长闫世斌被开除党籍

黑龙江省人民检察院原副检察长闫世斌被开除党籍

新京报
2024-11-19 16:47:08
吹牛老爹与赛琳娜独处72小时,12秒视频曝光引风暴,网友脑洞大开

吹牛老爹与赛琳娜独处72小时,12秒视频曝光引风暴,网友脑洞大开

南城无双
2024-11-18 00:30:02
南北方的差异果然大,南方的孩子在外面绝对不会随意和生人唠嗑。

南北方的差异果然大,南方的孩子在外面绝对不会随意和生人唠嗑。

有趣的火烈鸟
2024-11-19 12:27:25
第一场雪要来!山东再迎强冷空气,大风+降温+雨雪

第一场雪要来!山东再迎强冷空气,大风+降温+雨雪

鲁中晨报
2024-11-19 14:16:05
92年我帮邻村寡妇家耕田,她留我吃了晚饭,说还有一块田需要我耕

92年我帮邻村寡妇家耕田,她留我吃了晚饭,说还有一块田需要我耕

书中自有颜如玉
2024-11-19 12:33:30
河南各地网友在线“求雪”,未来几天或再迎降雪

河南各地网友在线“求雪”,未来几天或再迎降雪

鲁中晨报
2024-11-19 15:32:10
手机战争基本结束,华为手机销量平平,雷军确实没有骗人!

手机战争基本结束,华为手机销量平平,雷军确实没有骗人!

一个有灵魂的作者
2024-11-18 10:54:56
定了!广州火车站将恢复初代设计

定了!广州火车站将恢复初代设计

美食阿鳕
2024-11-19 13:51:57
2024-11-19 17:36:49
新智元
新智元
AI产业主平台领航智能+时代
11762文章数 65671关注度
往期回顾 全部

科技要闻

美国限制下,阿里字节到硅谷抢AI人才

头条要闻

80后继母成杉杉股份董事长 公司50亿元股权冻结待解

头条要闻

80后继母成杉杉股份董事长 公司50亿元股权冻结待解

体育要闻

15胜0负的骑士,真的在模仿勇士

娱乐要闻

没做错事的黄晓明为什么公开道歉

财经要闻

上海楼市,冬天里的一把火!

汽车要闻

后排够大 智能化提升 全新探岳L是你的菜么?

态度原创

健康
亲子
家居
公开课
军事航空

花18万治疗阿尔茨海默病,值不值?

亲子要闻

姐姐喂弟弟吃饭,最后的动作亮了,

家居要闻

纯白极简 现代简约

公开课

一块玻璃,如何改变人类世界?

军事要闻

印度首枚高超导弹有些与众不同

无障碍浏览 进入关怀版