网易首页 > 网易号 > 正文 申请入驻

算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变AI专家

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

BlueLM-V-3B 是一款由 vivo AI 研究院与香港中文大学联合研发的端侧多模态模型。该模型现已完成对天玑 9300 和 9400 芯片的初步适配,未来将逐步推出手机端应用,为用户带来更智能、更便捷的体验。

近年来,多模态大语言模型(MLLM)的迅猛发展,为我们的日常生活带来了无限可能。手机作为我们形影不离的「智能伴侣」,无疑是 MLLM 最理想的落地平台。它能够将强大的 AI 能力,无缝融入我们的日常任务,让科技真正服务于生活。

然而,要将 MLLM 部署到手机上,并非易事。内存大小和计算能力的限制,就像两座大山,横亘在 MLLM 与手机之间。未经优化的模型,难以在手机上实现流畅、实时的处理,更遑论为用户带来良好的体验。



  • 论文地址:https://arxiv.org/abs/2411.10640

为了攻克这一难题,vivo AI 全球研究院和香港中文大学多媒体实验室共同推出了 BlueLM-V-3B。这是一款专为移动平台量身打造的 MLLM,采用了算法与系统协同设计的创新理念,重新设计了主流 MLLM 的动态分辨率方案,并针对手机硬件特性进行了深度系统优化,从而实现了在手机上高效、流畅地运行 MLLM。

BlueLM-V-3B 具有以下几个显著特点:

算法与系统协同优化

研究团队分析了经典 MLLM 使用的动态分辨率方案,发现了图像过度放大的问题,并提出了针对性的解决方案。

此外,他们还针对硬件感知部署进行了一系列系统设计和优化,使 MLLM 在移动设备上能够更高效地进行推理,充分发挥硬件潜力。

卓越的模型性能

BlueLM-V-3B 在性能上表现出色,在参数规模相似的模型中达到了 SOTA 水平(例如,在 OpenCompass 基准测试中取得了 66.1 的高分)。

更令人惊喜的是,BlueLM-V-3B 甚至超越了一系列参数规模更大的 MLLM(例如,MiniCPM-V-2.6、InternVL2-8B),展现了其强大的实力。

高效的移动端部署

BlueLM-V-3B 在移动端部署方面同样表现优异。以联发科天玑 9300 处理器为例,其内存需求仅为 2.2GB,能够在约 2.1 秒内完成对 768×1536 分辨率图像的编码,并实现 24.4token/s 的 token 输出速度。

这意味着,用户可以在手机上享受到流畅、高效的 MLLM 体验,而无需担心算力瓶颈。



BlueLM-V-3B 设计思路

模型主体结构

BlueLM-V-3B 延续了传统的 LLaVA 架构,包括视觉编码器 SigLIP-400M,MLP 线性映射层,以及大语言模型 BlueLM-3B。

为了更好地处理高分辨率图片,和主流 MLLM 一样,BlueLM-V-3B 采用了动态分辨率方案,并针对 InternVL 1.5 和 LLaVA-NeXT 中存在的图像过度放大问题进行了改进。

此外,为了应对手机 NPU 在处理长输入 token 时的性能限制,BlueLM-V-3B 还引入了 token 降采样的方案,以确保模型在移动设备上的顺利部署。



动态分辨率

  • 算法改进:

为了提升多模态模型应对高分辨率图片的能力,主流的 MLLM 往往采用动态分辨率的方案进行图片的放缩和裁切。该团队发现主流动态分辨率方案,如 LLaVA-NeXT 和 InternVL 1.5 往往伴随图片过度放大。



传统的动态分辨率方案往往会选择一个分辨率(如 384x384)作为基准尺寸,并选择合适的长宽比对图像进行缩放。

对于 LLaVA-NeXT,给定一个分辨率为 394×390 的图像,它会选择 2:2 的图片比例,然后将原始图像调整并填充至 768×768(放大 4 倍)。

对于 InternVL1.5,给定一个分辨率为 380×76 的图像,它会选择 5:1 的比例,直接将原始图像调整至 1920×384(放大 25 倍)。

这种放大并不一定丰富了图像信息,但会导致更多的图像切块,从而增加图像 token 的数量,增加移动设备上的部署难度。

鉴于此,BlueLM-V-3B 基于 LLaVA-NeXT 设计了一种宽松的长宽比选择算法,综合考虑了放缩后图片的有效信息分辨率以及浪费的空间,有效提高了图片信息的利用率,减少了部署时的图片 token 长度,降低图片的处理延时。



  • 硬件感知的系统设计

图像并行编码:经过动态分辨率处理后,图像被分为多个局部切块以及一张全局缩略图切块。为了加速部署推理,BlueLM-V-3B 采用并行策略来利用 NPU 的计算能力。

与高级语言(例如 Python)不同,硬件加速设计需要对计算资源进行底层控制,例如内存布局和基于寄存器大小的计算优化。

由于 NPU 的计算能力有限,所有图片切块无法同时有效处理;相反,BlueLM-V-3B 一次处理固定数量的切块,以获得并行处理和硬件性能的平衡。



流水线并行处理:在模型推理过程中,BlueLM-V-3B 实现了流水线并行方案,以优化图像切块的编码效率。

具体而言,对于从单个图像中提取的不同切块,BlueLM-V-3B 为 SigLIP 视觉嵌入模块的 Conv2D 层和 ViT 层设计了流水线并行方案。这种方法有效地隐藏了 Conv2D 操作的执行延迟,提升了整体处理速度。



Token 降采样

  • 基础算法:

虽然 BlueLM-V-3B 设计了一种宽松的长宽比选择算法来降低部署过程中图片 token 的数量,但动态分辨率带来的图片 token 数量依然很多。

为此,BlueLM-V-3B 采用了 VILA 提出的 token 数量下采样方案,将每 2×2 个图像 token 合并为一个 token,并采用一个线性层做信息融合,降低了部署难度。

  • 系统设计:

分块计算输入 token:在 LLM 推理过程中,传统 GPU 通过并行计算技术同时处理所有输入 token 以加速计算。然而,由于图像 token 长度较长、上下文信息复杂以及 NPU 计算能力有限,导致并行处理效率低下。逐个 token 的顺序处理也不是最佳选择。

因此,BlueLM-V-3B 在移动设备上采用了分块策略,每次迭代并行处理 128 个输入 token(t128),然后合并结果,以在并行处理与 NPU 计算资源之间实现平衡。

模型量化和总体推理框架

  • 模型量化:

混合参数精度:BlueLM-V-3B 通过混合精度量化降低内存使用并提升推理速度。权重方面,SigLIP 和 MLP 线性映射层采用 INT8 精度,LLM 则使用 INT4 精度,平衡了计算效率与模型精度。

由于激活值对量化更敏感,LLM 的激活使用 INT16 精度,SigLIP 及映射层的激活则使用 FP16,以确保模型性能。推理过程中,KV 缓存采用 INT8 精度存储。

  • 解耦图像编码与指令处理:

为了提高部署效率,BlueLM-V-3B 将图像处理与用户输入解耦。在模型初始化时,ViT 和 LLM 模型同时加载到内存中。用户上传图像时,由于 MLLM 在本地部署,上传几乎没有延迟。图像上传后,ViT 立即开始处理,用户可以同时输入指令;对于音频指令,BlueLM-V-3B 会先将其转换为文本。

图像处理完成后,用户的命令提交给 LLM 生成响应,ViT 可以从内存中释放。这种并行处理减少了第一个 token 生成的等待时间,提高了响应速度,并将 BlueLM-V-3B 的峰值内存使用限制在 2.2GB。



BlueLM-V-3B 的训练过程

训练流程

BlueLM-V-3B 从 BlueLM-3B 语言模型开始分两个阶段进行训练。在第一阶段,预训练线性映射层,同时保持 ViT 和 LLM 冻结。在第二阶段,使用大量的图像 - 文本对对模型进行全面微调。

训练数据

  • 第一阶段:

第一阶段旨在赋予模型基本的多模态能力。在这一阶段,该团队利用开源数据集,创建了一个由 250 万条图像 - 文本对组成的综合预训练数据集,这些数据集来自 LLaVA、ShareGPT4V 和 ALLaVA。

  • 第二阶段:

在这一阶段,研究团队精心构建了一个包含 6亿+ 条图像 - 文本对的数据集,其中包括开源数据集和内部数据集。该数据集涵盖了各种下游任务和多样化的数据类型,如图像描述、视觉问答、文本图片识别和纯文本数据。

除了开源数据集,他们还加入了大量内部数据以增强模型的能力。比如,从各种网站上爬取了大量的纯文本数据和图像 - 文本对。对于不同的数据类别,如 PDF、公式、图表、解题数据、多语种数据,团队还手动渲染并创建了大量的图像-文本对,以丰富训练数据的多样性。

除了进行图像渲染外,研究团队还使用 GPT-4o 和 Gemini Pro 构造和修改图片描述及视觉问答对。开源与专有数据的结合显著提升了模型的能力,使其能从多样化的示例中学习,并在多种任务和模态上提升性能。

实验结果

宽松的长宽比选择算法

  • 部署效率:

该团队在 LLaVA 665k 训练集上验证了改进方案是否能降低部署成本。为公平对比,他们将 LLaVA-NeXT、InternVL 1.5 和改进方案的最大分块数均设置为 9。

与 LLaVA-NeXT 相比,提出的方法在 2.9 万个样例中选择了更小的长宽比;而在与 InternVL 1.5 的比较中,在 52.3 万个样例中采用了更小的长宽比,在 2.5 万个样例中选择了更大的长宽比。这显著提升了 NPU 上的推理效率。

  • 测评集性能:

研究团队在 MiniCPM-2B 和 BlueLM-3B(均为 2.7B 参数量)两个模型上进行实验,利用 LLaVA 558k 进行第一阶段训练,用 LLaVA 665k 进行第二阶段训练。比较 LLaVA-NeXT、InternVL 1.5 和改进方案在测评集上的性能表现。

由于 3B 模型的学习速度较慢,每个阶段训两轮。该团队统计了在多个常用测评集上的结果。



可以看到新设计的动态分辨率方案不仅降低了部署成本,还提升了测评集上的准确率。

不同测评集上的准确率比较

  • OpenCompass 测评集:

下图展示了全量微调完的 BlueLM-V-3B 模型在 OpenCompass 测评集上的精度表现,并和总参数量小于等于 10B 的模型进行比较。



可以看到,BlueLM-V-3B 模型在 4 个测试项目中取得最高分,并在均分上排名第二。这展示了 BlueLM-V-3B 模型的强劲性能。

  • 文本数据集 / OCR 能力:

下图是 BlueLM-V-3B 与参数量相近的多模态模型在 TextVQA,DocVQA 以及多语种多模态数据集 MTVQA 上的评测结果。



可以看到,在 OCR 相关任务上,BlueLM-V-3B 取得了非常有竞争力的成绩,并在多语言测评中远超主流的多模态模型。

BlueLM-V-3B 部署效率

团队汇报了在搭载天玑 9300 处理器的 vivo X100 手机上的部署结果。

  • 图像并行编码:

实验中,采用了 2:4 的分块方案(对手机屏幕的处理采用 2:4 方案),共有 2x4=8 个局部分块和一个全局分块。该团队测试了同时处理 1 块、2 块、4 块、6 块图像切块的 NPU 处理延时。



可以看到,同时处理 4 个切块的总延时最低,仅为 1.9 秒。

  • 流水线并行处理:

该团队设计了对 SigLIP 模型的 Conv2D 和 ViT 部分在 CPU 和 NPU 上的流水线并行,并测试了 2:4 分块方案下的部署效率。如上文流水线管线所示,可以掩盖 200 毫秒的 Conv2D 的处理延时。

  • 分块计算输入 token:

该团队在 NPU 上采用了一种分块处理策略,每次迭代并行处理 128 个输入 token(t128),以平衡并行处理与 NPU 性能。在此展示并行处理不同数量输入 token 时的 LLM 首词延时:t32、t128、t512 和 t2048。

论文中还列出了输出 token 的生成速度,其中仅显示了 t1 的情况,因为 LLM 在输出时一次处理一个 token。输入 token 长度被固定为 2048,KV 缓存长度被设置为 2048。



可以看到,t128/t1 实现了最低的延迟和最快的生成速度。

  • 和 MiniCPM-V 对比:

该团队对 BlueLM-V-3B 与 MiniCPM-V 论文中提供的统计数据进行了直接比较。MiniCPM-V 论文仅报告了 8B 参数量的 MiniCPM-V 2.5 模型在天玑 9300 芯片的 CPU 上使用 llama.cpp 部署的情况。BlueLM-V-3B 团队使用分辨率为 768×1536 的图像,固定输入 token 长度为 2048,并将 KV 缓存长度设为 2048。



MiniCPM-V 将模型加载时间也计入了延迟。对于 BlueLM-V-3B,在系统初始化阶段,同时加载 ViT 和 LLM 的时间仅为 0.47 秒。结果显示,BlueLM-V-3B 因其较小的参数量和优秀的系统设计,在延迟和 token 吞吐量上更具优势。

总结

在 BlueLM-V-3B 的开发过程中,vivo 和港中文团队在确保良好用户体验的同时,注重算法 - 系统协同设计和硬件感知优化。据实验与统计分析显示,BlueLM-V-3B 在移动设备上表现出色,性能强劲且部署高效。

未来,该团队将继续致力于提升端侧模型的可扩展性,并探索先进算法,持续优化性能与可用性,以适应更多的手机设备。









特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德国称确认两名破坏“北溪”管道的人员

德国称确认两名破坏“北溪”管道的人员

每日经济新闻
2024-12-01 07:21:03
55岁王菲看女儿演唱会,面部浮肿撞脸刘嘉玲,害羞躲镜头不抢风头

55岁王菲看女儿演唱会,面部浮肿撞脸刘嘉玲,害羞躲镜头不抢风头

萌神木木
2024-12-01 12:58:45
广东这条跨海高铁终于即将开工,陆上全长约127公里,总投资549亿

广东这条跨海高铁终于即将开工,陆上全长约127公里,总投资549亿

蜉蝣说
2024-12-01 22:32:09
女首富,死刑!交出800亿,免死!

女首富,死刑!交出800亿,免死!

中国基金报
2024-12-01 08:05:31
正式告别!于汉超发声官宣重要决定,申花俱乐部批准,吴曦送祝福

正式告别!于汉超发声官宣重要决定,申花俱乐部批准,吴曦送祝福

我就爱说足球
2024-12-01 17:26:25
瓜帅掉下神坛,缔造耻辱纪录,被甩开11分,哈兰德灾难级表现

瓜帅掉下神坛,缔造耻辱纪录,被甩开11分,哈兰德灾难级表现

足球狗说
2024-12-02 07:15:34
78岁大爷坦言:住过儿子家和养老院,才明白老了后最好的归宿在哪

78岁大爷坦言:住过儿子家和养老院,才明白老了后最好的归宿在哪

惟来
2024-12-01 07:04:16
鹿晗直播再次破防!瘦了很多还网暴素人,好友高瀚宇曝原因!

鹿晗直播再次破防!瘦了很多还网暴素人,好友高瀚宇曝原因!

古希腊掌管月桂的神
2024-12-01 10:17:39
原来他已去世两年!圈内人曝光死因,早年移居国外,最终客死他乡

原来他已去世两年!圈内人曝光死因,早年移居国外,最终客死他乡

体育官已上任
2024-12-01 08:54:40
Jim博士:昆仑策,一个9万元注册的小微公司

Jim博士:昆仑策,一个9万元注册的小微公司

Jim博士
2024-11-30 11:41:38
生完双胞胎又迎来三胞胎,“95后”妈妈发声!网友热议

生完双胞胎又迎来三胞胎,“95后”妈妈发声!网友热议

鲁中晨报
2024-12-01 10:00:09
管晨辰的回旋镖要打到同公会的女主播了

管晨辰的回旋镖要打到同公会的女主播了

开茶谈
2024-11-30 16:38:15
小杨哥大徒弟“小黄”取消三只羊MCN标签

小杨哥大徒弟“小黄”取消三只羊MCN标签

三言科技
2024-12-01 09:00:15
难返巅峰!33岁J罗枯坐西甲保级队板凳,美洲杯MVP身价500万欧

难返巅峰!33岁J罗枯坐西甲保级队板凳,美洲杯MVP身价500万欧

直播吧
2024-12-01 18:54:19
挪威专家:“很多国家把中国当榜样”

挪威专家:“很多国家把中国当榜样”

参考消息
2024-12-01 09:40:10
大伯住院,堂哥喊大家捐钱,单独叫我给7000,我反问:您出多少?

大伯住院,堂哥喊大家捐钱,单独叫我给7000,我反问:您出多少?

美食阿鳕
2024-12-01 22:23:28
最新!K292次列车已原路折返,晚点列车均已恢复

最新!K292次列车已原路折返,晚点列车均已恢复

大象新闻
2024-12-01 20:28:08
反政府军距离首都150公里,巴沙尔的弟弟发动政变?

反政府军距离首都150公里,巴沙尔的弟弟发动政变?

西楼饮月
2024-12-01 12:49:41
50万解放军武力统一台湾,马英九:朝鲜战争让台湾有了喘息机会

50万解放军武力统一台湾,马英九:朝鲜战争让台湾有了喘息机会

历史龙元阁
2024-12-01 22:07:37
放弃跳水,全红婵13岁弟弟摊牌,官宣最新决定

放弃跳水,全红婵13岁弟弟摊牌,官宣最新决定

懂球社
2024-12-01 12:20:03
2024-12-02 07:43:00
机器之心Pro
机器之心Pro
专业的人工智能媒体
9769文章数 142091关注度
往期回顾 全部

科技要闻

我国首个商业航天发射场首发成功

头条要闻

中企参加CES遭大规模拒签 环球:美国务院需尽快回应

头条要闻

中企参加CES遭大规模拒签 环球:美国务院需尽快回应

体育要闻

勇士四连败,到底是谁的错?

娱乐要闻

黄晓明姥姥去世,祖孙俩手牵手好温馨

财经要闻

400人获刑!诈骗集团后台控制"股票"涨跌

汽车要闻

科技是中国豪车梦的支点 腾势Z9走心试驾体验

态度原创

艺术
本地
房产
健康
公开课

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

房产要闻

一燃再燃!又卖2亿!白鹅潭顶流,引爆全城!

花18万治疗阿尔茨海默病,值不值?

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版