网易首页 > 网易号 > 正文 申请入驻

赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了

0
分享至

机器之心报道

机器之心编辑部

去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4 非常相似的推理结果。10 月,LLaVA-1.5 重磅发布,通过对原始 LLaVA 的简单修改,在 11 个基准上刷新了 SOTA。

现在,研究团队宣布推出 LLaVA-1.6,主要改进了模型在推理、OCR 和世界知识方面的性能。LLaVA-1.6 甚至在多项基准测试中超越了 Gemini Pro。

  • demo 地址:https://llava.hliu.cc/
  • 项目地址:https://github.com/haotian-liu/LLaVA

与 LLaVA-1.5 相比,LLaVA-1.6 有如下几个改进:

  • 将输入图像分辨率提升 4 倍,支持三种宽高比,最高可达 672x672、336x1344、1344x336 分辨率。这使得 LLaVA-1.6 能够掌握更多的视觉细节。
  • 通过改进的视觉指令调整数据混合,LLaVA-1.6 获得了更好的视觉推理和 OCR 能力。
  • 更好的视觉对话,更多场景,覆盖不同应用。LLaVA-1.6 掌握了更多世界知识,具备更好的逻辑推理能力。
  • 使用 SGLang 进行高效部署和推理。

图源:https://twitter.com/imhaotian/status/1752621754273472927

LLaVA-1.6 保持了 LLaVA-1.5 的极简设计和数据效率,它复用了 LLaVA-1.5 的预训练连接器,并且仍然使用不到 1M 的视觉指令调优样本。最大的 34B 模型使用 32 个 A100 在大约 1 天内完成了训练。LLaVA-1.6 使用 130 万个数据样本,计算 / 训练数据成本约为其他方法的 100-1000 分之一。

与 CogVLM 或 Yi-VL 等开源 LMM 相比,LLaVA-1.6 实现了 SOTA 性能。与商用产品相比,LLaVA-1.6 在选定的基准测试中可以媲美 Gemini Pro,并且优于 Qwen-VL-Plus。

值得一提的是,LLaVA-1.6 展现出强大的零样本(zero-shot)中文能力,它在多模态基准 MMBench-CN 上取得了 SOTA 性能。

方法改进

动态高分辨率

研究团队以高分辨率设计 LLaVA-1.6 模型,旨在保持其数据效率。当提供高分辨率图像和保留细节的表征时,模型感知图像中复杂细节的能力会显著提高。它减少了面对低分辨率图像时的模型幻觉,即猜测想象的视觉内容。

数据混合

高质量的用户指令数据。该研究对高质量视觉指令遵循数据的定义取决于两个主要标准:首先,任务指令的多样性,确保充分代表现实场景中可能遇到的广泛用户意图,特别是在模型部署阶段。其次,响应的优先级至关重要,旨在征求有利的用户反馈。

因此,该研究考虑了两个数据源:

现有的 GPT-V 数据 (LAION-GPT-V 和 ShareGPT-4V);

为了进一步促进更多场景下更好的视觉对话,研究团队收集了一个涵盖不同应用的小型 15K 视觉指令调优数据集,仔细过滤了可能存在隐私问题或可能有害的样本,并使用 GPT-4V 生成响应。

多模态文档 / 图表数据。(1) 从训练数据中删除 TextCap,因为研究团队意识到 TextCap 使用与 TextVQA 相同的训练图像集。这使得研究团队能够在评估 TextVQA 时更好地了解模型的零样本 OCR 能力。为了保持并进一步提高模型的 OCR 能力,该研究用 DocVQA 和 SynDog-EN 替换了 TextCap。(2) 借助 Qwen-VL-7B-Chat,该研究进一步添加了 ChartQA、DVQA 和 AI2D,以更好地理解图和图表。

研究团队还表示除了 Vicuna-1.5(7B 和 13B),还考虑采用更多 LLM 方案,包括 Mistral-7B 和 Nous-Hermes-2-Yi-34B,以使 LLaVA 能够支持更广泛的用户和更多的场景。

参考链接:https://llava-vl.github.io/blog/2024-01-30-llava-1-6/返回

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1949年,60万国军败退台湾,国民党高层为安抚溃兵,出了三个昏招

1949年,60万国军败退台湾,国民党高层为安抚溃兵,出了三个昏招

饭小妹说历史
2026-05-17 08:55:40
尼克斯铁闸连训3天冲刺复出!东决首战或成X因素,61.9%命中率暗藏杀机

尼克斯铁闸连训3天冲刺复出!东决首战或成X因素,61.9%命中率暗藏杀机

慢享生活集
2026-05-19 01:56:32
马斯克这次访华,万万没想到,居然把联想CEO杨元庆带火了!

马斯克这次访华,万万没想到,居然把联想CEO杨元庆带火了!

趣味萌宠的日常
2026-05-17 22:00:06
张怡宁不再沉默!公开回应退役真相,她和刘国梁一样!

张怡宁不再沉默!公开回应退役真相,她和刘国梁一样!

吃青菜长高
2026-05-19 05:50:07
女子200万买下废弃四合院,当晚院中槐树一夜开花,道士网友:快跑

女子200万买下废弃四合院,当晚院中槐树一夜开花,道士网友:快跑

古怪奇谈录
2025-08-05 15:36:06
花探唐先生们作品里面的女生空姐和学生缘何占大多数?

花探唐先生们作品里面的女生空姐和学生缘何占大多数?

挪威森林
2026-05-16 13:12:22
人老了,只剩一个人的时候,千万要记住:1、不要再找老伴儿…

人老了,只剩一个人的时候,千万要记住:1、不要再找老伴儿…

富书
2026-04-30 23:20:06
释永信“开光”真相大白,过程不堪入目,易中天也被牵连

释永信“开光”真相大白,过程不堪入目,易中天也被牵连

往史过眼云烟
2026-03-24 17:05:24
曼联即将敲定卡塞米罗盛赞的球星续约,协议已达成

曼联即将敲定卡塞米罗盛赞的球星续约,协议已达成

绿茵情报局
2026-05-18 17:50:12
男人永远不懂,女人最馋的其实是这两个字,一给就上瘾,赖你一辈子

男人永远不懂,女人最馋的其实是这两个字,一给就上瘾,赖你一辈子

心理观察局
2026-05-19 07:17:16
人类灭亡大局已定?科学家算出人类灭绝的日期,人类准备好了吗?

人类灭亡大局已定?科学家算出人类灭绝的日期,人类准备好了吗?

安逸安逸
2026-04-02 17:48:28
19岁男生骑摩托被杀案一审宣判,凶手被判死刑,死者父亲:儿子离家仅200米被陌生人拦下杀害,其称长期失眠,被吵到想报复骑车人

19岁男生骑摩托被杀案一审宣判,凶手被判死刑,死者父亲:儿子离家仅200米被陌生人拦下杀害,其称长期失眠,被吵到想报复骑车人

大风新闻
2026-05-18 19:26:31
毛主席83岁给华国锋的珍贵书法,练字真的有意义吗?

毛主席83岁给华国锋的珍贵书法,练字真的有意义吗?

书画相约
2026-05-11 10:09:02
砸下127.16亿!湖南南北大动脉即将脱胎换骨

砸下127.16亿!湖南南北大动脉即将脱胎换骨

奇思妙想生活家
2026-05-19 01:44:41
特朗普:将推迟攻击伊朗

特朗普:将推迟攻击伊朗

环球网资讯
2026-05-19 06:08:09
樊振东输球仅1天,炸出一堆“牛鬼蛇神”,原来刘国梁早已看透

樊振东输球仅1天,炸出一堆“牛鬼蛇神”,原来刘国梁早已看透

草莓信箱
2026-05-19 02:39:05
什么时候让你意识到这就是命,考公四次落榜,随便报个东大就中了

什么时候让你意识到这就是命,考公四次落榜,随便报个东大就中了

夜深爱杂谈
2026-05-11 07:41:40
我妈安排相亲,见面后对方一直玩手机,国安局却发来消息:跟他走

我妈安排相亲,见面后对方一直玩手机,国安局却发来消息:跟他走

兰姐说故事
2025-11-02 10:10:03
顶级乌龙!《拳皇》界的GOAT竟然忘记报名《拳皇》比赛了...

顶级乌龙!《拳皇》界的GOAT竟然忘记报名《拳皇》比赛了...

五星体育
2026-05-17 21:41:47
造神毁神,一场集体上瘾的血色狂欢

造神毁神,一场集体上瘾的血色狂欢

浪子说
2026-05-18 09:21:56
2026-05-19 07:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13027文章数 142651关注度
往期回顾 全部

科技要闻

苹果WWDC26定档6月9日凌晨:iOS27将亮相

头条要闻

特朗普推迟打击但拒让步 伊朗最高领袖再提开辟新战线

头条要闻

特朗普推迟打击但拒让步 伊朗最高领袖再提开辟新战线

体育要闻

58顺位的保罗,最强第三中锋

娱乐要闻

票房会破14亿!口碑第一电影出现了

财经要闻

中国芯片,怎么突然不便宜了?

汽车要闻

40.98万起!充电5分钟纯电续航420km 腾势N9闪充版胜算有多少?

态度原创

教育
本地
房产
艺术
健康

教育要闻

帅得被质疑是AI!男生已保研同济大学,当事人:长相普通

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

突发!海口重磅调规!碧桂园要解套;新埠岛要起飞了!

艺术要闻

民进党忽然公开国民党领袖日记,舆论哗然!

专家揭秘干细胞回输的安全风险

无障碍浏览 进入关怀版