网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

首个多模态视频竞技场Video-MME来了！Gemini全面超越GPT-4o，Jeff Dean连转三次

2024-06-28 13:41:01　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：alan 好困

【新智元导读】近日，首个多模态LLM视频分析综合评估基准Video-MME诞生！在这场全新的考试中，Gemini 1.5 Pro一路遥遥领先，谷歌首席科学家Jeff Dean更是愉快地连续转了3次推。

大模型性能哪家强？GPT-4一家常霸榜。

基准测试全擅长，竞技场上见真章。

不过近日，谷歌的Gemini终于扬眉吐气了一把，在全新的、更复杂的多模态考试中大获全胜，全面超越了GPT-4o。

Jeff Dean表示：已阅，很赞。

这就是来自中科大，厦大，港大，北大，港中文和华师大的研究者联合奉献的，世界上首个多模态LLM视频分析综合评估基准——Video-MME。

论文地址：https://arxiv.org/pdf/2405.21075

项目地址：https://video-mme.github.io/

在前往AGI的道路上，多模态大语言模型（MLLM）显然成为当前的焦点。

不久前出世的GPT-4o，就在多模态的表现上技惊四座；同时，偏爱谷歌「双子座」的网友也不在少数。

不过之前的相关基准测试，主要关注LLM在静态图像理解方面的能力。

而对于现实世界来说，处理连续视觉数据，也就是视频的能力，是至关重要的。

Video-MME是有史以来第一个为视频分析精心设计的，综合多模态基准测试，帮助我们全面评估MLLM捕捉现实世界动态性质的能力。

Video-MME涵盖了广泛的视觉域、时长和数据模式，包括900个视频，总时长256小时，还人工注释了2700个高质量的问答对（多项选择题，每个视频3个）。

下图是其中一个例子：

准确回答该问题需要同时从视频帧、字幕or语音中同时获取信息，并且信息直接的跨度达30分钟

在时间维度上，Video-MME中收集了各种不同时长的视频。

包括短视频（< 2分钟）、中视频（4分钟~15分钟）和长视频（30分钟~60分钟），总体时长从11秒到1小时不等。

从视频类型多样性来看，Video-MME跨越了6个主要视觉领域：知识、影视、体育比赛、生活记录和多语言，包含有30个子领域，以确保广泛的场景泛化性。

在数据模式的广度上，Video-MME整合了视频帧以外的多模态输入，包括字幕和音频，以评估MLLM的全方位能力。

此外，Video-MME中所有数据都是由人类新收集和标注，而不是来自任何现有的视频数据集，以确保数据的多样性和质量。

研究人员使用Video-MME，对各种最先进的MLLM进行了基准测试，包括GPT-4V、GPT4o和Gemini 1.5 Pro，以及开源图像模型InternVL-Chat-V1.5和视频模型LLaVA-NeXT-Video等。

实验表明，Gemini 1.5 Pro是目前性能最高的商用MLLM，平均准确率为75%，GPT系列的最好成绩是GPT-4o的71.9%。

相比之心，开源MLLM仍有巨大差距，表现最好的VILA-1.5以及LLaVA-NeXT-Video的总体准确率分别只有59和52%，开源社区还有相当大的提升空间。

此外，通过将输入扩展到多帧图像，Video-MME也可用来评估基于图像的MLLM，例如Qwen-VL-Max和InternVL-Chat-V1.5。

两种模型的准确度均达到51%左右，接近视频专用模型LLaVA-NeXT-Video，这表明图像理解是视频理解的基础，所以Video-MME在MLLM评估领域具有广泛的适用性。

下面，换个视角，看看这些MLLM在不同任务类型下的表现：

——Gemini 1.5 Pro 最终还是压制住了 GPT-4o!

我们再把Gemini 1.5 Pro单独拉出来开个小灶，详细给出不同视频时长和不同视频类型下的评估结果：

通过对上表的进一步观察，我们还可以发现，整合字幕和音频可以显著增强LLM的视频理解能力。

Gemini 1.5 Pro在加入字幕和音频之后，准确度分别提高了6.2%和4.3%，长视频则更为明显。

对任务类型的细粒度分析表明，字幕和音频对于需要大量领域知识的视频特别有益。

当然了，随着视频长度的增加，MLLM性能普遍下降，所以处理长视频仍然是件困难的事情。

下面给出Gemini 1.5 Pro在不同视频子类型上的评估结果，包括天文学、技术、纪录片、新闻报道、电子竞技、魔术表演和时尚等30个子类别。

Video-MME

数据集构建

Video-MME的数据集构建过程包括视频采集、问答对标注、质量审核三个步骤。

视频采集

为了全面覆盖不同的视频类型，研究人员创建了一个域层次结构，用于从网络上收集原始视频。

首先定义6个关键领域：知识、电影和电视、体育比赛、生活记录和多语言。

每个领域进一步划分为详细的标签，例如体育比赛包含足球和篮球，从而产生总共30个细粒度的视频类。

对于每个类型，收集不同持续时间的视频：短视频（少于2分钟）、中视频（4-15分钟）和长视频（30-60分钟）。

此外，还会获取相应的元信息，例如字幕和音频，用于进一步研究。最终的数据集由900个视频组成，这些视频跨越各个领域，持续时间长度相对平衡。

问答标注

在收集原始视频数据后，研究者对以问答对的形式对其进行注释，以评估MLLM在解释视频内容方面的熟练程度。

这里采用多项选择题的QA格式，参与标注的作者都精通英语，在视觉语言学习方面具有丰富的研究经验。

标注者通过反复观看视频来提出3个相关的问题，每个问题有4个潜在选项。这2700个QA对包含12种任务类型，比如感知、推理和信息概要。

质量审核

为了保证数据集的质量，作者还进行了严格的人工审查流程。

首先，指派不同的标注者来检查每个QA对，确保语言表达正确且明确，以及问题可回答（候选选项和正确选项都是合理的）。

此外，为了确保问题足够具有挑战性，要求多模态模型看了视频才能回答，研究人员向Gemini 1.5 Pro提供了纯文本问题，并过滤掉可以仅根据文本问题回答的QA对。

最后，Gemini 1.5 Pro在仅使用文本提问的情况下，准确率低于 15%。

数据集统计

视频和元信息

Video-MME总共包含900个视频、713个字幕和869个音频文件。

从任务类型的分布来看，较短的视频主要涉及与感知相关的任务，例如动作和物体识别。相比之下，较长的视频主要以与时间推理相关的任务为特色。从下表中可以看到，Video-MME的有效时长（Certificate Length准确回答问题所需的时间跨度）非常长，表明了其挑战性。

问答数据

关于问题和答案的语言多样性，下表列出了数据集中文本字段的平均字数。

问题、选项和答案的字数在不同视频长度上显示出显著的一致性，这表明Video-MME中的QA对风格一致。

另一方面，字幕的字数随着视频长度的增加而显着增加，短视频的平均字数为198.6，而长视频子集的字数高达6.5K。这一趋势表明，较长的视频包含的信息更多。

此外，问题对应的正确答案选项（A/B/C/D）的分布接近均匀（25.2%/27.2%/25.2%/22.3%），确保了无偏的评估。

参考资料：

https://x.com/_TobiasLee/status/1801984539470012554

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

微软是如何重新崛起的？

钛媒体APP 2024-06-20 08:40:14
105 跟贴 105
让用户吃石头，给披萨涂胶水，Google AI 搜索疯了吗

爱范儿 2024-05-27 23:58:14
0 跟贴 0

巨头雄霸天下，微软、谷歌、Meta、亚马逊能一直无敌吗？

钛媒体APP 2024-01-13 11:35:24
111 跟贴 111

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

机器之心Pro 2024-06-28 18:29:44
1 跟贴 1
击败Gemini-1.5-Pro、GPT-4V，从容大模型多模态能力跻身全球前三

机器之心Pro 2024-06-28 18:49:50
10 跟贴 10

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

新智元 2024-06-30 13:01:57
104 跟贴 104

GPT-4 更强的标志，原来藏在了 logo 里

爱范儿 2024-02-20 17:25:29
0 跟贴 0
鹅厂造了个AI翻译公司：专攻网络小说，真人和GPT-4看了都说好

量子位 2024-05-25 15:40:12
12 跟贴 12

GPT-4找到我女朋友的过敏原

量子位 2024-01-09 13:34:53
1419 跟贴 1419
1991年苏联绝密文件曝光，曾策划富士山计划，或将日本从地图抹去

老刘讲的好 2024-06-29 17:25:45
5 跟贴 5
二汪能回来，据说是汪小菲父亲出马，担保搞定的，有音频

摘星说娱乐呀 2024-06-29 16:18:45
12 跟贴 12
【全程字幕】＂你才混蛋＂史上最狂美国总统大选辩论!

AI次世代 2024-06-28 23:04:20
0 跟贴 0
当心太空中的“间谍之眼”

国家安全部 2024-06-30 09:42:16
45943 跟贴 45943
亲自打造的农家小院初具模型，大叔喜笑颜开，梦想之家即将呈现

俩大学生下乡记 2024-06-29 10:54:10
0 跟贴 0
向“当代义和团”宣战，平台责无旁贷

独角鲸工作坊 2024-06-30 11:47:49
32907 跟贴 32907
惩“独”文件公布，美国沉默四天后放话：不许落实，中方回应来了

兵说 2024-06-28 10:14:47
0 跟贴 0
俄军基地卫星图像AI 分析数据出炉，俄军坦克即将耗尽

夜相思 2024-06-30 16:00:53
18 跟贴 18
菲方一夜间反口，中方拿出126年前文件，给菲领土范围画了条红线

梧桐树戏凤凰 2024-06-29 18:02:10
0 跟贴 0
三口之家11天水表跑了375吨自来水公司:系因表后漏水

新闻晨报 2024-06-30 08:03:41
31076 跟贴 31076
牛弹琴：感受到战争脚步的临近菲友华人士在北京哭了

上观新闻 2024-06-30 08:17:36
22072 跟贴 22072
朱德元帅之孙犯下大错，死刑文件无人敢批，康克清只说了九个字

深度历史说 2024-06-26 16:43:17
0 跟贴 0
4亿美元重金悬赏，导弹总师携机密文件叛国，当局下令追杀叛逃者

嘻嘻在南京5w9j 2024-06-29 09:04:35
1 跟贴 1
搞笑东北配音3436：三高两部联合发布惩台独文件？拜登心塞，哈哈

史小燕与季大浪 2024-06-26 15:12:55
0 跟贴 0
乌克兰麻烦来了，朝鲜4个旅2万大军开赴前线，战斗素质极强

云端书馆 2024-06-30 07:25:10
14060 跟贴 14060
连续开车1千公里身体反应怎么样？看了数据，我真不信有这种人！

明哥调侃车 2024-06-27 14:52:39
0 跟贴 0
郭正亮谈到：普京访华时，可能已把俄乌战场绝密数据，拷给了北京

西斋青简 2024-06-29 13:42:12
4 跟贴 4
由鄂尔多斯王建平案引发的思考

思想部落 2024-06-30 21:31:32
0 跟贴 0
如果你觉得祖国不好，请不要去抱怨，真正的公民应该是去改变它

雪莉故事汇 2024-06-30 08:00:06
15357 跟贴 15357
不分割成token，直接从字节中高效学习，Mamba原来还能这样用

机器之心Pro 2024-02-04 17:15:05
4 跟贴 4
20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

量子位 2024-01-18 15:38:06
71 跟贴 71
魔兽世界：国服首日普查数据，两大鬼服双双登顶，吉安娜要凉了？

胖哥游戏说 2024-06-28 10:17:28
299 跟贴 299
网球王子丨激战开始！真正的数据网球！

欧克看动漫 2024-06-27 15:21:24
6 跟贴 6
带着胎膜出生的宝宝，主打QQ弹弹，一看就是假模型！

田七生活 2024-06-28 08:16:49
0 跟贴 0
欧洲杯-德国2-0丹麦进8强三球被吹雷暴天气加戏

网易体育 2024-06-30 05:19:46
5679 跟贴 5679
卡梅伦接"乌前总统"电话上头条：谈俄乌问题怒斥美国

上观新闻 2024-06-29 20:01:49
5974 跟贴 5974
全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
0 跟贴 0
对话“学霸”单小龙：也曾自卑，希望“工地搬砖收到清华录取通知书”的标签能被遗忘

红星新闻 2024-06-30 12:44:28
4842 跟贴 4842
从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

量子位 2024-05-21 09:51:02
1 跟贴 1
大疆前高管带6人创业，做出了类目Top1的割草机器人

钛媒体APP 2024-05-30 14:49:18
107 跟贴 107
王鹤滨陪毛主席吃饭，汪东兴批评：和主席吃饭，不要老是埋头苦干

历史龙元阁 2024-06-28 16:24:07
7 跟贴 7

单位里，凡是40岁以上的中年人，没资源没背景，请停止做3件事

单位里，凡是40岁以上的中年人，没资源没背景，请停止做3件事

时尚的弄潮

2024-06-25 07:36:00

上海最新通报！多名公职人员被查

上海最新通报！多名公职人员被查

上观新闻

2024-06-29 12:10:22

黯然出局！2届美洲杯冠军得主智利1球未进，止步小组赛！

黯然出局！2届美洲杯冠军得主智利1球未进，止步小组赛！

直播吧

2024-06-30 10:09:18

离开老詹7年了！一个冠军没混到，还少拿1亿美金，这个状元后悔吗

离开老詹7年了！一个冠军没混到，还少拿1亿美金，这个状元后悔吗

球毛鬼胎

2024-06-25 13:27:36

受强降雨影响安徽全省累计受灾人口81.1万人

受强降雨影响安徽全省累计受灾人口81.1万人

财联社

2024-06-30 22:02:08

宋祖儿彻底凉透了？工作室已经解散！网友可惜，直言她长得漂亮！

宋祖儿彻底凉透了？工作室已经解散！网友可惜，直言她长得漂亮！

西瓜爱娱娱

2024-06-27 10:31:06

姜萍事件闹大了，决赛选手6道题做了1道，39名选手发联名信质疑！

姜萍事件闹大了，决赛选手6道题做了1道，39名选手发联名信质疑！

鬼菜生活

2024-06-27 22:21:58

121名医务人员集体无偿献血2.71万毫升

121名医务人员集体无偿献血2.71万毫升

南方都市报

2024-06-30 11:30:11

倒闭2.9万家！昔日街头“霸主”，正被年轻人抛弃

倒闭2.9万家！昔日街头“霸主”，正被年轻人抛弃

品牌营销官

2024-06-29 00:52:10

最大悲哀是国民都不开口、不说话对于一切都无所谓，心死的社会

最大悲哀是国民都不开口、不说话对于一切都无所谓，心死的社会

雪莉故事汇

2024-06-23 07:06:47

还没上映就差评一片！电影《红楼梦》刘姥姥惹争议，一点不像穷人

还没上映就差评一片！电影《红楼梦》刘姥姥惹争议，一点不像穷人

萌神木木

2024-06-29 21:01:56

免签！7月1日生效！

东阳日报

2024-06-30 14:34:33

大陆考察团抵达台岛，台当局回应卢沙野大使讲话，“台独”跳脚了

大陆考察团抵达台岛，台当局回应卢沙野大使讲话，“台独”跳脚了

说天说地说实事

2024-06-30 14:35:57

男性160-190cm标准体重对照表，可能自己并不胖，不用减肥

男性160-190cm标准体重对照表，可能自己并不胖，不用减肥

增肌减脂

2024-06-20 16:28:01

男子患癌拒绝化疗，从肺癌晚期到肿瘤消失，他怎么做到的？

男子患癌拒绝化疗，从肺癌晚期到肿瘤消失，他怎么做到的？

丹宝说文史

2023-07-08 15:53:29

0-2！争冠大热门轰然倒下！国安逼近前三，泰山争三都没希望了

0-2！争冠大热门轰然倒下！国安逼近前三，泰山争三都没希望了

体育世界

2024-07-01 00:13:01

外媒：泽连斯基称将在今年准备好“全面计划”，以说明如何结束俄乌冲突

外媒：泽连斯基称将在今年准备好“全面计划”，以说明如何结束俄乌冲突

环球网资讯

2024-06-29 10:21:37

瑞士人体摄影师的作品，由内而外散发的味道！

瑞士人体摄影师的作品，由内而外散发的味道！

国际艺术大观

2024-07-01 00:06:43

高人预测，在这样搞下去，农村80%要完蛋

高人预测，在这样搞下去，农村80%要完蛋

爱下厨的阿椅

2024-06-20 13:09:58

特朗普说出大实话，若当选，将从“先俄后中”变成“联俄抗中”

特朗普说出大实话，若当选，将从“先俄后中”变成“联俄抗中”

环球Talk

2024-06-30 23:48:33

AI产业主平台领航智能+时代

11216文章数 65541关注度

往期回顾全部

科技要闻

河南火箭坠落爆炸？商业航天公司回应了

头条要闻

英格兰本届首次落后施兰茨3球登顶射手榜

头条要闻

英格兰本届首次落后施兰茨3球登顶射手榜

体育要闻

“意大利很弱”，不再是错觉了

娱乐要闻

白玉兰明星反应精彩胡歌获奖唐嫣激动

财经要闻

A股上半年人均亏损1.2万你亏了多少？

汽车要闻

小鹏MONA M03 7月3日首发 15万紧凑级

态度原创

时尚

房产

数码

旅游

艺术

本周最美的是姜妍的体态！

房产要闻

20亿！又有国企要卖海南资产！

数码要闻

回应小米空调第一不实后！董明珠：不是我刻意要当网红格力的产品深入人心

旅游要闻

突发！上海出发豪华邮轮，男子翻越栏杆后落海

艺术要闻

穿越时空的艺术：《马可·波罗》AI沉浸影片探索人类文明

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版