网易首页 > 网易号 > 正文 申请入驻

首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次

0
分享至


新智元报道

编辑:alan 好困

【新智元导读】近日,首个多模态LLM视频分析综合评估基准Video-MME诞生!在这场全新的考试中,Gemini 1.5 Pro一路遥遥领先,谷歌首席科学家Jeff Dean更是愉快地连续转了3次推。

大模型性能哪家强?GPT-4一家常霸榜。

基准测试全擅长,竞技场上见真章。


不过近日,谷歌的Gemini终于扬眉吐气了一把,在全新的、更复杂的多模态考试中大获全胜,全面超越了GPT-4o。

Jeff Dean表示:已阅,很赞。




这就是来自中科大,厦大,港大,北大,港中文和华师大的研究者联合奉献的,世界上首个多模态LLM视频分析综合评估基准——Video-MME。


论文地址:https://arxiv.org/pdf/2405.21075

项目地址:https://video-mme.github.io/

在前往AGI的道路上,多模态大语言模型(MLLM)显然成为当前的焦点。

不久前出世的GPT-4o,就在多模态的表现上技惊四座;同时,偏爱谷歌「双子座」的网友也不在少数。



不过之前的相关基准测试,主要关注LLM在静态图像理解方面的能力。

而对于现实世界来说,处理连续视觉数据,也就是视频的能力,是至关重要的。


Video-MME是有史以来第一个为视频分析精心设计的,综合多模态基准测试,帮助我们全面评估MLLM捕捉现实世界动态性质的能力。

Video-MME涵盖了广泛的视觉域、时长和数据模式,包括900个视频,总时长256小时,还人工注释了2700个高质量的问答对(多项选择题,每个视频3个)。

下图是其中一个例子:

准确回答该问题需要同时从视频帧、字幕or语音中同时获取信息,并且信息直接的跨度达30分钟


在时间维度上,Video-MME中收集了各种不同时长的视频。

包括短视频(< 2分钟)、中视频(4分钟~15分钟)和长视频(30分钟~60分钟),总体时长从11秒到1小时不等。


从视频类型多样性来看,Video-MME跨越了6个主要视觉领域:知识、影视、体育比赛、生活记录和多语言,包含有30个子领域,以确保广泛的场景泛化性。

在数据模式的广度上,Video-MME整合了视频帧以外的多模态输入,包括字幕和音频,以评估MLLM的全方位能力。

此外,Video-MME中所有数据都是由人类新收集和标注,而不是来自任何现有的视频数据集,以确保数据的多样性和质量。

研究人员使用Video-MME,对各种最先进的MLLM进行了基准测试,包括GPT-4V、GPT4o和Gemini 1.5 Pro,以及开源图像模型InternVL-Chat-V1.5和视频模型LLaVA-NeXT-Video等。


实验表明,Gemini 1.5 Pro是目前性能最高的商用MLLM,平均准确率为75%,GPT系列的最好成绩是GPT-4o的71.9%。

相比之心,开源MLLM仍有巨大差距,表现最好的VILA-1.5以及LLaVA-NeXT-Video的总体准确率分别只有59和52%,开源社区还有相当大的提升空间。


此外,通过将输入扩展到多帧图像,Video-MME也可用来评估基于图像的MLLM,例如Qwen-VL-Max和InternVL-Chat-V1.5。

两种模型的准确度均达到51%左右,接近视频专用模型LLaVA-NeXT-Video,这表明图像理解是视频理解的基础,所以Video-MME在MLLM评估领域具有广泛的适用性。

下面,换个视角,看看这些MLLM在不同任务类型下的表现:


——Gemini 1.5 Pro 最终还是压制住了 GPT-4o!

我们再把Gemini 1.5 Pro单独拉出来开个小灶,详细给出不同视频时长和不同视频类型下的评估结果:


通过对上表的进一步观察,我们还可以发现,整合字幕和音频可以显著增强LLM的视频理解能力。

Gemini 1.5 Pro在加入字幕和音频之后,准确度分别提高了6.2%和4.3%,长视频则更为明显。

对任务类型的细粒度分析表明,字幕和音频对于需要大量领域知识的视频特别有益。

当然了,随着视频长度的增加,MLLM性能普遍下降,所以处理长视频仍然是件困难的事情。

下面给出Gemini 1.5 Pro在不同视频子类型上的评估结果,包括天文学、技术、纪录片、新闻报道、电子竞技、魔术表演和时尚等30个子类别。


Video-MME

数据集构建

Video-MME的数据集构建过程包括视频采集、问答对标注、质量审核三个步骤。

视频采集

为了全面覆盖不同的视频类型,研究人员创建了一个域层次结构,用于从网络上收集原始视频。

首先定义6个关键领域:知识、电影和电视、体育比赛、生活记录和多语言。

每个领域进一步划分为详细的标签,例如体育比赛包含足球和篮球,从而产生总共30个细粒度的视频类。


对于每个类型,收集不同持续时间的视频:短视频(少于2分钟)、中视频(4-15分钟)和长视频(30-60分钟)。

此外,还会获取相应的元信息,例如字幕和音频,用于进一步研究。最终的数据集由900个视频组成,这些视频跨越各个领域,持续时间长度相对平衡。


问答标注

在收集原始视频数据后,研究者对以问答对的形式对其进行注释,以评估MLLM在解释视频内容方面的熟练程度。

这里采用多项选择题的QA格式,参与标注的作者都精通英语,在视觉语言学习方面具有丰富的研究经验。


标注者通过反复观看视频来提出3个相关的问题,每个问题有4个潜在选项。这2700个QA对包含12种任务类型,比如感知、推理和信息概要。

质量审核

为了保证数据集的质量,作者还进行了严格的人工审查流程。

首先,指派不同的标注者来检查每个QA对,确保语言表达正确且明确,以及问题可回答(候选选项和正确选项都是合理的)。

此外,为了确保问题足够具有挑战性,要求多模态模型看了视频才能回答,研究人员向Gemini 1.5 Pro提供了纯文本问题,并过滤掉可以仅根据文本问题回答的QA对。

最后,Gemini 1.5 Pro在仅使用文本提问的情况下,准确率低于 15%。

数据集统计

视频和元信息

Video-MME总共包含900个视频、713个字幕和869个音频文件。

从任务类型的分布来看,较短的视频主要涉及与感知相关的任务,例如动作和物体识别。相比之下,较长的视频主要以与时间推理相关的任务为特色。从下表中可以看到,Video-MME的有效时长(Certificate Length准确回答问题所需的时间跨度)非常长,表明了其挑战性。


问答数据

关于问题和答案的语言多样性,下表列出了数据集中文本字段的平均字数。

问题、选项和答案的字数在不同视频长度上显示出显著的一致性,这表明Video-MME中的QA对风格一致。


另一方面,字幕的字数随着视频长度的增加而显着增加,短视频的平均字数为198.6,而长视频子集的字数高达6.5K。这一趋势表明,较长的视频包含的信息更多。

此外,问题对应的正确答案选项(A/B/C/D)的分布接近均匀(25.2%/27.2%/25.2%/22.3%),确保了无偏的评估。

参考资料:

https://x.com/_TobiasLee/status/1801984539470012554


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
单位里,凡是40岁以上的中年人,没资源没背景,请停止做3件事

单位里,凡是40岁以上的中年人,没资源没背景,请停止做3件事

时尚的弄潮
2024-06-25 07:36:00
上海最新通报!多名公职人员被查

上海最新通报!多名公职人员被查

上观新闻
2024-06-29 12:10:22
黯然出局!2届美洲杯冠军得主智利1球未进,止步小组赛!

黯然出局!2届美洲杯冠军得主智利1球未进,止步小组赛!

直播吧
2024-06-30 10:09:18
离开老詹7年了!一个冠军没混到,还少拿1亿美金,这个状元后悔吗

离开老詹7年了!一个冠军没混到,还少拿1亿美金,这个状元后悔吗

球毛鬼胎
2024-06-25 13:27:36
受强降雨影响 安徽全省累计受灾人口81.1万人

受强降雨影响 安徽全省累计受灾人口81.1万人

财联社
2024-06-30 22:02:08
宋祖儿彻底凉透了?工作室已经解散!网友可惜,直言她长得漂亮!

宋祖儿彻底凉透了?工作室已经解散!网友可惜,直言她长得漂亮!

西瓜爱娱娱
2024-06-27 10:31:06
姜萍事件闹大了,决赛选手6道题做了1道,39名选手发联名信质疑!

姜萍事件闹大了,决赛选手6道题做了1道,39名选手发联名信质疑!

鬼菜生活
2024-06-27 22:21:58
121名医务人员集体无偿献血2.71万毫升

121名医务人员集体无偿献血2.71万毫升

南方都市报
2024-06-30 11:30:11
倒闭2.9万家!昔日街头“霸主”,正被年轻人抛弃

倒闭2.9万家!昔日街头“霸主”,正被年轻人抛弃

品牌营销官
2024-06-29 00:52:10
最大悲哀是国民都不开口、不说话对于一切都无所谓,心死的社会

最大悲哀是国民都不开口、不说话对于一切都无所谓,心死的社会

雪莉故事汇
2024-06-23 07:06:47
还没上映就差评一片!电影《红楼梦》刘姥姥惹争议,一点不像穷人

还没上映就差评一片!电影《红楼梦》刘姥姥惹争议,一点不像穷人

萌神木木
2024-06-29 21:01:56
免签!7月1日生效!

免签!7月1日生效!

东阳日报
2024-06-30 14:34:33
大陆考察团抵达台岛,台当局回应卢沙野大使讲话,“台独”跳脚了

大陆考察团抵达台岛,台当局回应卢沙野大使讲话,“台独”跳脚了

说天说地说实事
2024-06-30 14:35:57
男性160-190cm标准体重对照表,可能自己并不胖,不用减肥

男性160-190cm标准体重对照表,可能自己并不胖,不用减肥

增肌减脂
2024-06-20 16:28:01
男子患癌拒绝化疗,从肺癌晚期到肿瘤消失,他怎么做到的?

男子患癌拒绝化疗,从肺癌晚期到肿瘤消失,他怎么做到的?

丹宝说文史
2023-07-08 15:53:29
0-2!争冠大热门轰然倒下!国安逼近前三,泰山争三都没希望了

0-2!争冠大热门轰然倒下!国安逼近前三,泰山争三都没希望了

体育世界
2024-07-01 00:13:01
外媒:泽连斯基称将在今年准备好“全面计划”,以说明如何结束俄乌冲突

外媒:泽连斯基称将在今年准备好“全面计划”,以说明如何结束俄乌冲突

环球网资讯
2024-06-29 10:21:37
瑞士人体摄影师的作品,由内而外散发的味道!

瑞士人体摄影师的作品,由内而外散发的味道!

国际艺术大观
2024-07-01 00:06:43
高人预测,在这样搞下去,农村80%要完蛋

高人预测,在这样搞下去,农村80%要完蛋

爱下厨的阿椅
2024-06-20 13:09:58
特朗普说出大实话,若当选,将从“先俄后中”变成“联俄抗中”

特朗普说出大实话,若当选,将从“先俄后中”变成“联俄抗中”

环球Talk
2024-06-30 23:48:33
2024-07-01 01:54:44
新智元
新智元
AI产业主平台领航智能+时代
11216文章数 65541关注度
往期回顾 全部

科技要闻

河南火箭坠落爆炸?商业航天公司回应了

头条要闻

英格兰本届首次落后 施兰茨3球登顶射手榜

头条要闻

英格兰本届首次落后 施兰茨3球登顶射手榜

体育要闻

“意大利很弱”,不再是错觉了

娱乐要闻

白玉兰明星反应精彩 胡歌获奖唐嫣激动

财经要闻

A股上半年人均亏损1.2万 你亏了多少?

汽车要闻

小鹏MONA M03 7月3日首发 15万紧凑级

态度原创

时尚
房产
数码
旅游
艺术

本周最美的是姜妍的体态!

房产要闻

20亿!又有国企要卖海南资产!

数码要闻

回应小米空调第一不实后!董明珠:不是我刻意要当网红 格力的产品深入人心

旅游要闻

突发!上海出发豪华邮轮,男子翻越栏杆后落海

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

无障碍浏览 进入关怀版