网易首页 > 网易号 > 正文 申请入驻

游戏bug帮大模型学物理!准确率超GPT4o近4个百分点

0
分享至

PhysVLM团队 投稿
量子位 | 公众号 QbitAI

融合物理知识的大型视频语言模型PhysVLM,开源了!

它不仅在 PhysGame 基准上展现出最先进的性能,还在通用视频理解基准上(Video-MME, VCG)表现出领先的性能。

在这项研究之前,想让AI像人类儿童一样,通过观察世界理解基本的物理常识,是一个主要挑战。



对于现实世界的视频来说,全面覆盖和解释所有正常的物理现象既困难又不必要。

相比之下,游戏视频(gameplay videos)通常包含违反物理常识的“故障现象”(glitches),这有助于简化物理常识理解的定义和评估,即专注于解释物理常识的违反现象,而不是试图列举所有存在的正常物理现象。

为此,PhysVLM在专门整理的一套数据集上训练,包括用于评估的PhysGame benchmark、用于监督微调的PhysInstruct数据集和用于偏好对齐的PhysDPO数据集。

PhysGame benchmark 设计

如图所示, PhysGame包含880个含有故障现象的游戏视频,每个视频都配有一个高质量的多项选择题,专门针对故障现象的性质进行标注。



△PhysGame类别分布

PhysGame涵盖了四个关键的物理领域(即力学、运动学、光学和材料属性),并细分为12个具体类别(如重力和速度)。

  • 力学(Mechanics):该类别涉及力与力矩及其对运动的影响,提供了解释和分析视频中物体运动的基础原理。典型案例包括重力、弹性和摩擦力。
  • 运动学(Kinematics):该领域研究不考虑力的情况下的运动,涉及精细分类,如随时间变化的速度和加速度。
  • 光学(Optics):该领域关注光的行为与特性及其与物质的相互作用,包括反射、折射以及吸收与透射。
  • 材料属性(Material properties):该领域指的是物质固有的特性,包括颜色、刚性、物体形状以及人体姿态。

PhysGame benchmark构建

视频收集和过滤:

PhysGame中的视频主要从Reddit页面抓取,该页面包含带有异常事件和故障现象的游戏视频。为了平衡不同的类别,团队还通过关键词搜索从 YouTube增强视频数据。团队根据以下两项标准进行人工筛查:

  • 重复检查:Reddit论坛可能会多次引用同一视频,导致重复下载。团队手动检查,确保PhysGame benchmark中的视频不存在重复;
  • 内容检查:下载的视频可能包含非游戏元素,团队对这些内容进行了严格筛选,确保它们不被纳入PhysGame benchmark中。

选项生成:

本文以多项选择题的形式创建问答对。具体来说,正确选项描述了视频中违反物理常识原则的特定故障现象。为了增强干扰选项的可信度,本文要求干扰选项中的故障现象应与视频中观察到的个体或动作高度相关,这使视频LLM理解故障内容,而不仅仅通过识别包含的物体或动作来选择答案。

质量控制:

为了保证数据集的质量,本文进行了一项包括人工检查和自动LLM辅助检查在内的双重质量控制过程:

  • 人工检查:所有初步标注的问答对都经过不同人工标注人员的严格交叉检查。对于正确选项,检查人员必须评估它们是否全面准确地描述了所有存在的物理常识违反实例。对于干扰选项,检查人员需评估它们是否足够具有迷惑性;
  • LLM 辅助检查: 团队去除那些仅凭问题和选项,不需要查看视频就能由GPT-4o正确回答的问答对。



△PhysGame示例

PhysInstruct&PhysDPO数据集构建

PhysInstruct:

为了提升视频LLM的物理常识理解能力,团队开发了PhysInstruct数据集用于监督微调。视频收集过程与PhysGame中的流程相同。为了防止数据泄漏,团队严格排除任何已包含在PhysGame中的视频。团队遵循Self-instruct范式通过提示GPT-4o来构建PhysInstruct。

PhysDPO:

团队构建了偏好对齐数据集PhysDPO,以提供更可信和可靠的回答。如图3所示,团队将PhysInstruct 数据集中生成的答案视为preferred回答,而dis-preferred回答则通过元信息篡改(meta-information hacking)、时间篡改(temporal hacking)和空间篡改(spatial hacking)生成。团队用误导性的元信息以及减少帧数和降低帧分辨率的视频帧来提示 GPT-4o。

以下是PhysDPO数据集构建流程图:



模型评估与分析

PhysGame benchmark 实验结果:

  • 在所有专有模型中,GPT-4o和Gemini-1.5-pro表现最佳,分别达到了56.1%和55.2%的平均准确率。在所有细分领域中,GPT-4o在摩擦和加速度方面表现优越。相比之下,Gemini-1.5-pro在理解与重力、弹性、反射、吸收与透射、颜色和刚性相关的物理常识方面表现更强。
  • 现有的开源模型远远落后于专有模型。即便是表现最好的开源模型 LLaVA-OneVision,其平均准确率仅为47.7%。相比之下,本文提出的PhysVLM在所有专有和开源模型中都达到了最先进的性能。与开源方法相比,本文的PhysVLM在12个评估领域中的6个领域达到了最高性能。值得注意的是,PhysVLM-DPO在平均准确率这一指标上比最佳表现的专有模型GPT-4o超出了3.4%。



△PhysGame benchmark实验结果

Video-MME benchmark实验结果:

本文的PhysVLM模型在所有7B模型中表现优越。令人惊讶的是,作为7B模型,PhysVLM-SFT和PhysVLM-DPO在整体表现上分别比 34B 模型 LLaVA-NeXT-Video提高了3.2%和3.8%的绝对值。通过比较PhysVLM-SFT和PhysVLM-DPO,团队发现,使用所提出的PhysDPO数据进行 DPO训练在短视频和长视频上的表现都有所提升,而在中等长度的视频上的表现略有下降。



△Video-MME benchmark实验结果

VCG benchmark实验结果:

在仅使用SFT的模型中,本文的PhysVLM-SFT在平均得分方面表现最佳。在四个子类别的评估中,PhysVLM-SFT在信息正确性和一致性类别上表现尤为出色。与使用DPO或PPO训练的PPLLaVA和LLaVA-Next-Video相比,本文的PhysVLM-DPO也展现出卓越的性能,进一步验证了所提出的PhysVLM模型在通用视频理解中的出色能力。



△VCG benchmark实验结果

PhysVLM相关论文、代码、数据均已开源:

pre-prints: https://arxiv.org/abs/2412.01800
代码链接: https://github.com/PhysGame/PhysGame
leaderboard: https://physgame.github.io/#leaderboard

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外滩隧道综合整治工程将于12月24日正式启动!

外滩隧道综合整治工程将于12月24日正式启动!

上海交警
2024-12-20 09:09:28
爸爸因为女儿喜欢小马宝莉,花6万买了匹真马:小马很粘人很听指挥,还会帮忙驮快递

爸爸因为女儿喜欢小马宝莉,花6万买了匹真马:小马很粘人很听指挥,还会帮忙驮快递

观威海
2024-12-12 08:44:50
恭喜!宏远强援正式抵达东莞,朱芳雨请回贝兹利,广东再出发

恭喜!宏远强援正式抵达东莞,朱芳雨请回贝兹利,广东再出发

多特体育说
2024-12-19 23:14:05
NBA最新排名:快船升西部第5湖人回到第7 勇士51分惨败跌至第10

NBA最新排名:快船升西部第5湖人回到第7 勇士51分惨败跌至第10

罗说NBA
2024-12-20 13:42:24
詹姆斯谈漫长职业生涯:错过了很多本该陪伴家人的时光 这是代价

詹姆斯谈漫长职业生涯:错过了很多本该陪伴家人的时光 这是代价

直播吧
2024-12-20 10:26:25
稻盛和夫:故意在人多的时候训你的人,是做给别人看的,你别...

稻盛和夫:故意在人多的时候训你的人,是做给别人看的,你别...

清风拂心
2024-12-16 14:38:21
国际米兰2-0乌迪内斯,完胜进八强!赛后评分:国米8号排第一

国际米兰2-0乌迪内斯,完胜进八强!赛后评分:国米8号排第一

侧身凌空斩
2024-12-20 06:07:15
罕见,巴基斯坦对中国部分产品加征30.17%关税,到底发生了什么?

罕见,巴基斯坦对中国部分产品加征30.17%关税,到底发生了什么?

阿伧说事
2024-12-19 17:22:24
在叙恐怖组织点名几座城市,要将战火烧到中国?中方回应很强硬

在叙恐怖组织点名几座城市,要将战火烧到中国?中方回应很强硬

躬耕牛
2024-12-19 11:22:06
2024下半年,为什么电动车自燃明显变少了?行内人告诉你4个原因

2024下半年,为什么电动车自燃明显变少了?行内人告诉你4个原因

电动车的那些事儿
2024-12-19 07:59:51
小米“挖”走特斯拉中国“厂长”?公司回应来了

小米“挖”走特斯拉中国“厂长”?公司回应来了

第一财经资讯
2024-12-19 15:07:25
詹俊:努内斯和福斯特的失误都有点过分,不是“超巨”可以解释的

詹俊:努内斯和福斯特的失误都有点过分,不是“超巨”可以解释的

直播吧
2024-12-20 11:08:46
C1证驾驶人有福了!持C1驾照这5种车竟然“不用增驾”就能开?

C1证驾驶人有福了!持C1驾照这5种车竟然“不用增驾”就能开?

爱论历史
2024-12-18 22:49:53
余华英何时执行死刑?她申请法律援助会得到批准吗?律师解读

余华英何时执行死刑?她申请法律援助会得到批准吗?律师解读

极目新闻
2024-12-19 18:29:37
四川西昌再通报一学生坠楼身亡:2名邻班学生被处罚,学校及相关责任人员被追责问责

四川西昌再通报一学生坠楼身亡:2名邻班学生被处罚,学校及相关责任人员被追责问责

极目新闻
2024-12-19 18:51:09
为什么人到了五六十岁,慢慢会变得对家里的老人不孝顺呢?

为什么人到了五六十岁,慢慢会变得对家里的老人不孝顺呢?

娱乐洞察点点
2024-12-20 15:19:03
确认!特斯拉Model Q在2025年上半年推出,价格可能不到14万

确认!特斯拉Model Q在2025年上半年推出,价格可能不到14万

泡泡网
2024-12-18 19:24:11
没出汗就赢了,快船赢球5人立功,挖到两个宝贝,你要进全明星了

没出汗就赢了,快船赢球5人立功,挖到两个宝贝,你要进全明星了

体坛大辣椒
2024-12-20 12:27:12
研究发现:男女这个身高的人最易长寿!

研究发现:男女这个身高的人最易长寿!

陕西科技传媒
2024-12-20 14:54:01
从几个细节,看日本的现状

从几个细节,看日本的现状

茶狐看世界本尊
2024-12-19 22:10:07
2024-12-20 16:43:00
量子位 incentive-icons
量子位
追踪人工智能动态
9792文章数 175783关注度
往期回顾 全部

科技要闻

字节紧急发布了一个警示:别乱炒概念股了

头条要闻

瑞典称中国货船涉嫌破坏海底电缆正被调查 外交部回应

头条要闻

瑞典称中国货船涉嫌破坏海底电缆正被调查 外交部回应

体育要闻

为中国篮球铺这条路,蔡崇信已经花了5年

娱乐要闻

刘恺威疑恢复单身,父亲刘丹表示不认识李晓峰!

财经要闻

鲍威尔快演不下去了

汽车要闻

新款瑞虎5x高能版将于12月23日上市 定位小型SUV

态度原创

房产
教育
时尚
健康
本地

房产要闻

130万元/套起,上车三房!三亚CBD最炸裂的价格出来了!

教育要闻

很多专业在海外是非常受欢迎的,而且是越来越收欢迎了……

50+阿姨冬天怎么穿才时尚?不穿花、不配运动鞋,体面又优雅

花18万治疗阿尔茨海默病,值不值?

本地新闻

好吃潮州|潮州腐乳饼,咸甜党都沦陷了

无障碍浏览 进入关怀版