网易首页 > 网易号 > 正文 申请入驻

研究人员提出扩散变换器模型,打造交互式开放世界游戏视频新范式

0
分享至

近年来,生成模型在图像和视频生成领域取得了显著进展,这些技术已经在设计、广告、动画和电影等创意领域得到了广泛应用。

受此启发,研究人员开始探索将生成模型应用于游戏产业,尤其是开放世界游戏。

开发开放世界游戏原型是一项资源密集且成本高昂的工作。由于此类游戏环境复杂、动态事件多样、角色各异,生成新颖且连贯的内容具有挑战性。

随着对这些环境中现实互动和行为的需求增加,复杂性也随之上升。

在这一背景下,来自香港科技大学、中国科学技术大学、中国科学院合肥物质科学研究院和香港中文大学的研究团队推出了 GameGen-X,这是首个专为生成和交互控制开放世界游戏视频而设计的扩散变换器模型。

日前,相关论文发表在预印本平台arXiv上。

据论文介绍,该模型通过模拟丰富的游戏引擎特性,如创新角色、动态环境、复杂动作和多样事件,实现了高质量的开放域生成。

更重要的是,它具备交互式控制能力,能够基于当前片段预测以及改变未来内容,来实现对游戏玩法的模拟。

为了实现这一愿景,研究团队首先从零开始收集和构建了开放世界视频游戏数据集(OGameData)。

这是目前最大的、用于开放世界游戏视频生成和控制的数据集,包含超过 100 万个多样化的游戏视频片段,这些片段来自 150 多个游戏,并配有 GPT-4o 生成的信息丰富的说明文本。

OGameData 的特殊之处在于其精细的标注体系,视频片段都配有结构化的、高密度的文本描述。这种细致的标注不仅确保了训练数据的质量,也为模型提供了更丰富的学习素材。

数据集被系统地分为多个子集,包括 OGameData-GEN 用于训练基础生成模型,侧重于生成连贯的游戏内容,而 OGameData-INS 则针对指令调优和交互控制任务进行了优化。

研究团队还开发了一套完整的数据处理流程,涵盖了收集、清洗、分割、过滤和结构化标注等环节。考虑到游戏领域的特殊性,他们结合了 AI 技术和人类专家的智慧。

在数据收集阶段,研究人员特别注重选取最小化用户界面元素的游戏画面,这确保了生成内容的纯粹性和通用性。

通过 PyScene 和 TransNetV2 等工具进行场景检测,团队将视频分割成适当长度的片段,并采用多个先进模型进行筛选和标注,确保了数据集的高质量和多样性。

GameGen-X 的训练过程可以分为两个阶段:基础模型预训练和指令调优。

在第一阶段,模型通过文本到视频生成和视频延续任务进行预训练,使其具备长序列、高质量开放域游戏视频生成能力。

为了实现交互控制,研究团队还设计了 InstructNet 来整合游戏相关的多模态控制信号专家。

在指令调优阶段,只更新 InstructNet 而冻结预训练的基础模型,这确保了在获得交互控制能力的同时,不会损失生成内容的多样性和质量。

具体来说,GameGen-X 结合了基础模型和 InstructNet 的双重架构。

基础模型负责生成高质量的游戏内容,而 InstructNet 则提供多模态交互控制能力,使玩家能够影响生成内容的延续,真实地模拟游戏体验。

为了有效处理视频中的时空冗余信息,研究团队引入了 3D 时空变分自动编码器进行视频压缩,使模型能够高效地处理高分辨率和长序列的视频内容,显著提升了处理效率。

在视频生成和交互控制方面,GameGen-X 采用了创新的掩码时空扩散变换器。该结构的独特之处在于,其巧妙地结合了空间注意力、时间注意力和交叉注意力机制,能够根据文本提示高效地生成游戏视频。

通过精心设计的堆叠配对空间和时间块,每个块都配备了交叉注意力和相应的空间或时间注意力,使模型能够同时捕捉空间细节、时间动态和文本引导信息,从而生成高度连贯和真实的游戏场景。

为了实现真正的交互控制,研究团队在 InstructNet 中创新性地采用了多模态专家系统。

这个系统能够处理多种类型的控制信号,包括结构化文本指令、键盘输入和视频提示等。

实验测试结果显示,与其他具有开放领域生成能力的模型相比,GameGen-X 在生成新颖领域游戏视频剪辑方面表现优异。

GameGen-X 在 Fréchet 初始距离(Fréchet Inception Distance)、Fréchet 视频距离(Fréchet Video Distance)、文本-视频对齐(Text-Video Alignment)和用户偏好(User Preference)等多个指标上均优于其他模型。

在控制指标方面,GameGen-X 的角色动作成功率为 63.0%,环境事件成功率为 56.8%,远远超过 OpenSora-Plan1.2 等其他模型。

总的来说,GameGen-X 展示了生成模型作为传统渲染技术辅助工具的潜力,有效地将创意生成与交互能力结合在一起。

这一研究为游戏内容设计和开发开辟了新的范式,为未来更自动化、数据驱动的游戏开发方法提供了新的可能性。

参考资料:

https://arxiv.org/pdf/2411.00769v1

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官方通报:王某某被部队除名

官方通报:王某某被部队除名

扬子晚报
2025-12-31 10:46:39
财政部、税务总局:个人将购买2年以上的住房销售,免征增值税

财政部、税务总局:个人将购买2年以上的住房销售,免征增值税

数据说经济
2025-12-30 20:09:40
两部门:2026年个人消费者购买手机、平板、智能手表手环、智能眼镜等4类产品,按产品销售价格的15%给予补贴

两部门:2026年个人消费者购买手机、平板、智能手表手环、智能眼镜等4类产品,按产品销售价格的15%给予补贴

界面新闻
2025-12-30 18:13:17
罗永浩凌晨发文称患ADHD:如换药失败,或不能用锻炼彻底改善体能问题,将不再举办大型活动;此前其“科技春晚”迟到40多分钟才出现引热议

罗永浩凌晨发文称患ADHD:如换药失败,或不能用锻炼彻底改善体能问题,将不再举办大型活动;此前其“科技春晚”迟到40多分钟才出现引热议

极目新闻
2025-12-31 07:52:11
国家明令要求!2026年起,小区物业必须给业主发这5大补贴!

国家明令要求!2026年起,小区物业必须给业主发这5大补贴!

今朝牛马
2025-12-30 15:36:19
一杯盖碗茶背后的千亿产业:成都的“快慢”成事哲学

一杯盖碗茶背后的千亿产业:成都的“快慢”成事哲学

城市研究室
2025-12-31 09:43:42
观察|时隔七年重回舞台,罗永浩称“还完债没有后顾之忧,人生已经很圆满”

观察|时隔七年重回舞台,罗永浩称“还完债没有后顾之忧,人生已经很圆满”

澎湃新闻
2025-12-31 13:34:29
远离造神陷阱,央视揭开杭州兔子警官真实现状,令人担心的事发生

远离造神陷阱,央视揭开杭州兔子警官真实现状,令人担心的事发生

奇思妙想草叶君
2025-12-30 23:50:40
莱纳德33+5+5快船大胜国王5连胜,哈登21+5科林斯16分5板

莱纳德33+5+5快船大胜国王5连胜,哈登21+5科林斯16分5板

湖人崛起
2025-12-31 14:21:06
马航MH370重启搜寻!调查船已抵达目标海域,部署3台无人潜航器,将扫描1万平方公里

马航MH370重启搜寻!调查船已抵达目标海域,部署3台无人潜航器,将扫描1万平方公里

红星新闻
2025-12-31 16:12:10
围岛第二天,王毅外长发声,演习就是针对美国,特朗普罕见说软话

围岛第二天,王毅外长发声,演习就是针对美国,特朗普罕见说软话

博览历史
2025-12-31 09:59:48
元旦到了,别再说“元旦快乐”,太土!教你19句祝福语,好听不俗

元旦到了,别再说“元旦快乐”,太土!教你19句祝福语,好听不俗

狼小妖
2025-12-31 00:13:10
四名省级党委常委新职明确,都兼任市委书记

四名省级党委常委新职明确,都兼任市委书记

上观新闻
2025-12-31 14:32:12
凌晨3点屏东以南发生激烈对峙,052D不顾阻扰,强行压向台护卫舰

凌晨3点屏东以南发生激烈对峙,052D不顾阻扰,强行压向台护卫舰

谛听骨语本尊
2025-12-31 12:22:38
最新!法国、英国、加拿大、丹麦、芬兰等十国外长发布联合声明

最新!法国、英国、加拿大、丹麦、芬兰等十国外长发布联合声明

每日经济新闻
2025-12-31 07:50:06
普京遇袭!特朗普愤怒!莫斯科天空瘫痪!战争目标扩大!

普京遇袭!特朗普愤怒!莫斯科天空瘫痪!战争目标扩大!

汉唐智库
2025-12-30 09:37:04
韩方公布李在明访华行程:将在北京与中国领导人会谈,并出席国宴;韩“四大家族”掌门人将随李在明访华

韩方公布李在明访华行程:将在北京与中国领导人会谈,并出席国宴;韩“四大家族”掌门人将随李在明访华

大象新闻
2025-12-31 14:45:04
外交部:石平这种败类的丑恶言行不值一评

外交部:石平这种败类的丑恶言行不值一评

极目新闻
2025-12-31 15:35:56
南博的事还没水落石出,川博又来了!

南博的事还没水落石出,川博又来了!

深度报
2025-12-29 22:55:49
北京一老板招25人其中24个骗子 :面试时积极,入职后就打卡混日子,试用期一到就离职,不用交社保,专骗底薪

北京一老板招25人其中24个骗子 :面试时积极,入职后就打卡混日子,试用期一到就离职,不用交社保,专骗底薪

观威海
2025-12-31 09:10:05
2025-12-31 18:08:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16062文章数 514444关注度
往期回顾 全部

科技要闻

老罗,演砸了,也封神了?

头条要闻

新车撞上花坛报保险发现两公司都有保单 车店称填错了

头条要闻

新车撞上花坛报保险发现两公司都有保单 车店称填错了

体育要闻

2025全球射手榜:姆巴佩66球 梅西第6C罗第9

娱乐要闻

林俊杰女友被扒 父亲涉经济案卷款13亿?

财经要闻

高培勇:分配制度改革是提振消费的抓手

汽车要闻

凯迪拉克纯电中型SUV 售价不足24万/33寸曲面屏

态度原创

旅游
时尚
数码
教育
本地

旅游要闻

古塔灯海 红楼入梦 南京三场跨年盛宴点亮文化新年

今年冬天流行的“倒三角”穿法,时髦又高级!

数码要闻

影响力关注度加持,AMD王炸牌颠覆市场格局

教育要闻

2025收官,2026启新!南京教育热点 + 择校干货年终总结!家长必看!

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

无障碍浏览 进入关怀版