网易首页 > 网易号 > 正文 申请入驻

如何让 AI 影片自带 BGM?CogVideoX+CogSound 技术详解

0
分享至



早在 2021 年,我们便开始探索如何基于视频数据大规模训练视频生成模型,先后推出了 CogVideo(Hong et al. 2022)和 CogVideoX(Yang, Teng et al. 2024)系列模型。

CogVideoX 团队在数据筛选、模型结构、视频理解、transformer 架构和训练框架等多个方面进行了多项创新,并验证了 scaling law 在视频生成方面的有效性

2024 年 7 月,清言上线了国内首个面向公众开放的视频生成产品“清影”。如今,清影迎来了重要升级:10s 时长、4k、60 帧超高清画质、任意尺寸,自带音效,以及更好的人体动作和物理世界模拟

具体体现为:

  • 模型能力全面提升:在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强。
  • 4K超高清分辨率:支持生成 10s、4K、60 帧超高清视频,视觉体验拉到极致,动态画面更加流畅。
  • 可变比例:支持任意比例的图像生成视频,超宽画幅也能轻松 Hold 住,从而适应不同的播放需求。
  • 多通道生成能力:同一指令/图片可以一次性生成 4 个视频。
  • 带声效的AI视频:新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。

此次新清影升级,基于 CogVideoX 模型的最新技术进展和我们最新推出的音效模型 CogSound。

在这篇博客中,我们将主要介绍 CogVideoX 的最新技术和音效模型 CogSound 的技术概况。

CogVideoX:模型进一步升级

CogVideoX 是我们在视频生成领域的最新成果,在内容连贯性、可控性和训练效率等方面实现了多项创新。下图为 CogVideoX 的模型架构:



图|CogVideoX 架构

众所周知,数据是大模型训练的关键,但相当一部分视频数据的分布噪声很大,并不适用于视频生成模型的训练。这些问题包括(1)经人工编辑的视频可能扭曲真实动态信息,(2)因相机抖动和设备不达标等拍摄问题导致的视频质量大幅下降。除了视频的内在质量,视频数据对模型训练的支持程度也至关重要。我们将动态信息最少或动态方面缺乏连通性的视频看作是“是有害的”。为此,我们专门构建了一个自动化的数据筛选框架,来过滤不良数据。

针对内容连贯性问题,我们自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至 2% 大小,大大减少了视频扩散生成模型的训练成本和难度。我们将因果三维卷积(Causal 3D convolution)作为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备了不同分辨率迁移使用的能力。同时,在时间维度上因果卷积的形式,也使得模型具备了视频编解码从前向后的序列独立性,便于通过微调向更高帧率和更长时间泛化。在工程部署方面,我们基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器做了微调和部署,使其能够在更小的显存占用下支持极高帧数视频的编解码。



图|3D VAE 结构由一个编码器、一个解码器和一个潜空间 regularizer 组成,实现了从像素到潜空间的 8×8×4 倍的压缩(a)。时间因果卷积的上下文并行实现(b)。

为解决大多现有视频数据缺乏对应描述性文本或描述质量低下的问题,我们自研了一个端到端的专门用于标注视频数据的视频理解模型 CogVLM2-caption,为海量视频数据生成详细的、贴合内容的描述,进而增强模型的文本理解和指令遵循能力,更好地理解超长、复杂的 prompt,生成的视频也更符合用户的输入。



图|我们使用 Panda70M 模型生成短视频字幕,提取帧来创建密集图像字幕,并使用 GPT-4 将其汇总为最终的视频字幕。为了加快这一过程,我们使用 GPT-4 对 Llama 2 模型进行了微调。

我们也自研了一个融合文本、时间、空间三个维度的 transformer 架构。该架构摒弃了传统的 cross attention 模块,在输入阶段就将文本 embedding 和视频 embedding concat 起来,以便更充分地进行两种模态的交互。我们通过 expert adaptive layernorm 弥补了文本和视频两个模态在特征空间上的差异,从而更有效地利用扩散模型中的时间步信息,使得模型能够高效地利用参数,进而更好地将视觉信息与语义信息对齐。

其中,注意力模块采用了 3D 全注意力机制,先前的研究通常使用分离的空间和时间注意力或分块时空注意力,它们需要大量隐式传递视觉信息,大大增加了建模难度,也无法与现有的高效训练框架适配。

在位置编码模块方面,我们设计了 3D RoPE,有效提升了在时间维度上捕捉帧间关系的能力,建立起了视频中的长程依赖。

最后,为了提高训练效率,我们构建了一个扩散模型高效训练框架,通过各种并行计算和极致的时间优化,我们能够快速地训练较长的视频序列;借鉴 NaViT 的做法,我们的模型可以同时训练各种不同分辨率、不同时长的视频,而无需对视频进行裁剪,从而避免了因各种裁剪可能导致的偏差,同时模型也具备了生成任意分辨率视频的能力。

基于过往的研究成果,我们已经验证了 scaling law 在视频生成方面的有效性。在未来,我们将在继续 scale up 数据规模和模型规模的同时,探索更具突破式创新的新型模型架构,进而更高效地压缩视频信息,以及更充分地融合文本和视频内容。

为了支持广大开发者,我们将 CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V 进行了开源(https://github.com/thudm/cogvideo)。

CogSound:为无声视频,增添动人音效

音效模型 CogSound 是我们多模态模型家族的最新成员,能够根据视频自动生成音效、节奏等音乐元素。

基于 GLM-4V 的强大视频理解能力,CogSound 能够准确识别并理解视频背后的语义和情感,并为无声视频添加与之相匹配的音频内容,甚至可以生成更加复杂的音效,如爆炸、水流、乐器、动物叫声、交通工具声等。

CogSound 实现了更高效的音频合成过程、以及音频与视频在语义层面的高度一致性,具有更好的连贯性和平滑过渡。



图|CogSound 架构

CogSound 的强大音效生成能力主要得益于以下三方面技术:

基于 Unet 的潜空间扩散:高效音频生成

V2A 技术通过采用潜空间扩散模型(Latent Diffusion Model),将音频生成过程从高维的原始空间转移到低维潜空间,并且采用了经过优化的 U-Net 结构,作为扩散模型的核心框架,从而大幅度降低了计算复杂度,同时保持了生成音频的高质量和高效率。这一设计提升了音频合成过程的性能,使其在复杂任务下仍能高效执行。

分块时序对齐交叉注意力:加强音视频特征的关联性

通过引入分块时序对齐交叉注意力(Block-wise Temporal Alignment Cross-attention)机制,优化视频长序列与音频特征之间的特征匹配。V2A 技术通过学习帧级视频特征与音频特征之间的关系,将视频和音频的特征精确连接,强化音频与视频在时序和语义层面的高度一致性,实现精准的音视频映射,确保每一帧画面都能在音符中找到自己的位置,每一个音符也能在视频中精准呼应,音频与视频的语义在同一频率上共振。该机制确保生成的音频与视频内容在语义层面保持高度一致,消除传统方法中可能出现的偏差和失配。

旋转位置编码:提升时序建模精度

V2A 技术在架构中整合了旋转位置编码技术,通过为序列中的每个位置提供唯一标识并捕捉位置间的相对关系,让每个视频帧的位置都拥有独特的“坐标”,在音频生成中有效提升了时序一致性,确保音频序列的连贯性和过渡自然性,尤其在处理长时序任务时,表现出更高的稳定性和准确性,避免音频生成中的“断层”或“错位”。

多模态,通向 AGI 的必由之路

我们认为,真正的智能一定是多模态的。因此,我们希望包括文字、图像、视频、语音和视觉等模态在内的智谱多模态大模型家族,能够进一步提高大模型的应用和工具能力。

智谱是最早布局多模态大模型技术的公司。从2021年开始在多模态文生图、文生视频领域先后研发了CogView(NeurIPS’21)、CogView2(NeurIPS’22)、CogVideo(ICLR’23)、RelayDiffusion(ICLR’24)等。

目前,智谱已经构建了独家、完善、原创的多模态模型矩阵。包括语言模型、图像生成和理解模型、视频生成和理解模型和 10 月底刚刚发布的端到端情感语音模型 GLM-4-Voice。随着音效模型 CogSound 的加入,多模态大模型家族在声音模态方面实现了人声、音效的多链路布局,健全了智谱基于图像、视频和声音的多模态模型矩阵。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘国梁退休后,不出意外的话,可能他的接班人将在以下8位中产生

刘国梁退休后,不出意外的话,可能他的接班人将在以下8位中产生

玲子日记
2024-11-17 10:39:00
【雷速海报】哈登命中2974记三分超越雷-阿伦上升至历史第二!

【雷速海报】哈登命中2974记三分超越雷-阿伦上升至历史第二!

雷速体育
2024-11-18 10:19:31
第一次看到阿根廷汽车2024年10月销量榜单,真是令人哭笑不得!

第一次看到阿根廷汽车2024年10月销量榜单,真是令人哭笑不得!

人情皆文史
2024-11-17 00:02:48
感谢FBI!李娜的上线在美落网,中企高管在菲撕票案还要抓人

感谢FBI!李娜的上线在美落网,中企高管在菲撕票案还要抓人

大风文字
2024-11-18 10:36:02
日本相机的天价内幕,被大疆捅穿了

日本相机的天价内幕,被大疆捅穿了

金错刀
2024-11-17 10:51:51
大瓜!某信托系公募再曝大瓜,中专小妹逆袭为公募高管

大瓜!某信托系公募再曝大瓜,中专小妹逆袭为公募高管

挖掘机007
2024-11-17 19:46:21
贾樟柯《风流一代》口碑爆棚,陈思成、段奕宏和宁浩等纷纷力挺

贾樟柯《风流一代》口碑爆棚,陈思成、段奕宏和宁浩等纷纷力挺

千信齐飞
2024-11-17 22:08:57
上海“浦西第一高楼”成功筑底,480米塔楼即将拔地而起

上海“浦西第一高楼”成功筑底,480米塔楼即将拔地而起

GA环球建筑
2024-11-17 22:43:46
叶珂开白色劳斯莱斯在上海被网友偶遇,小腹微隆状态十分好

叶珂开白色劳斯莱斯在上海被网友偶遇,小腹微隆状态十分好

娱乐的小灶
2024-11-18 11:26:48
烧光了怎么办?一群无知少年半夜纵火!烧毁昆明大牯牛山杜鹃花!

烧光了怎么办?一群无知少年半夜纵火!烧毁昆明大牯牛山杜鹃花!

阿莱美食汇
2024-11-18 11:20:34
冯提莫开直播又擦边,穿深V还拉低衣服展示肤色,网友:太大胆!

冯提莫开直播又擦边,穿深V还拉低衣服展示肤色,网友:太大胆!

南城无双
2024-11-16 03:48:39
票房从33亿跌到8000万,我感慨:狼来了的故事在邓超身上应验了

票房从33亿跌到8000万,我感慨:狼来了的故事在邓超身上应验了

靠谱电影君
2024-11-17 22:27:09
中国双十一销售额对比:22年1.11万亿,23年1.13万亿,24年呢?

中国双十一销售额对比:22年1.11万亿,23年1.13万亿,24年呢?

古事寻踪记
2024-11-17 21:50:03
全国存款大降5700亿!钱都流去哪了?知情人:主要去了这四个方向

全国存款大降5700亿!钱都流去哪了?知情人:主要去了这四个方向

平说财经
2024-11-17 18:15:51
郑州大桥石化加油站一年盗水超5000吨 地下水资源遭严重掠夺

郑州大桥石化加油站一年盗水超5000吨 地下水资源遭严重掠夺

视线
2024-11-18 11:20:42
网友称家里4个大学生都找不到工作引热议,评论区的本科生共情了

网友称家里4个大学生都找不到工作引热议,评论区的本科生共情了

阿康四岁啦
2024-11-17 14:19:10
杜锋:前几天查房队员都在打游戏 真正男人的游戏篮球却打不明白

杜锋:前几天查房队员都在打游戏 真正男人的游戏篮球却打不明白

直播吧
2024-11-17 22:34:13
四川:成都市未来城市新中心已确定

四川:成都市未来城市新中心已确定

阿莱美食汇
2024-11-18 12:22:26
1辈子演了2部3级片,至今仍是亚洲第一胸,其中一部是《金瓶梅》

1辈子演了2部3级片,至今仍是亚洲第一胸,其中一部是《金瓶梅》

史诗长歌
2024-11-09 07:55:02
2名女子穿内衣内裤游泳,被小男孩趁机揩油,关键不能对他怎么样

2名女子穿内衣内裤游泳,被小男孩趁机揩油,关键不能对他怎么样

唐小糖说情感
2024-09-05 11:50:34
2024-11-18 14:24:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注人工智能、生命科学等前沿科学进展。
1097文章数 5044关注度
往期回顾 全部

科技要闻

马斯克在降本上毫不手软 无视各种规则

头条要闻

乌军或几天内用美制武器打击俄纵深 特朗普阵营愤怒

头条要闻

乌军或几天内用美制武器打击俄纵深 特朗普阵营愤怒

体育要闻

大谷翔平是GOAT还是人造的神?

娱乐要闻

李庚希获最佳女主角引发全网争议

财经要闻

这次,台积电拿捏不了我们?

汽车要闻

全新燃油MINI正式上市 20.88-30.58万元

态度原创

亲子
数码
游戏
手机
公开课

亲子要闻

姐姐和弟弟抢着吃一碗饭,姐姐让他松开,他的表情绝了

数码要闻

OPPO Pad 3 Pro评测:游戏无压力,家庭影院集于一身

看不下去了!老头杯“无状态”发挥低迷,逼到三位韩援用中文复盘

手机要闻

小米手机下次相机版本更新增加水印颜色选项,老机型也会版本迭代

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版