网易首页 > 网易号 > 正文 申请入驻

AI视频开源霸主:全球首个开源Sora模型

0
分享至

Open-Sora 并非是 Open AI 发布的 Sora 开源版,而是由 Colossal-AI 组织发起的开源项目。该项目旨在高效地制作高质量的视频内容,并开放模型、工具和内容给所有人使用。

国产Sora率先于OpenAI推出,给开源社区带来了巨大震撼:全权重代码开源!只需16秒即可生成720p高清画质的视频,人物渲染极为逼真,电影级变焦效果令人惊叹。与此同时,美国的独角兽公司基于之前的权重,打造了一个数字宇宙,让乐高迷们兴奋不已。潞晨Open-Sora团队在720p高清文生视频质量和生成时长方面取得了突破性进展。

全新升级的Open-Sora 1.2不仅能够无缝生成各种风格的高质量短片,更令人惊喜的是,团队再次选择将全部内容开源,为开源社区带来了更多震撼。


该模型采用了流行的 Diffusion Transformer (DiT) 架构。作者团队以使用 DiT 架构的高质量开源文本生成图像模型 PixArt-α 为基础,加入时间注意力层,将其扩展到视频数据。具体来说,整个架构包括预训练的 VAE、文本编码器和利用空间-时间注意力机制的 STDiT(Spatial Temporal Diffusion Transformer)模型。


STDiT 的每层结构如图所示,采用串行方式在二维空间注意力模块上叠加一维时间注意力模块,以建模时序关系。时间注意力模块之后,交叉注意力模块用于对齐文本语义。相比全注意力机制,这种结构大大降低了训练和推理的开销。与同样使用空间-时间注意力机制的 Latte 模型相比,STDiT 更好地利用了预训练的图像 DiT 权重,从而在视频数据上继续训练。



在训练阶段,首先使用预训练的变分自编码器(VAE)对视频数据进行压缩,然后在压缩后的潜在空间中,与文本嵌入一起训练 STDiT 扩散模型。在推理阶段,从 VAE 的潜在空间中随机采样高斯噪声,并与提示词嵌入一起输入 STDiT,得到去噪后的特征,最后通过 VAE 解码器解码生成视频。


他们提出了一种掩码策略来支持图像和视频的条件化处理。通过设置不同的掩码,可以支持各种生成任务,包括:图生视频,循环视频,视频延展,视频自回归生成,视频衔接,视频编辑,插帧等。


他们认识到数据的数量和质量对打造高效能模型至关重要,因此专注于扩充和优化数据集。他们建立了一套自动化数据处理流程,遵循奇异值分解(SVD)原则,涵盖场景分割、字幕处理、多样化评分与筛选,并设立了完善的数据集管理系统和规范。


作者团队还提供了 Colossal-AI 加速系统,以提高 Sora 的训练效率。通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果。同时,得益于 Colossal-AI 的异构内存管理系统,单台服务器(8*H800)可以无障碍地进行1分钟1080p高清视频的训练任务。


安装部署




抱抱脸在线体验

https://huggingface.co/spaces/hpcai-tech/open-sora


对于研究视频生成和内容创作的研究人员和开发者来说,Open-Sora 是一个宝贵的资源。它不仅提供了模型的实现,还包含了运行和测试模型所需的所有工具和指令。

感谢关注~, 带你学习AI,了解AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子去前夫家看孩子被杀害!车撞爆胎又捅十几刀,姐姐发文太心酸

女子去前夫家看孩子被杀害!车撞爆胎又捅十几刀,姐姐发文太心酸

林大师热点
2024-11-05 07:42:25
2024年结婚人数雪崩,中国宠物数量首次超过婴幼儿总量

2024年结婚人数雪崩,中国宠物数量首次超过婴幼儿总量

贫民窟的大富翁
2024-11-04 16:52:10
华为Mate 70即将强势来袭:看完配置真是无人能敌!

华为Mate 70即将强势来袭:看完配置真是无人能敌!

明美无限
2024-11-03 12:53:40
疯了!马斯克: 若特朗普输了,将把全部财产捐给票选特朗普的选民

疯了!马斯克: 若特朗普输了,将把全部财产捐给票选特朗普的选民

现代春秋
2024-11-05 03:36:29
河北“土皇帝”李真,办公室配4名空姐,03年注射死刑,9分钟丧命

河北“土皇帝”李真,办公室配4名空姐,03年注射死刑,9分钟丧命

历史龙元阁
2024-10-31 01:06:22
小组垫底,郑钦文出线生死战!央视直播,外媒看好:2-1拿下

小组垫底,郑钦文出线生死战!央视直播,外媒看好:2-1拿下

叶青足球世界
2024-11-04 10:27:43
无论谁当选美国总统,都会成为跛脚鸭

无论谁当选美国总统,都会成为跛脚鸭

寰宇大观察
2024-11-04 18:29:55
法国忍不住了?白兰地被中方征税后,派航母战斗群来南海进行威慑

法国忍不住了?白兰地被中方征税后,派航母战斗群来南海进行威慑

橘色数码
2024-11-04 09:12:14
顾国宁外甥女说,舅妈对舅舅爱得无法言喻,女同学说出他生前遗憾

顾国宁外甥女说,舅妈对舅舅爱得无法言喻,女同学说出他生前遗憾

叨唠
2024-11-05 04:13:14
36岁景甜晒自拍意外曝光北京豪宅,中心地段总价3000万,像住云端

36岁景甜晒自拍意外曝光北京豪宅,中心地段总价3000万,像住云端

南城无双
2024-11-04 11:01:04
39分+43分+46分!CBA又一超级外援诞生,再这么打下去真要回NBA了

39分+43分+46分!CBA又一超级外援诞生,再这么打下去真要回NBA了

老叶评球
2024-11-04 14:29:59
韩媒:小米让人真正体会到“三星的对手不是苹果”这句话!

韩媒:小米让人真正体会到“三星的对手不是苹果”这句话!

小柱解说游戏
2024-11-04 19:51:00
马克龙派高官赴华救火,拿核航母给下马威?中方的反制法国吃不消

马克龙派高官赴华救火,拿核航母给下马威?中方的反制法国吃不消

说天说地说实事
2024-11-04 20:40:52
《焚城》面临2亿巨亏,投资人想重振香港电影,呼吁刘德华退片酬

《焚城》面临2亿巨亏,投资人想重振香港电影,呼吁刘德华退片酬

光影新天地
2024-11-02 13:53:40
加沙男子称“辛瓦尔在我家被杀”:非常难过,修房子的钱打了水漂!

加沙男子称“辛瓦尔在我家被杀”:非常难过,修房子的钱打了水漂!

红星新闻
2024-10-22 16:14:16
许家屯:被英国收买,贪腐卖国,被调查时携女人叛逃,结局如何?

许家屯:被英国收买,贪腐卖国,被调查时携女人叛逃,结局如何?

阿胡
2024-11-01 15:18:33
大选结果即将揭晓,特朗普能赢吗?

大选结果即将揭晓,特朗普能赢吗?

山河路口
2024-11-04 20:29:13
梁晓声:宁可在富人堆里做穷人,也不要去穷人堆里做富人

梁晓声:宁可在富人堆里做穷人,也不要去穷人堆里做富人

清风拂心
2024-10-27 16:06:25
朝鲜公开毛岸英牺牲真相:内容简短却很炸裂,真正凶手不是美国人

朝鲜公开毛岸英牺牲真相:内容简短却很炸裂,真正凶手不是美国人

南书房
2024-07-29 18:53:04
杭州保姆纵火案通灵实录:通灵人与被害人交流,得知朱小贞真实死因

杭州保姆纵火案通灵实录:通灵人与被害人交流,得知朱小贞真实死因

可儿故事汇
2024-08-29 12:50:53
2024-11-05 09:46:44
带你学AI
带你学AI
分享最前沿AI知识,先进的AI工具
131文章数 2关注度
往期回顾 全部

科技要闻

硅谷2024最疯狂投资:押注下一任美国总统

头条要闻

16岁少年疑被骗往缅北 父亲收蹊跷信息:你儿子很安全

头条要闻

16岁少年疑被骗往缅北 父亲收蹊跷信息:你儿子很安全

体育要闻

一个想改变中国足球的日本人

娱乐要闻

周雨彤道歉:这绝不是我的初衷!

财经要闻

特朗普无牌可打

汽车要闻

轴距增加60mm还配副驾屏 一汽-大众探岳L正式下线

态度原创

家居
手机
本地
教育
公开课

家居要闻

摩登现代氛围 用色块勾勒空间

手机要闻

realme UI 6.0 第二轮内测细则公布,今日 10:00 开启招募

本地新闻

云游中国|我与这座城市 合得来 不怕肥

教育要闻

一棵永远成长着的树——小学语文主题教学三十年的探索与超越

公开课

AI如何揭开大自然和宇宙的奥秘

无障碍浏览 进入关怀版