网易首页 > 网易号 > 正文 申请入驻

北大与兔展智能发起复现Sora,框架已开源

0
分享至

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

北大团队联合兔展发起了一项Sora复现计划——Open Sora

框架、实现细节已出:

初始团队一共13人:

带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人。

为什么发起这项计划?

因为资源有限,团队希望集结开源社区的力量,尽可能完成复现。

消息一出,就有人北大校友等人即刻响应:

还有人表示可以提供高质量数据集:

所以,“国产版Sora”的新挑战者,就这么来了?

计划细节,已完成3个初步功能

首先,来看目前公布的技术细节——即团队打算如何复现Sora。

整体框架上,它将由三部分组成:

  • Video VQ-VAE
  • Denoising Diffusion Transformer(去噪扩散型Transformer)
  • Condition Encoder(条件编码器)

这和Sora技术报告的内容基本差不多。

对于Sora视频的可变长宽比,团队通过参考上海AI Lab刚刚提出的FiT(Flexible Vision Transformer for Diffusion Model,即“升级版DiT”)实施一种动态掩码策略,从而在并行批量训练的同时保持灵活的长宽比。

具体来说, 我们将高分辨率视频在保持长宽比的同时下采样至最长边为256像素, 然后在右侧和底部用零填充至一致的256x256分辨率。这样便于videovae以批量编码视频, 以及便于扩散模型使用注意力掩码对批量潜变量进行去噪。

对于可变分辨率,团队则表示在推理过程中,尽管在固定的256x256分辨率上进行训练,,但使用位置插值来实现可变分辨率采样。

具体而言:

我们将可变分辨率噪声潜变量的位置索引从[0, seq_length-1]下调到[0, 255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。对于可变时长,则使用VideoGPT中的Video VQ-VAE,,将视频压缩至潜在空间,支持这一功能。

同时,还要在扩展空间位置插值至时空维度,实现对可变时长视频的处理。

在此,主页也先给了两个demo,分别是10s视频重建和18s重建,分辨率分别为256x256和196x196:

这三个功能都已经初步实现。

相关的训练代码也已经在对应的仓库上上线:

成员介绍,目前的训练是在8个A100-80G上进行的(明显还远远不够),输入大小为8帧128128,大概需要1周时间才能生成类似ucf(一个视频数据集)的效果。

而从目前已经列出的9项to do事项来看,除了可变长宽比、可变分辨率和可变时长,动态掩码输入、在embeddings上添加类条件这两个任务也已完成。

未来要做的包括:

  • 采样脚本
  • 添加位置插值
  • 在更高分辨率上微调Video-VQVAE
  • 合并SiT
  • 纳入更多条件
  • 以及最重要的:使用更多数据和更多GPU进行训练

袁粒、田永鸿领衔

严格来说,Open Sora计划是北大-兔展AIGC联合实验室联合发起的。

领衔者之一袁粒,为北大信息工程学院助理教授、博导,去年获得福布斯30岁以下亚洲杰出人物榜单。

他分别在中国科学技术大学和新加坡国立大学获得本科和博士学位。

研究方向为深度视觉神经网络设计和多模态机器学习,代表性一作论文之一T2T-ViT被引次数1000+。

领衔者之二田永鸿,北京大学博雅特聘教授,博士生导师,IEEE、ACM等fellow,兼任鹏城实验室(深圳)人工智能研究中心副主任,曾任中科院计算所助理研究员、美国明尼苏达大学访问教授。

从目前公布的团队名单来看,其余成员大部分为硕士生。

包括袁粒课题组的林彬,他曾多次以一作或共同一作身份参与了“北大版多模态MoE模型”MoE-LLaVA、Video-LLaVA和多模态对齐框架LanguageBind(入选ICLR 2024)等工作。

兔展这边,参与者包括兔展智能创始人、董事长兼CEO董少灵(他也是北大校友)以及CTO周星。

完整名单:

谁能率先发布中文版Sora?

相比ChatGPT,引爆文生视频赛道的Sora研发难度显然更大。

谁能夺得Sora中文版的首发权,目前留给公众的是一个大大的问号。

在这之中,传闻最大的是字节

今年2月初,张楠辞去抖音集团CEO一职,转而负责剪映,就引发了外界猜测。

很快,一款叫做“Boximator”的视频生成模型浮出水面。

它基于PixelDance和ModelScope两个之前的成果上完成训练。

不过,很快字节就辟谣这不是“字节版sora”:

它的效果离Sora还有很大差距,暂时不具备落地条件,并且至少还需2-3个月才能上线demo给大家测试。

但,风声并未就此平息。

去年11月,字节剪映悄悄上线了一个AI绘画工具“Dreamina”,大家的评价还不错。

现在,又有消息称:

Dreamina即将上线类似sora的视频生成功能(目前在内测)。

不知道,这一次是不是字节亮出的大招呢?

Open Sora项目主页:
https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html
https://github.com/PKU-YuanGroup/Open-Sora-Plan

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“就差报身份证号了”,省考岗位要求堪比寻人启事,精准定制?

“就差报身份证号了”,省考岗位要求堪比寻人启事,精准定制?

熙熙说教
2024-11-05 16:52:46
42岁姚笛加拿大吃中餐,鼻翼变大素颜认不出,近况和文章迥然不同

42岁姚笛加拿大吃中餐,鼻翼变大素颜认不出,近况和文章迥然不同

古希腊掌管月桂的神
2024-11-05 10:43:50
美国大选:一地已完成最早开票!宾州再成为最重要摇摆州

美国大选:一地已完成最早开票!宾州再成为最重要摇摆州

项鹏飞
2024-11-05 22:35:31
凤凰网采访:沙白本想把器官捐献,死前还为父亲安排好一件事!

凤凰网采访:沙白本想把器官捐献,死前还为父亲安排好一件事!

古希腊掌管月桂的神
2024-11-05 09:15:57
普京会见崔善姬

普京会见崔善姬

新京报
2024-11-05 10:22:56
美国大选冲刺最后时刻!哈里斯和特朗普谁能创造历史?

美国大选冲刺最后时刻!哈里斯和特朗普谁能创造历史?

第一财经资讯
2024-11-05 16:36:17
妈妈吐槽失业女儿“一直省心的女儿突然烂掉了” 评论区网友破防了

妈妈吐槽失业女儿“一直省心的女儿突然烂掉了” 评论区网友破防了

有趣的火烈鸟
2024-11-05 19:55:11
为了让女儿在美国上学,母亲呼吁网友捐款200万:必须上优质学校

为了让女儿在美国上学,母亲呼吁网友捐款200万:必须上优质学校

小盖纪实
2024-10-22 15:20:11
21年前,“女子十二乐坊”爆火,放弃中国去日本发展,结果如何?

21年前,“女子十二乐坊”爆火,放弃中国去日本发展,结果如何?

圈里的甜橙子
2024-11-05 16:11:36
特朗普媒体科技集团再次触发熔断

特朗普媒体科技集团再次触发熔断

财联社
2024-11-06 04:22:13
彻底闹大!“瑞士卷”女主被网信办核实调查,更多可疑细节被扒

彻底闹大!“瑞士卷”女主被网信办核实调查,更多可疑细节被扒

叨唠
2024-11-05 21:34:07
华为内部论坛发相亲帖,毁了三观。加好友第一句:小姐姐“y”么

华为内部论坛发相亲帖,毁了三观。加好友第一句:小姐姐“y”么

蚂蚁大喇叭
2024-11-04 14:53:55
德国选择不再用华为和中兴的5G技术,这一决定引发了中国的反应

德国选择不再用华为和中兴的5G技术,这一决定引发了中国的反应

星辰故事屋
2024-11-05 21:06:07
柳叶刀:中国“饮食杀手”不是油和糖,致死率前三的吃法,尽快改

柳叶刀:中国“饮食杀手”不是油和糖,致死率前三的吃法,尽快改

39健康网
2024-11-03 18:30:50
时隔三个月,巴黎奥运金牌数大反转,中国或反超美国,锁定第一位

时隔三个月,巴黎奥运金牌数大反转,中国或反超美国,锁定第一位

球盲百小易
2024-11-06 01:32:42
担忧选举结果引发暴乱 美国51位总检察长呼吁“和平移交权力”

担忧选举结果引发暴乱 美国51位总检察长呼吁“和平移交权力”

财联社
2024-11-05 22:20:13
笑疯了!很多家长吐槽孩子上初中后就臭了!网友:都这样我就放心了

笑疯了!很多家长吐槽孩子上初中后就臭了!网友:都这样我就放心了

滑稽斑马呀
2024-11-05 17:06:11
亚冠东亚区积分榜:申花积7分居第3,海港积4分居第9掉出晋级区

亚冠东亚区积分榜:申花积7分居第3,海港积4分居第9掉出晋级区

直播吧
2024-11-05 20:08:38
薇雅卷土重来!现身杭州盖直播大楼,容貌大变,合照与老公站C位

薇雅卷土重来!现身杭州盖直播大楼,容貌大变,合照与老公站C位

娱乐书坊
2024-11-05 11:17:56
痛别!她于12时18分逝世

痛别!她于12时18分逝世

鲁中晨报
2024-11-05 14:35:05
2024-11-06 09:36:49
量子位
量子位
追踪人工智能动态
9554文章数 175661关注度
往期回顾 全部

科技要闻

苹果警告:iPhone这么赚钱的产品不会再有了

头条要闻

以防长加兰特被解雇后警告:"道德黑暗"已席卷以色列

头条要闻

以防长加兰特被解雇后警告:"道德黑暗"已席卷以色列

体育要闻

皇马揪出头号罪人!失误+梦游 2次送大礼

娱乐要闻

看完红毯,眼前一黑又一黑…

财经要闻

美国大选后的经济猜想

汽车要闻

新款别克世纪将11月12日上市 预售价48.99万起

态度原创

旅游
时尚
本地
数码
家居

旅游要闻

北京环球影城大巡游本周六起回归

秋季普通人更适合日系穿搭,简约高级,怎么穿都能轻松穿出好气质

本地新闻

塞上青城|是课本里的风吹草低见牛羊

数码要闻

荣耀四款新机通过国内 3C 认证:配 100W 充电器

家居要闻

纯粹干净空间 极简米灰色基调

无障碍浏览 进入关怀版