网易首页 > 网易号 > 正文 申请入驻

潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025

0
分享至

编辑部 发自 凹非寺
量子位 | 公众号 QbitAI

奥特曼说,Sora代表了视频生成大模型的GPT-1时刻。

从开年到现在,国内外、初创独角兽到互联网大厂,都纷纷投入视频生成领域,带来一个个新鲜模型的同时,视频、影视行业也随之发生巨变。

不可否认,当下的视频生成模型还遇到诸多问题,比如对空间、对物理规律的理解,我们都期待着视频生成的GPT-3.5/4时刻到来。

在国内,有这样一家从加速训练出发的初创公司,正在为此努力。

它就是潞晨科技,创始人尤洋博士毕业于UC伯克利,后赴新加坡国立大学担任校长青年教授。

今年潞晨科技在加速计算领域之外,开发视频生成模型VideoOcean,为行业带来更具性价比的选择。

在MEET 2025现场,尤洋博士也向我们分享这一年对于视频生成领域的理解与认知。



MEET 2025智能未来大会是由量子位主办的行业峰会,20余位产业代表与会讨论。线下参会观众1000+,线上直播观众320万+,获得了主流媒体的广泛关注与报道。

核心观点梳理

  • 视频生成模型应该实现精细化文本控制、任意机位/任意角度、角色一致性、风格定制化
  • 3年后或许就能迎来视频生成的GPT-3.5/GPT-4时刻
  • 视频生成大模型的一个直接应用价值就是突破现实的限制,极大降低真实场景复现难度。

(为更好呈现尤洋的观点,量子位在不改变原意的基础上做了如下梳理)

3年后或是视频大模型的GPT-3.5时刻

今天非常开心来到量子位大会,非常开心和大家交流,今天讲一下我们在视频大模型领域做的一些工作。

首先是我和我的创业公司潞晨科技的介绍。我从UC伯克利毕业到新加坡国立大学任教,很荣幸创办了潞晨科技。



我们之前是做算力优化的。2018年谷歌打造了世界上第一个千卡集群TPU Pod,当时世界上最大的模型还是BERT。我们帮助谷歌,将(当时)世界上最大模型的训练时间从3天压缩到76分钟

也很荣幸,去年华为盘古大模型的一个工作也是我们一起来做的,并获得了ACL最佳论文。我们的技术帮助华为盘古大模型在训练中更高效。微软、英伟达等公司团队也使用了我们的技术做一些分布式训练,我们希望让大模型训练更快、成本更低。



步入今天的话题,来重点介绍一下视频生成大模型。

我们打造了一个产品叫Video Ocean,现在正处在测试阶段。先来介绍一下产品,后面再探讨我觉得视频大模型将会如何发展。

首先,我觉得视频大模型第一个重要的方面是,它应该能够实现精细化的文本控制。

其实我们今天都在用AI去生成大模型了,我们肯定希望它能够精准反映出想要的东西。但很遗憾,比如现在用文生图APP去生成图片时,还是会发现很多图片内容无法做到精准控制,所以我认为这方面还有很大的发展空间。

在Video Ocean模型训练过程中,我们做了一些初步探索。一个比较好的例子,我们能够精准地提供一些描述,戴着墨镜,长的胡茬的欧洲男人。显而易见这个视频里面确实是我们想要的那个感觉,蓝天、海岸、沙滩、背光、单手持相机、黑色T恤,也有对着镜头说话。



我认为AI视频大模型未来3年可能最重要的还是实现视频大模型的Scaling Law。

这个过程不需要非常炫酷的产品能力,最重要的是把它的模型与现实世界的连接能力做到极致。我觉得最终形态就是人们说一段话、给一段描述,它能精准地把描述以视频的方式展示出来。

所以我觉得未来3年,AI视频大模型就像山姆·奥特曼说的那样,今天是Video的GPT-1时刻,可能3年后到视频大模型的GPT-3.5、GPT-4时刻。

这里展示一下Video Ocean的Demo,目前我们做到了这样的水平。

第二点是未来视频大模型怎样能够实现任意机位、任意角度。

现在拍电影、拍纪录片可以拿着手机、摄像机不断地晃,想怎么晃就怎么晃,这样是对镜头有真实控制的。未来AI视频大模型,首先应该做到这一点,同样的描述,换一下角度、换一个镜头,它的形象是不应该改变的,它就是同样一个物体。

更进一步讲,未来AI视频大模型还能颠覆很多行业。比如现在看足球、看篮球赛,我们看到的镜头是现场编导给我们看的镜头。他给我们看远景、近景。

未来能不能依靠AI视频大模型,人来控制镜头,决定想要看哪,相当于在体育场里可以瞬间移动,移动到教练席、最后一排、第一排。任意机位、任意角度的控制。我觉得未来AI视频大模型在这方面也是非常关键的,当然当然Video Ocean现在做了一些尝试,初步效果还是不错的。

我觉得第三点重要的是角色一致性。

因为做出AI视频大模型,最终肯定是需要产生营收、实现变现的。谁会愿意为这个付费,比如广告工作室、广告商、电商博主、影视行业。如果深入这些行业的话,一个关键点是角色一致性。

比如一个产品的广告,肯定从头到尾这个视频中的衣服、鞋、车,样貌不能有太大变化,物体角色保持一致性。

拍一部电影,从开头到结尾,主演的样貌、关键配角的样貌肯定也不能变化,在这方面Video Ocean也做一些很好的探索。

再一个是风格的定制化。我们知道现在演员人工成本是非常贵的,道具成本也很高。

未来3年之内,如果AI视频大模型正常发展,我感觉会有一种需求,比如一个导演可以让一个演员在游泳池里拍一段戏,然后拿到素材通过AI将它转成泰坦尼克场景下的游泳,转成阿凡达场景下的游泳,这种能力反而是AI最擅长的。赋予电影感、艺术感的画面。

总之大模型一个直接的应用价值就是突破现实的限制,能够极大降低真实场景复现的难度。

可能之前大家听过一个段子,好莱坞导演想制造一个爆炸镜头,他算了一下预算,第一种方案是盖一个城堡把它炸掉,第二个方案是用计算机模拟这个画面。成本算下来之后,发现这两种方案的成本都很高,当时用计算机模拟的成本更高,现在AI就是要大幅降低大模型对于生成电影的成本。

如果这一点实现后,我们可以不受场地、天气等外部因素的限制,并减少对真实演员的依赖。这倒不是抢演员的饭碗,因为一些关键镜头是非常危险的,比如演员跳飞机、跳楼,演员去解救即将引爆的炸弹之类,这种镜头未来只需要演员的身份和肖像权,AI可以把这样的镜头做好,所以对电影行业能够极大做到降本增效。

正如昆仑万维方汉老师刚才说的,虽然我们的计算资源有限,但是我们发现通过更好的算法优化确实能够训出更好的效果,比如Meta使用6000多个GPU训练30B的模型,最近我们会在一个月内发一个10B版的模型,我们仅用了256卡。

Video Ocean前身是我们团队先打造了一个Open-Sora的开源产品,这个开源产品是完全免费的,在Github上,效果非常不错,比如美国独角兽Lambda labs做了一个火爆的应用数字乐高,其实这个数字乐高就是基于Open-Sora做的。



今年年初Sora出来之后,各种短视频巨头都对视频大模型这一块比较重视,比如中国的快手、抖音,美国就是Instagram、TikTok、SnapChat,这可以看到SnapChat的视频模型也在早些时候发布了,叫Snap Video,这是它的官方论文,他们就引用了我们训练视频大模型的技术,所以说这些技术也帮助一些巨头真正把视频大模型训得更快,精度更高,智能程度更高。



谢谢大家!

点击https://video.luchentech.com可体验Video Ocean更多详细能力

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2025年,上海老破小要翻身了

2025年,上海老破小要翻身了

魔都财观
2025-01-05 08:42:03
男子大闹超市声称其卖得日本洗发水是假货,日本根本就没有卖

男子大闹超市声称其卖得日本洗发水是假货,日本根本就没有卖

映射生活的身影
2025-01-05 14:20:26
徐静雨:没有库里勇士居然赢了灰熊 维金斯今年比赛动力大大加强

徐静雨:没有库里勇士居然赢了灰熊 维金斯今年比赛动力大大加强

直播吧
2025-01-05 12:31:20
温暖纯真?暗自发狠?维金斯被撞飞后 微笑着爬起来

温暖纯真?暗自发狠?维金斯被撞飞后 微笑着爬起来

直播吧
2025-01-05 13:24:24
郑钦文来了!最新训练照曝光,肌肉线条明显,澳网冠军稳了

郑钦文来了!最新训练照曝光,肌肉线条明显,澳网冠军稳了

体育就你秀
2025-01-04 18:20:56
78年我提干后回家探亲,未及时告诉未婚妻,她第二天就提出退婚

78年我提干后回家探亲,未及时告诉未婚妻,她第二天就提出退婚

农村情感故事
2024-12-19 07:17:29
两性之间,有一种玩玩而已,叫“无所谓”

两性之间,有一种玩玩而已,叫“无所谓”

心语悦读
2024-12-27 08:35:52
星光大赏一夜,男神洗牌,肖战一博于适登顶,吴磊16李现11成毅2

星光大赏一夜,男神洗牌,肖战一博于适登顶,吴磊16李现11成毅2

祝晓塬
2025-01-05 09:43:10
武切维奇交易进展:勇士已进行多轮报价,公牛想要从中得到TJD

武切维奇交易进展:勇士已进行多轮报价,公牛想要从中得到TJD

鸡丁侃球
2025-01-05 05:58:35
太聪明了!多名导演联合发声后,舆论逆转,张颂文这一招太牛了

太聪明了!多名导演联合发声后,舆论逆转,张颂文这一招太牛了

小冠说娱
2025-01-04 14:30:41
在金正恩的治理下,朝鲜的高速路全部免费,还有农民在上面晒粮食

在金正恩的治理下,朝鲜的高速路全部免费,还有农民在上面晒粮食

明史专家
2025-01-03 23:28:16
纪念金文声诞辰演出,李菁忙演话剧没空来,郭德纲徒弟给他长脸

纪念金文声诞辰演出,李菁忙演话剧没空来,郭德纲徒弟给他长脸

蜜桔娱乐
2025-01-05 12:45:00
纵览原创|邯郸“涛的饭店”突然火爆全网,饭店老板:不知为何突然火爆,夫妻小店开了6年,只想认认真真做好每道菜

纵览原创|邯郸“涛的饭店”突然火爆全网,饭店老板:不知为何突然火爆,夫妻小店开了6年,只想认认真真做好每道菜

纵览新闻
2025-01-04 00:03:03
女人想“要”你了,定会有以下这几种生理反应,一般人都克制不了

女人想“要”你了,定会有以下这几种生理反应,一般人都克制不了

十二生肖运势分析
2024-11-09 05:55:03
黄有龙父母埋怨赵薇,婚后15年从未踏足婆家,3000万豪宅空无一人

黄有龙父母埋怨赵薇,婚后15年从未踏足婆家,3000万豪宅空无一人

壹月情感
2025-01-04 21:57:19
“黄河精灵”2018年现身山东东阿县,几十年来首次,中国特有物种

“黄河精灵”2018年现身山东东阿县,几十年来首次,中国特有物种

万象硬核本尊
2025-01-04 20:24:18
多地商务厅确认!2025汽车补贴无缝衔接,力度更猛

多地商务厅确认!2025汽车补贴无缝衔接,力度更猛

科技每日推送
2025-01-03 18:05:40
“甲硝唑”便宜又好用,能治什么病?医生:7种病可适用,别乱用

“甲硝唑”便宜又好用,能治什么病?医生:7种病可适用,别乱用

小熊侃史
2024-12-05 07:20:03
英媒曝俄机密文件:若与北约开战,俄罗斯将首先打击中国两个邻国

英媒曝俄机密文件:若与北约开战,俄罗斯将首先打击中国两个邻国

青烟小先生
2025-01-05 16:15:03
陈思诚又赌对了!《误杀3》票房井喷,女一号出场惊艳全场

陈思诚又赌对了!《误杀3》票房井喷,女一号出场惊艳全场

热闹的河马
2025-01-04 15:15:08
2025-01-05 16:59:00
量子位 incentive-icons
量子位
追踪人工智能动态
9871文章数 175830关注度
往期回顾 全部

科技要闻

中国政府拟限制磷酸铁锂技术出口

头条要闻

女大学生叫顺风车独享被司机扔高速 嘀嗒通报全程细节

头条要闻

女大学生叫顺风车独享被司机扔高速 嘀嗒通报全程细节

体育要闻

波杰姆斯基:你们都算老几?

娱乐要闻

闹大!姜尘语音实锤张颂文 公开细节

财经要闻

商汤重组后海外收缩 正缩减新加坡办公室

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

教育
房产
数码
艺术
军事航空

教育要闻

春季高考作文题出炉了,劳动使大地改变模样

房产要闻

中交 × 鱼珠 | 高定江景梦幻联动,打造都市精英的 “临江乌托邦”

数码要闻

Android 15 新功能曝光:有望支持助听器快速配对

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

军事要闻

以军袭击加沙地带已致至少66人死亡

无障碍浏览 进入关怀版