网易首页 > 网易号 > 正文 申请入驻

实测字节全新豆包·视频生成模型:Sora 画的饼被实现了......

0
分享至


OpenAI搭好戏台,主角却是字节跳动。

作者丨林杰鑫

编辑丨陈彩娴

过去3个月中国厂商在AI视频赛道已经杀疯了。从快手可灵到Minimax 海螺AI、生数科技Vidu、智谱清影,每个AI视频产品的发布都在全球范围内获得广泛认可。并且由于Sora的超长期货行为,在看到中国AI视频生成模型的效果之后,外国人直呼“We don't need Sora anymore.”,并在过去几个月一直想方设法拿中国手机号注册体验国内的AI产品。


但更多的网友则是期待字节的视频生成模型,因为早在去年11月,字节的项目Make Pixels Dance就已经展示出其具备了解决长AI视频中角色一致性难以保持这一问题的能力。所以我也看到很多外网网友的另一个问题“Where is ByteDacne?”。

而就在9.24火山引擎AI创新巡展深圳站上,火山引擎一口气发布了2个视频生成模型PixelDance和Seaweed模型。兄弟们感受下这个丝滑的运镜和转场,10秒钟时间从跟随一个女人走进人群,然后女人转身镜头跟着右旋然后改变焦距变到另一个场景。这种效果相较于现在的AI只能说是断层式的领先。


外网看了视频的人,直接确认了,很可怕,但我没有中国手机号。(PS:是不是可以考虑模仿一下那些搞GPT的人,反向输出一波?)当然这次咱们也很幸运拿到了测试资格,测试前我先总结了所有AI视频产品都会有的问题:


其他AI视频生成效果展示

1、语义理解差。不管提示词写的多认真,产品会抽风乱生成,这问题体现在 人物动作、画面风格、运镜、天气、各种补充细节上。而且一些国外产品由于语种的问题,就算我们用翻译软件也很难达到原生语种的水平。比如上面这个想让镜头上抬,人物抬头看向天空,AI直接给来一手人头气球。提示词写的像情书一样深情,寄给AI之后换来的却是一坨大的。


其他AI视频生成效果展示

2、一致性差,用AI进行影视创作的小伙伴都会面临这个问题,一个6秒的视频如果涉及到镜头切换或者高速运动,那么画面内容必定变形甚至出现国足行为,要把球踢出去镜头一转球像磁铁一样吸到脚上要进自家球门。

所以这次豆包·视频生成模型的测试我会重点关照这些问题,能按照需求生成视频是AI视频能服务专业影视创作者的基础条件。同时拉上可灵、Minimax、老玩家Runway以及LUMA,看看是先发者保持优势还是后来者登基为王。

1

空间理解测试

提示词:胶片质感,下雨天,四周堆满垃圾的小巷里,镜头拍摄一只橘猫转身走向巷子深处,雨水倒映它的身体。

英文提示词:Film texture, on a rainy day, the camera shot an orange cat turned to go deep into the alley, the rain reflected its body.

上面提示词虽短。但测试点却有4个:1、画面是胶片风格;2、场景是堆满垃圾的小巷。3、橘猫转身走向巷子需要AI反推出猫一开始是面对镜头的然后转身走;4、雨水要能倒映猫和场景。

首先是豆包·视频生成模型的作品。我只能说完成度太高了,我只生成了一遍,就觉得OK了。有种当年Sora刚出现的震撼感。猫在水里的倒影、脚步踩过水面泛起的涟漪....甚至走到尽头垃圾堆有起伏,猫脚落地点都抬高了,说明AI在生成的时候甚至注意到了地形!!!


对比一下这是用可灵1.5高画质模式生成的,可灵的动态天气也很厉害,但问题就出在这个胶片质感用力过猛,猫都变成饱和度战士了。而且猫在加速跑时尾巴出现一下变长一下变短的情况。


再看一下Minimax的海螺AI,我觉得海螺的画面观感比可灵好很多,胶片质感也到位。但是很可惜,没有理解到猫转身这个动作。

接下来看下国际服选手LUMA和Runway的表现。


LUMA怎么说呢,这种画面放到网上,大家可能会说很惊艳。但如果用来影视创作那绝对是不合格的。场景没按要求生成、猫也没转身走到巷子深处,猫脸甚至还是糊的.......只能说,拉得很彻底......


Runway也拉了,这雨下得怕是胶水,猫脚完全动不了,甚至猫还学会了中国的川剧变脸!

在这次空间理解测试中,豆包·视频生成模型是毋庸置疑的第一。不管是隐藏测试点猫面向镜头然后转身,还是水面的物理反射、按照提示词对场景的搭建能力都属于断层式第一。可灵猫尾巴变形了,但其他要求也是完美执行能排第二。第三名是Minimax,场景还原到位,但猫这个演员不怎么配合演出,生成了3次都不配合。至于LUMA和Runway,不知道是不是训练了什么诡异素材,猫的脸都很抽象。

2

特效电影测试

提示词:深夜的巷子漂浮着浓烟,地面污水横流,许多老鼠走来走去,镜头逐渐推进到一个雪人戴着礼帽坐在垃圾桶上仰头喝啤酒,随后扔掉啤酒瓶。镜头特写啤酒瓶在地面上滚动,老鼠向四周逃窜。

英文提示词:There is thick smoke floating in the alley late at night, sewage flowing across the ground, and many rats walking around. The camera gradually advances to a snowman wearing a top hat sitting on a trash can, drinking beer, and then throwing away the beer bottle. Close-up shot of beer bottles rolling on the ground and mice scurrying around.

测试点:复杂的场景,两次镜头变化高度考验场景一致性,现实和3D动画的画风融合(这种一般在影视中要做特效,很烧钱。)

这次我不打算先放豆包了,太欺负人,咱先看看其他几家表现。

首先是可灵,这里我用的是1.5的模型,花钱了就是不一样,画质肉眼可见的高清。先说完成项:场景完成度到位,浓雾、水、老鼠、镜头推进。加分项:画质不错。扣分项:人物没有坐在垃圾桶上,没有仰头喝酒、扔酒瓶的操作,镜头没特写扔酒瓶。


接下来是海螺AI,海螺这个镜头我挺喜欢的,先从老鼠和浓雾开始有大片的感觉。结果他镜头是后移不是推进。这雪人估计造他的女娲不算用心。而且也没有仰头喝酒,虽然扔了酒瓶但没有执行酒瓶在地面滚动吓跑老鼠的镜头特写。


好了看完国内组,再看看国际组的表现,Runway表现还是持续拉胯,感觉文生视频这块算是没救了。老鼠没老鼠,水也没有水,要求让雪人穿衣服也只戴了个帽子,更重要的是镜头完全没动.......


LUMA这波的表现画面中只有镜头和烟雾在动,老鼠和雪人感觉只是手办摆件。在影视创作中又是一条废片。

最后是豆包·视频生成模型,这画面第一眼观感就是通透而且所有要求都做到了,浓雾、老鼠、雪人的动作和服装甚至是镜头推进的要求也完成了。最重要的是,兄弟真来了个镜头特写切换到酒瓶丢到地面上。这个片段我真的反复看了很多遍,就是雪人随手一扔然后画面丝滑切换到酒瓶落地。酒瓶跟手里那个一模一样,地面场景跟开头场景一模一样,丢到地上还高清化了。而且地上那些雪我估计是雪人老哥留下的,颗粒分明!!

好了这一场评分我只能说.....豆包·视频生成模型再次断层式第一,我现在是真没心思写文章。以前被其他AI封印的灵感都爆发了,只想赶紧写完文章然后再去搞一波。当然本场排名依然是中国队领先。继可灵炸场之后,字节干了件更大的事——掀桌!!!

上面的雪人喝啤酒动画意味着豆包·视频生成模型在动画教育也能大展拳脚。于是我又生成了一个毛毡动画风格的短片。提示词:夜晚森林中的篝火派对,穿着超人服装的小猪在打碟,其他小动物跟着节奏一起摇摆。

我发现画面中总共14只动物,居然都是同一时间做动作,他们是真的有自己的节奏!!!也就是关于AI视频进行多角色动作控制的难题,已经被豆包·视频生成模型完美解决。

我也在官方的Demo中看到了这种多只绵羊一起跑的画面,也就是说如果有小伙伴要做古装战争片,以后生成什么千军万马过大江的画面,豆包·视频生成模型也完全能胜任!

而刚刚扔酒瓶后切换镜头后的一致性,我相信所有影视爱好者都会疯狂。因为像这种从身上掏钥匙开车的连续画面以往AI想都不用想,最多就是分成几个视频生成。而现在,豆包表示不好意思,一镜到底!

3

对决sora

说了这么多,还是要跟Sora对线一波。小编在之前就有聊过Sora为啥迟迟不上线的原因。这里简单总结下问题,然后进行测试,看看豆包·视频生成模型能否解决Sora暴露出来的问题。

这个气球男孩的短片大家肯定都很熟悉,是影视团队shykids借助Sora耗时2周制作的。但团队后来爆料视频最终成品跟原定的剧本完全不符合。问题可以总结为:角色一致性差、语义理解差。核心原因是因为Sora只支持文生视频。


比如在广场奔跑这个镜头,文字要求的是,黄色气球人穿着正装从广场左边跑向右边,生成的却是,头顶纸袋的人追红色气球。或者一个通灵的衣服拉着气球裸奔。跟要求的运动方向和画面内容完全不符。


再比如人脸和玩滑板画面,AI会在气球上印人脸,甚至直接让人顶着气球玩。而且AI对很多东西都有刻板印象,比如气球一定要被线拉着导致他们后期要用AE处理。


并且生成素材很花时间,3~20秒的画面通常要10到20分钟来生成,团队至少生成了300多个片段,花上50多小时,再用Topaz工具提升画面分辨率。最终得到的素材总时长约1.2小时,却只能做出80秒的短片。另一个问题就是Sora很喜欢生成慢动作视频,很多视频看起来都是0.5倍速播放。

而Sora表现出来的问题,像广场中气球人不理解空间位置乱跑。豆包·视频生成模型已经有比较好的表现,像这只小猫咪,叫他转身走,人家就转身走。

角色特征的问题,人家甚至能在10秒时间内360度无死角展示主角外观,同时还完成了场景的切换和镜头的变焦。这能力在目前我看到的Sora生成的影片中还没见过!

4

总结

其实字节这次表现可以说是在我意料之中。因为从Sora还没发布之前,字节就一直加码AI视频技术领域的研究。文章开头我也讲了5月份的时候,字节的视频生成模型研究就已经征服了外网网友。


至于现在各大平台最近才上线的运动画笔功能,其实字节2月份的时候就已经研究出来了,项目名为Boximator。通过框选目标AI会智能识别不同主题,甚至让狗和球产生逼真互动。

再往回追溯你会发现,去年11月份,人家的“Make Pixels Dance”项目就已经能生成3分钟时长的北极熊冒险视频。 所以字节这一波登场看似惊艳实则合理。 反观Sora的现状我也不好评价,给我最大的感觉就是一把火点燃了AI视频,然后由于产品没开发完整把自己憋死了......

最后说一下,豆包·视频生成模型也是 DiT 架构,跟Sora是同类型的技术。其实说开了就是扩散模型和Transformer相结合,在2023年的计算机视觉会议上因“缺少创新性”而遭到拒绝。因为刚出来的时候很多人不看好用这个架构做视频生成模型,入门门槛太高了。

为什么说 DiT 架构入门门槛高?因为首先需要厂商有自己的语言大模型,然后借助大模型的能力来辅助指导扩散模型生成视频。讲人话就是,你在用豆包·视频生成模型,其实豆包语言大模型也参与了工作,它是一个翻译官的角色负责把你的内容优化成视频生成模型更容易理解的话。这样子生成的画面才更符合用户提示词的要求。


这也是为什么后来国内的几个AI视频厂商在语义理解方面压着国外打,甚至于runway gen3直接放弃文生视频只做图生视频了,因为他们没怎么做大模型相关研发。

当然,像豆包·视频生成模型这么离谱的能力,其深层次原因还是在于团队研发新的扩散模型训练方法,保证一致性多镜头生成的稳定性,同时深度优化Transformer结构提升视频生成的泛化能力。简单说就是所有的技术都是定制化的。才有了现在10秒讲一个完整故事,分镜多、可控主题多、一致性还稳定的超能力。

字节的这波爆发并不意味彻底压垮Sora,因为OpenAI的大模型底子还在,Dall·E 的底子也还在,不过要是OpenAI的产品继续难产,那Sora要稳坐AI视频这个王位恐怕不行。


更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看完南师大副院长和女博士的“教科书”版聊骚,还是得多读书啊!

看完南师大副院长和女博士的“教科书”版聊骚,还是得多读书啊!

沧海一书客
2025-02-28 08:50:01
血亏45万!月供6000压垮三代人:合肥业主亲述被房贷吞噬全过程

血亏45万!月供6000压垮三代人:合肥业主亲述被房贷吞噬全过程

科学发掘
2025-03-12 11:49:13
《哈利波特》的女演员宣布将在OnlyFans上发布作品

《哈利波特》的女演员宣布将在OnlyFans上发布作品

随波荡漾的漂流瓶
2025-03-11 19:53:01
浙大48岁教授离世警示:没有任何一份工作比你的健康更重要

浙大48岁教授离世警示:没有任何一份工作比你的健康更重要

洞见
2025-03-13 21:57:11
卡米拉遭王室“清洗”“受伤”,投奔“前夫哥”一家求“抱抱”

卡米拉遭王室“清洗”“受伤”,投奔“前夫哥”一家求“抱抱”

阿凫爱吐槽
2025-03-13 22:53:24
凌晨2点!郑钦文vs斯瓦泰克,比赛时间有变,CCTV5更新节目单

凌晨2点!郑钦文vs斯瓦泰克,比赛时间有变,CCTV5更新节目单

大秦壁虎白话体育
2025-03-13 16:53:27
为何不能“倒水”冲马桶?多亏维修师傅:看似节俭实则隐患很大!

为何不能“倒水”冲马桶?多亏维修师傅:看似节俭实则隐患很大!

巢客HOME
2025-03-12 09:05:03
男人救下怀孕黄鼠狼,当晚便梦到黄鼠狼磕头,第二天家中怪事频发

男人救下怀孕黄鼠狼,当晚便梦到黄鼠狼磕头,第二天家中怪事频发

古怪奇谈录
2025-03-05 16:15:43
曝一对日本男女游中国长城拍 “露臀” 照,遭拘留15天+驱逐出境

曝一对日本男女游中国长城拍 “露臀” 照,遭拘留15天+驱逐出境

可达鸭面面观
2025-03-13 15:03:24
大曝光!香港大药房百年老字号,竟然是假的!

大曝光!香港大药房百年老字号,竟然是假的!

港港地
2025-03-13 09:04:40
“买时心疼,用完离不开”,这5个实用家电,咬牙也要添置上!

“买时心疼,用完离不开”,这5个实用家电,咬牙也要添置上!

小兔子发现大事情
2025-03-13 15:12:48
2025年,5国被踢出发达国家行列,分别都是谁?

2025年,5国被踢出发达国家行列,分别都是谁?

猫咪纪实说
2025-03-11 13:11:15
现货黄金再度冲击历史新高

现货黄金再度冲击历史新高

每日经济新闻
2025-03-13 22:44:07
笑麻了!河北33岁剩女,吐槽父母介绍的全是丑男,网友笑晕在厕所

笑麻了!河北33岁剩女,吐槽父母介绍的全是丑男,网友笑晕在厕所

猫小狸同学
2024-11-25 15:40:03
欧战客战曼联单场被进2点球+染红,皇社是西班牙第一队

欧战客战曼联单场被进2点球+染红,皇社是西班牙第一队

懂球帝
2025-03-14 05:44:27
中国10大最毒零食排行榜,常吃等于“慢性自杀”

中国10大最毒零食排行榜,常吃等于“慢性自杀”

新兴网评
2024-10-22 00:57:07
真的懂男人,中专生卢克文捅了马蜂窝,一席话戳穿大龄剩女的心思

真的懂男人,中专生卢克文捅了马蜂窝,一席话戳穿大龄剩女的心思

笑熬浆糊111
2025-02-28 00:05:24
恍然大悟!一个很可怕的现实:今年一年级学生竟然是2018年出生的

恍然大悟!一个很可怕的现实:今年一年级学生竟然是2018年出生的

滑稽斑马呀
2025-01-15 12:25:25
问界双车成绩亮眼,赛力斯要是当真就傻眼了

问界双车成绩亮眼,赛力斯要是当真就傻眼了

元汽智驾
2025-03-12 18:48:08
男子将蝴蝶兰丢水里,长成“六亲不认”的样子,女子:成精了?

男子将蝴蝶兰丢水里,长成“六亲不认”的样子,女子:成精了?

阿凫爱吐槽
2025-03-07 18:15:16
2025-03-14 07:15:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
6773文章数 20659关注度
往期回顾 全部

科技要闻

传腾讯向英伟达采购数十亿元规模H20芯片

头条要闻

因教育部裁员 21名民主党籍州检察长起诉特朗普政府

头条要闻

因教育部裁员 21名民主党籍州检察长起诉特朗普政府

体育要闻

奇怪的点球大战又增加了 但赢的人始终不变

娱乐要闻

金秀贤公司原本要求金赛纶赔70亿

财经要闻

中国央行:择机降准降息

汽车要闻

宾利限量版Batur Black Rose 3D打印玫瑰金彰显奢华

态度原创

健康
数码
家居
旅游
军事航空

痛经?不孕不育?妇科问题不再忧心

数码要闻

平板、笔记本、台式机三合一,仁宝发布概念 PC

家居要闻

爱的港湾 简约而不简单

旅游要闻

“小伙泰山陪爬年入30万”引热议 当事人回应:已考虑退出

军事要闻

F-35战机陷入“一键关机”疑云

无障碍浏览 进入关怀版