网易首页 > 网易号 > 正文 申请入驻

10 秒钟收获影视级短片,花式运镜主体依然清晰,这个全新国产视频模型稳稳拿捏

0
分享至

文生视频的赛道越来越热闹了,两周一更新,一月一迭代,马斯克当模特都快要忙不过来了。

真的好能卷。豆包的视频生成模型带来了全新设计的扩散模型,针对高动态的复杂场景,展现出了影视级写实度和逼真细节。用一句话来描述效果:很强,很炸裂,不敢相信自己的眼睛。

9 月 24 日,2024 火山引擎 AI 创新巡展来到深圳,重磅发布了全新视频生成模型,一次性为整个 AI 视频赛道丢下了两颗炸弹:豆包视频生成-PixelDance、豆包视频生成-Seaweed 两款大模型。

作为国内首批通过算法备案的基座大模型厂商,闯入文生视频的赛道并不意外。甚至也不由得让人期待:还能怎么卷?

在参与实际测试这个强大的国产模型之后,我们发现它的厉害之处,绝对不止在生成影像上,而是有一个更大的生态和愿景。

语义理解、一致性重要突破,充分掌握镜头语言

生成式视频的「魔法」,来自于「魔咒」。

换句话说,模型的语义理解能力是基础。只有在精准领悟 prompt 文字内容的情况下,才能恰当地呈现出预期中的画面——得先把「阅读理解」做明白。

这次 APPSO 参与了内部测试,得到称得上是了不起的效果——还是那句话,很强,很炸裂。

prompt:一只小猫穿着围裙,戴着手套,在布满泡沫的水桶里洗碗,上方是正在出水的水龙头

每一个用 prompt 指示的元素,都得到了体现,没有「读漏题」唯一的问题是:太漂亮了——我家的土猫,没有这样的高级气质。

算了,小猫咪能有什么错。从成像来看,泡沫和水流的细节都非常惊人,以及猫猫的傲娇表情也很生动。

一个小细节:水流落在小猫的头顶,然后从背后和下巴处落下,这个细节符合物理规律,足以得见模型理解能力的强大。类似的表现,在官方演示中也能看到。

官方演示

头发在风中凌乱的还原,除了体现飘动的发丝,方向跟人物的运动节奏也是一致的,符合物理逻辑。

这种高保真的能力,背后来自抖音、剪映对视频创作的理解和技术积累,通过自研的高压缩比、高还原性视频隐状态编码和解码模型,强力保证了扩散模型的高效编码与运转。

prompt:树木密布的森林里,仰望天空,天空被茂密的树叶遮住,阳光透过树叶间的缝隙洒落出来。仰拍视角,明暗对比强烈

绿色调是非常棘手的色调,调好了是复古清新,调不好就是色调跑偏。 这里却精准还原光线经过了绿叶和树枝的折射,所形成的光圈效果,直逼镜头。

不得不说,在经过剪映、即梦 AI 等业务场景,反复打磨和持续迭代之后,让豆包·视频生成模型真正具备了专业级光影布局和色彩调节能力,支持 3D 动画、2D 动画、国画、黑白、厚涂等多种风格,以及更重要的——掌握镜头语言。

炫酷运镜,无论动作怎么变,主角都是稳稳的

镜头语言的重要性,强调多少次都不为过。 没有人想自己倒腾半天,只做出一个动态 PPT。

然而对于普通用户来说,专门去上个「镜头语言」培训班也没有必要: 豆包·视频生成模型已经准备好一系列运镜方案,从变焦、环绕、平摇,到缩放、目标跟随等超多镜头语言,都可以用 prompt 完成,实现灵活控制视角。

看上去轻松,实现起来并不简单: 一致性是个不小的挑战。

模型从理解指令,生成主体,再根据镜头要求,设计主体的变化和行动轨迹,这一系列步骤中,不仅需要主体面目「不变」,还需要主体根据动作和角度,适当「可变」。

prompt:一只边牧穿着太空服在月球表面奔跑,跳起来追逐在浮在空中的飞盘。月光斜角度照射,打亮它的皮毛,低角度,4k 画质,慢动作

在小狗跃起时,头部、四肢都没有大变形,稳稳的,很安心。

prompt:马斯克站在水稻田里,弯腰插秧,头顶戴着一个草笠,抬起头后,举手向镜头打招呼

在面对镜头讲话的十秒钟里,马斯克的表情、手臂、身体姿态都随着动作变化,但整体没有崩掉,一系列动作都非常流畅。

在处理这种「变」与「不变」的挑战中,几乎完美地保证了主体一致性,表现实在是太强大了。

当镜头有所变化的时候,道理也是一样的。 在官方的演示 demo 里,有一个水下片段令人印象深刻。

官方演示

镜头一个简单的变焦,对于模型来说要完成的是: 前面要有精致的细节,然后主体移动,显出新主体,最后落定在新主体上,整个一气呵成的大动作。

除了出众的一致性表现,惊人的运镜能力,自然也支持多种风格,3D、2D 动画、厚涂、漫画等,还有多种比例选择,都给了用户无比自由的选择。

官方演示

prompt:Beautiful, snowy Tokyo city is bustling. The camera moves through a bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes

prompt: 香港夜晚的十字路口,汽车和巴士快速驶过,形成流动的线条。有行人在等红绿灯。背景中建筑物虚化,形成光斑,低角度,4k 画质

从「高大上」到「好落地」

尽管豆包·视频生成模型才刚走到用户面前,但背后的技术已经打磨了很久。 根据去年 11 月 ByteDance Research 发布的技术报告,字节团队把第一帧和最后一帧的图像指令与文本指令结合起来,最后一帧指令被证明是创建复杂场景或动作的关键构成要件。


另外,在当时字节选择了自回归路线,而非分层方法,以此来实现高稳定性的画面表现能力。 这背后的考量是,模型要能确保生成的内容和用户期望一致,只有这样,用户才会积极参与生成的过程,扮演「导演」的角色,从而让强大的模型能力,尽快落实在实际应用中。

对比同类产品(不包括期货),豆包的视频生成模型完全是第一梯队的水准表现。 相比较于国外产品,比如 Luma,比如 Runway,它更懂中文和中文用户,更适配中文互联网中的创作工作流。

官方演示

如此优秀的性能,脱颖而出是必然的。 这还不单指视频生成模型,而是整个豆包大模型家族: 作为国内首批通过算法备案的大模型之一,豆包大模型通过火山引擎和火山方舟,面向企业提供服务。

截至 9 月,豆包语言模型的日均 tokens 使用量超过 1.3 万亿,相比 5 月首次发布时猛增十倍。

为了提供最强的性能,豆包通用模型 Pro 默认支持 800K 的初始 tpm,可以看到这个数字远超行业最好水平,并且可以根据实际需求进一步扩容,帮助大企业能安心的在生产环境里大规模使用。

而在技术力如此强大的同时,在各家大模型最强版本价格对比中,豆包大模型比行业价格低 98% 以上——用 AI 的门槛已经前所未有的低了。

越是高大上的技术,越需要落地实现,走进日常生活中。

在实际的业务场景里,需要的是效果好、速度快、易上手。 以电商为例,既要考虑营销节点,又要顾及不同平台的展示效果,需要的是灵活快速的制作方法。

无论是广告拍摄、还是短视频、直播电商等领域,都需要简单易上手的工具,嵌入现有的制作流程里。


在 24 号的发布会上,火山引擎总裁谭待还展示了一系列大模型的应用,尤其是真真正正落地到商业使用场景中的案例。

火山引擎通过全栈大模型服务,把豆包大模型的实力,真正接入到实际的业务场景中。 今年以来,火山引擎建立了零售大模型生态联盟、汽车大模型生态联盟和智能终端大模型联盟,覆盖的业务和场景种类十分丰富多样。

更强模型,更低价格,更易落地,这无疑是豆包大模型的重要优势。

「更强模型」不用多说,豆包大模型能够支撑起每天超万亿 tokens 用量,通过字节跳动内部 50+ 业务实践、30+ 行业客户的应用,不断增加的调用量,覆盖越来越多场景。在收获更多的企业反馈的同时,也帮助⾖包⼤模型越来越好,越来越全⾯。

在发布会上,谭待表示,「大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能,卷更好的模型能力和服务」。

「商业场景的应用,是豆包·视频生成模型在一开始就在考虑的事情,需要在商业价值取得突破才能得到更好的应用。」谭待表示,「我们在各种场景里面都做了充分适配,这样可以让大家在商业环境中真实通过豆包·视频生成模型实现业务的创新和加速。」

爱好者能够借由低门槛的 C 端产品,开启对 AI 世界的探索。而开发者能够利用火山引擎,以更低价、更多样、更灵活的方式实现 AI 的工作,为更广泛的用户群,提供进一步探索的新产品、新内容。

随后的记者问答会上,他还分享到,在技术不断迭代、进步的情况下,当 AI 能够完整地解决一个问题时,toB 和 toC 之间的区别未必有这么大。

或许这将是 AI 时代最壮观的景象:原本高不可及的壁垒,正在被推翻。无论有没有经验,无论是为了业务赋能还是为自娱自乐,只要上手起来,就是在创造奇迹。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本对华态度大变!石破茂2次胜选,首访国家定了,中国都没想到

日本对华态度大变!石破茂2次胜选,首访国家定了,中国都没想到

趣观速评
2024-11-15 09:55:45
吉林省中到大雪!气温将创下半年新低!这些地方降温可达20℃!

吉林省中到大雪!气温将创下半年新低!这些地方降温可达20℃!

吉林乌拉侯
2024-11-15 21:36:47
杨紫被曝“睡CEO”,法院判决已出,大量杨紫与该CEO的旧照曝光!

杨紫被曝“睡CEO”,法院判决已出,大量杨紫与该CEO的旧照曝光!

玫瑰讲娱
2024-11-14 19:07:17
红旗连锁突发公告:多名董事辞职

红旗连锁突发公告:多名董事辞职

鲁中晨报
2024-11-15 17:28:10
“降脂针”已在我国上市,一年2针清除血脂,普通人能用得起吗?

“降脂针”已在我国上市,一年2针清除血脂,普通人能用得起吗?

史小纪
2024-08-28 12:50:50
终于明白国家为什么突然给A股加油打劲了,原因很简单:

终于明白国家为什么突然给A股加油打劲了,原因很简单:

现代春秋
2024-10-28 14:35:55
央视新闻连发三条,严打此类行为!事关明年1222万毕业生就业问题

央视新闻连发三条,严打此类行为!事关明年1222万毕业生就业问题

牛锅巴小钒
2024-11-16 03:47:09
小威前教练:郑钦文不是输不起的人,只是失利后的挫败感太强

小威前教练:郑钦文不是输不起的人,只是失利后的挫败感太强

懂球帝
2024-11-15 16:16:54
越来越多的人认为,奥巴马是导致美国衰落的根本原因!

越来越多的人认为,奥巴马是导致美国衰落的根本原因!

现代春秋
2024-11-14 20:05:45
国足抵达厦门备战日本,两连胜提气,超4万张球票悉数售罄

国足抵达厦门备战日本,两连胜提气,超4万张球票悉数售罄

澎湃新闻
2024-11-15 14:42:28
又一人去世!曾是星光大道评委,上月还在演出,死因曝光

又一人去世!曾是星光大道评委,上月还在演出,死因曝光

古今历史记
2024-11-14 18:09:13
美疫苗股集体下挫!特朗普竟任命反疫苗人士担任美国卫生部长

美疫苗股集体下挫!特朗普竟任命反疫苗人士担任美国卫生部长

财联社
2024-11-15 09:38:08
安徽男子当保安潜伏小区25年,真实身份曝光后,业主彻夜难眠

安徽男子当保安潜伏小区25年,真实身份曝光后,业主彻夜难眠

可儿故事汇
2024-11-14 11:52:12
多名消费者称网购黄金后“麦多多”失联不发货:已报警 案值或超千万

多名消费者称网购黄金后“麦多多”失联不发货:已报警 案值或超千万

财联社
2024-11-15 14:22:04
易中天真是醍醐灌顶.....

易中天真是醍醐灌顶.....

霹雳炮
2024-08-16 23:13:34
砰,砰,美联储清晨连开两枪

砰,砰,美联储清晨连开两枪

股市风向标
2024-11-15 08:07:21
意外四连败,西部冠军悄悄倒下!5年3.46亿美元,你确实被高估了

意外四连败,西部冠军悄悄倒下!5年3.46亿美元,你确实被高估了

老梁体育漫谈
2024-11-16 00:08:32
已经被国家禁止的5个居家物件,看看你还在用吗?真别再买了

已经被国家禁止的5个居家物件,看看你还在用吗?真别再买了

我不是博士
2024-11-12 18:40:11
金华出轨女老师,看照片文静,很难让人想象她会和学生谈恋爱

金华出轨女老师,看照片文静,很难让人想象她会和学生谈恋爱

南城无双
2024-11-14 01:20:02
郑钦文最新代言出炉  商业价值飙升 一身搭配超50万元气场十足

郑钦文最新代言出炉 商业价值飙升 一身搭配超50万元气场十足

厝边人侃体育
2024-11-15 16:48:22
2024-11-16 05:08:49
AppSo
AppSo
让智能手机更好用的秘密
4862文章数 26470关注度
往期回顾 全部

科技要闻

奇瑞董事长夸余承东:你改名余成功吧

头条要闻

中铁七局:对受伤记者深表歉意 对涉事5人就地免职

头条要闻

中铁七局:对受伤记者深表歉意 对涉事5人就地免职

体育要闻

我们究竟需要一支怎样的国家队?

娱乐要闻

俞灏明迎37岁生日,疑似与王晓晨相恋

财经要闻

同花顺子公司被暂停新增客户3个月

汽车要闻

配易四方+云辇-Z系统 仰望U7于广州车展亮相

态度原创

家居
本地
教育
公开课
军事航空

家居要闻

现代简约 彰显实用性

本地新闻

重庆记忆|山城特色“过山车”上天入地穿花海

教育要闻

期中考试成绩出炉,孩子若考砸了,建议家长读一读这篇文章

公开课

一块玻璃,如何改变人类世界?

军事要闻

特朗普发表讲话:俄乌战争必须停止

无障碍浏览 进入关怀版