网易首页 > 网易号 > 正文 申请入驻

AI视频大模型Vidu 1.5发布:首发“多主体一致性”,能理解记忆上下文

0
分享至


智东西
作者 ZeR0
编辑 漠影

智东西11月13日报道,今日,国内视频大模型创企生数科技发布Vidu 1.5新版本。该版本全新上线“多图参考”功能,突破了“一致性”难题,具备涵盖人物、物体、环境等融合的多主体一致性能力。

通过上传1~3张参考图,Vidu 1.5可实现对单主体100%的精确控制,同时实现多主体交互控制、主体与场景融合控制,能够无缝集成人物、道具和场景。

//oss.zhidx.com/uploads/2024/11/6734b04e6c3e3_6734b04e5cd78_6734b04e5cd50_案例5.mp4

在拥有处理更复杂任务能力的同时,Vidu 1.5延续了其业界领先的生成效率,不到30秒即可生成一段视频。

今日上新的Vidu 1.5版本首次展现出上下文学习的能力,告别了单点微调,体现出视觉模型与语言模型一样,在经过充分的训练后,具备对上下文的深刻理解、记忆等能力。这也标志着视觉模型进入全新的“上下文”时代。

直通车:www.vidu.studio

一、三大技术突破加成,攻克“多主体一致性”难题

视频生成的一个难题是“一致性控制”问题,即在不同的生成视频之间,模型往往难以确保主体的外观、特征、风格保持一致。尤其是在处理包含多个角色或物理的场景时,模型很难做到对多个主体同时控制,主体间的互动也难以保持自然连贯。

Vidu自上线以来就致力于解决“一致性”核心难题,起初具备“角色一致性”生成能力,确保了人物面部特征的一致性;9月又在全球率先发布了“主体一致性”功能,实现角色全身形象一致。此次“多图参考”进一步强化了Vidu在一致性方面的优势。

据介绍,目前除了Vidu,其他视频生成模型都无法有效控制面部一致性。少数模型通过大量相似图片的输入进行成本高昂的单点微调,才能实现基本的面部一致性。

Vidu直接提升了整体视频模型的可控性,通过灵活的多元输入实现了多角度、多主体、多元素的一致性生成。其技术突破具体体现在以下三个方面:

1、复杂主体的精准控制:无论是细节丰富的角色,还是复杂的物体,都能保证其在多个不同视角下的一致性。比如造型复杂的3D动画风格角色,在各种刁钻视角下,都能确保头型、服饰等细节一致。

//oss.zhidx.com/uploads/2024/11/6734ae8f28fd2_6734ae8f258cd_6734ae8f258ab_案例1.mp4

2、人物面部特征和动态表情的自然一致:在人物特写画面中,能确保人物面部特征细节和表情变化自然流畅,不会出现面部僵硬或失真现象。

//oss.zhidx.com/uploads/2024/11/6734aec5930c1_6734aec58ef3c_6734aec58ef15_案例2.mp4

3、多主体一致性:Vidu支持上传多个主体图像,包括人物角色、道具物体、环境背景等,并在视频生成中实现这些元素的交互。例如,用户可以上传主体、客体和环境的图片,创建定制角色身穿特定服装、在定制空间内自由动作的场景。Vidu还支持多个主体之间的互动,用户可以上传多个自定义角色,让它们在指定空间内进行交互。此外,Vidu支持融合不同主体特征,例如将角色A的正面与角色B的反面无缝融合,创造出全新的角色或物体。

//oss.zhidx.com/uploads/2024/11/6734af6782817_6734af677a48c_6734af677a463_案例3.mp4

据生数科技分享,以上这些能力目前业界其他视频模型均无法实现。

二、省去“炼丹”环节,一款“LoRA终结器”

上述突破性的工作源自于Vidu 1.5背后基础模型能力的全面提升,而非业界主流的LoRA微调方案,无需专门的数据采集、数据标注、微调训练环节,一键直出高一致性视频

此前LoRA微调一直是业界解决一致性问题的主流方案。LoRA(Low-Rank Adaptation)方案,即在预训练模型的基础上,用特定主体的多段视频进行微调,让模型理解该主体的特征,从而能生成该主体在不同角度、光线和场景下的形象,保证其在若干次不同生成时的一致性。

比如创作一只卡通狗的形象,想生成连续一致的视频画面,但模型在预训练过程中并没有学习过该形象,所以需要拿卡通狗的多段视频,让模型进一步训练,直到认识这只卡通狗长什么样。

但通常LoRA需要20~100段的视频,数据构造繁琐,且需要一定的训练时间,通常需要数个小时甚至更久的时间,成本是单次视频生成的成百上千倍。

此外,LoRA微调模型容易产生过拟合,即在理解主体特征的同时,也会遗忘大量原先的知识。这导致对于动态的表情或肢体动作的变化,很难做到有效控制,容易产生僵硬或不自然的效果。在复杂动作或大幅度变换时,微调模型也无法很好地捕捉细节,导致主体特征不够精准。

因此,LoRA主要适用于大多数简单情形下的主体一致性需求,但对于高复杂的主体或问题场景,需要更多的微调数据和更复杂的模型微调策略。

而Vidu 1.5基于通用模型能力的提升,仅靠三张图就实现高可控的稳定输出,直接省去“炼丹”环节,堪称是“ LoRA终结器”。

三、视觉模型进入“上下文时代”

要实现类似的多主体一致性生成任务,需要模型能够同时理解“多图的灵活输入”,不仅是数量上的多图,还要图片不局限于特定的特征。

这与语言模型的“上下文学习”能力具有显著的相似性。

在语言模型中,理解上下文不仅仅是处理单一的文本输入信息,而是通过关联前后的文本、识别语句之间的关系,生成连贯且符合情境的回答或内容。

同样地,视频生成或多图生成任务中,模型需要能够理解多个输入图像的准确含义和它们之间的关联性,以及能够根据这些信息生成一致、连贯且有逻辑的输出。

秉承通用性的理念,Vidu有和大语言模型一致的设计哲学:

1、统一问题形式:大语言模型将所有问题统一为(文本输入,文本输出),Vidu则将所有问题统一为(视觉输入,视觉输出);


2、统一架构:大语言模型和Vidu均用单个Transformer统一建模变长的输入和输出;

3、压缩即智能:大语言模型从文本数据的压缩中获取智能,Vidu从视频数据的压缩中获取智能。

通过不断扩展上下文长度,Vidu从1.0迭代到1.5后出现了智能涌现效应,模型能够通过视觉上下文完成大量新任务的直接生成。从单输入主体的文/图生视频,到多输入参考信息,未来生数科技还将以更长、更丰富的上下文作为输入,进一步提升模型的能力表现。

结语:视觉模型将具备更强认知能力

当前的视觉模型尽管在文本生成视频等方面取得显著进展,但与语言模型在深层次智能上的突破相比,尚存在较大差距。

过往的视频模型如果想实现诸如一致性生成的能力,需要针对每一个场景设计相应的模型进行微调,而无法像语言模型一样,通过上下文学习基于少量的示例或提示快速适应新任务。

Vidu 1.5则展现了出色的上下文学习能力。这意味着视觉模型不仅具备了理解和想象的能力,还能够在生成过程中进行记忆管理。

同时,更出色的一致性控制,使Vidu 1.5在创作细腻、逼真的角色时具有显著优势,也进一步降低了对生成视频内容进行后期加工优化的负担。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最能忍的帝王李豫:被宦官当众夺权,他隐忍17年,连屠三大权宦

最能忍的帝王李豫:被宦官当众夺权,他隐忍17年,连屠三大权宦

掠影后有感
2026-06-02 09:17:41
总决赛G4还未开打,上海传来6个利好消息,广厦或无心硬扛到底

总决赛G4还未开打,上海传来6个利好消息,广厦或无心硬扛到底

有范又有料
2026-06-02 10:39:25
限制文班成尼克斯头号难题!ESPN预测总决赛:马刺总分4-2夺冠

限制文班成尼克斯头号难题!ESPN预测总决赛:马刺总分4-2夺冠

罗说NBA
2026-06-02 07:08:35
间歇期“充电”,成都蓉城外援韦林顿携家人前往泰国旅游度假

间歇期“充电”,成都蓉城外援韦林顿携家人前往泰国旅游度假

懂球帝
2026-06-02 10:31:22
受权发布|中华人民共和国国务院令  第837号

受权发布|中华人民共和国国务院令  第837号

新华社
2026-06-01 11:00:06
有暴雨大暴雨!广东天气即将有变→

有暴雨大暴雨!广东天气即将有变→

佛山发布
2026-06-02 12:17:35
广东11岁男孩深山失联13天被找到,已平安回家,辩识能力较弱

广东11岁男孩深山失联13天被找到,已平安回家,辩识能力较弱

九方鱼论
2026-06-02 06:30:29
马蓉携巨资移民澳洲!花光5000万后,超市打工谋生,澳洲华人偶遇“惨淡”现状

马蓉携巨资移民澳洲!花光5000万后,超市打工谋生,澳洲华人偶遇“惨淡”现状

澳洲红领巾
2026-06-02 14:26:40
别再吹捧孙浩了!央广网专访,揭开了59岁“苟师”圈内真实处境

别再吹捧孙浩了!央广网专访,揭开了59岁“苟师”圈内真实处境

观察者海风
2026-06-02 08:05:40
《浪姐》嘉宾人气洗牌,她既要又要、看人下菜、做作,难怪都骂她

《浪姐》嘉宾人气洗牌,她既要又要、看人下菜、做作,难怪都骂她

一娱三分地
2026-06-01 13:50:48
带孩子逛山姆是托举后续:遭网暴后,全家被牵连,丈夫震怒要算账

带孩子逛山姆是托举后续:遭网暴后,全家被牵连,丈夫震怒要算账

奇思妙想草叶君
2026-06-02 13:17:35
19年前,乔布斯干掉了手机键盘;昨天,黄仁勋干掉了电脑软件

19年前,乔布斯干掉了手机键盘;昨天,黄仁勋干掉了电脑软件

码头青年
2026-06-02 12:25:31
特斯拉被中国车主给告了!FSD落地时间成关键,10名车主索赔395万

特斯拉被中国车主给告了!FSD落地时间成关键,10名车主索赔395万

车东西
2026-06-02 14:28:28
感情稳定,汪峰森林北带五个孩子儿童节聚餐,森林北和孩子们很熟

感情稳定,汪峰森林北带五个孩子儿童节聚餐,森林北和孩子们很熟

话娱论影
2026-06-02 11:42:54
四川4名干部任新职 涉区政府正职

四川4名干部任新职 涉区政府正职

金台资讯
2026-06-02 11:30:37
北宋时期包拯的官职到底有多大?放在今天来看,又相当于什么级别

北宋时期包拯的官职到底有多大?放在今天来看,又相当于什么级别

掠影后有感
2026-06-02 09:12:30
面对特朗普的警告,高市仍不死心,勾结菲律宾试图在台海围堵中国

面对特朗普的警告,高市仍不死心,勾结菲律宾试图在台海围堵中国

讲者普拉斯
2026-06-02 13:54:19
狗子乖乖睡觉?不,它正清醒地忍痛

狗子乖乖睡觉?不,它正清醒地忍痛

历史的尘埃发
2026-06-01 13:38:31
樊振东未来方向彻底曝光,原来早留了3条后路,王励勤没说假话

樊振东未来方向彻底曝光,原来早留了3条后路,王励勤没说假话

老琴才是我的外号
2026-06-02 12:52:29
西班牙大热必死?梅西卫冕魔咒?排除法做完,只剩三支球队能夺冠

西班牙大热必死?梅西卫冕魔咒?排除法做完,只剩三支球队能夺冠

宝哥精彩赛事
2026-06-02 00:59:28
2026-06-02 14:55:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11948文章数 117090关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

上海女童几乎没上过学 外公找来前女婿把女儿告上法庭

头条要闻

上海女童几乎没上过学 外公找来前女婿把女儿告上法庭

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

房产
健康
家居
游戏
公开课

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

干细胞临床研究向患者收费?别踩坑

家居要闻

流线型轮廓 包容多元身形

《黎明行者之血》最新开发日志 冒险伙伴情报公开

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版