AI视频大模型Vidu 1.5发布：首发“多主体一致性”，能理解记忆上下文|相似性|vidu|ai视频

AI视频大模型Vidu 1.5发布：首发“多主体一致性”，能理解记忆上下文

2024-11-13 22:34:22　来源: 智东西

北京举报

分享至

智东西
作者 ZeR0
编辑漠影

智东西11月13日报道，今日，国内视频大模型创企生数科技发布Vidu 1.5新版本。该版本全新上线“多图参考”功能，突破了“一致性”难题，具备涵盖人物、物体、环境等融合的多主体一致性能力。

通过上传1~3张参考图，Vidu 1.5可实现对单主体100%的精确控制，同时实现多主体交互控制、主体与场景融合控制，能够无缝集成人物、道具和场景。

//oss.zhidx.com/uploads/2024/11/6734b04e6c3e3_6734b04e5cd78_6734b04e5cd50_案例5.mp4

在拥有处理更复杂任务能力的同时，Vidu 1.5延续了其业界领先的生成效率，不到30秒即可生成一段视频。

今日上新的Vidu 1.5版本首次展现出上下文学习的能力，告别了单点微调，体现出视觉模型与语言模型一样，在经过充分的训练后，具备对上下文的深刻理解、记忆等能力。这也标志着视觉模型进入全新的“上下文”时代。

直通车：www.vidu.studio

一、三大技术突破加成，攻克“多主体一致性”难题

视频生成的一个难题是“一致性控制”问题，即在不同的生成视频之间，模型往往难以确保主体的外观、特征、风格保持一致。尤其是在处理包含多个角色或物理的场景时，模型很难做到对多个主体同时控制，主体间的互动也难以保持自然连贯。

Vidu自上线以来就致力于解决“一致性”核心难题，起初具备“角色一致性”生成能力，确保了人物面部特征的一致性；9月又在全球率先发布了“主体一致性”功能，实现角色全身形象一致。此次“多图参考”进一步强化了Vidu在一致性方面的优势。

据介绍，目前除了Vidu，其他视频生成模型都无法有效控制面部一致性。少数模型通过大量相似图片的输入进行成本高昂的单点微调，才能实现基本的面部一致性。

Vidu直接提升了整体视频模型的可控性，通过灵活的多元输入实现了多角度、多主体、多元素的一致性生成。其技术突破具体体现在以下三个方面：

1、复杂主体的精准控制：无论是细节丰富的角色，还是复杂的物体，都能保证其在多个不同视角下的一致性。比如造型复杂的3D动画风格角色，在各种刁钻视角下，都能确保头型、服饰等细节一致。

//oss.zhidx.com/uploads/2024/11/6734ae8f28fd2_6734ae8f258cd_6734ae8f258ab_案例1.mp4

2、人物面部特征和动态表情的自然一致：在人物特写画面中，能确保人物面部特征细节和表情变化自然流畅，不会出现面部僵硬或失真现象。

//oss.zhidx.com/uploads/2024/11/6734aec5930c1_6734aec58ef3c_6734aec58ef15_案例2.mp4

3、多主体一致性：Vidu支持上传多个主体图像，包括人物角色、道具物体、环境背景等，并在视频生成中实现这些元素的交互。例如，用户可以上传主体、客体和环境的图片，创建定制角色身穿特定服装、在定制空间内自由动作的场景。Vidu还支持多个主体之间的互动，用户可以上传多个自定义角色，让它们在指定空间内进行交互。此外，Vidu支持融合不同主体特征，例如将角色A的正面与角色B的反面无缝融合，创造出全新的角色或物体。

//oss.zhidx.com/uploads/2024/11/6734af6782817_6734af677a48c_6734af677a463_案例3.mp4

据生数科技分享，以上这些能力目前业界其他视频模型均无法实现。

二、省去“炼丹”环节，一款“LoRA终结器”

上述突破性的工作源自于Vidu 1.5背后基础模型能力的全面提升，而非业界主流的LoRA微调方案，无需专门的数据采集、数据标注、微调训练环节，一键直出高一致性视频。

此前LoRA微调一直是业界解决一致性问题的主流方案。LoRA（Low-Rank Adaptation）方案，即在预训练模型的基础上，用特定主体的多段视频进行微调，让模型理解该主体的特征，从而能生成该主体在不同角度、光线和场景下的形象，保证其在若干次不同生成时的一致性。

比如创作一只卡通狗的形象，想生成连续一致的视频画面，但模型在预训练过程中并没有学习过该形象，所以需要拿卡通狗的多段视频，让模型进一步训练，直到认识这只卡通狗长什么样。

但通常LoRA需要20～100段的视频，数据构造繁琐，且需要一定的训练时间，通常需要数个小时甚至更久的时间，成本是单次视频生成的成百上千倍。

此外，LoRA微调模型容易产生过拟合，即在理解主体特征的同时，也会遗忘大量原先的知识。这导致对于动态的表情或肢体动作的变化，很难做到有效控制，容易产生僵硬或不自然的效果。在复杂动作或大幅度变换时，微调模型也无法很好地捕捉细节，导致主体特征不够精准。

因此，LoRA主要适用于大多数简单情形下的主体一致性需求，但对于高复杂的主体或问题场景，需要更多的微调数据和更复杂的模型微调策略。

而Vidu 1.5基于通用模型能力的提升，仅靠三张图就实现高可控的稳定输出，直接省去“炼丹”环节，堪称是“ LoRA终结器”。

三、视觉模型进入“上下文时代”

要实现类似的多主体一致性生成任务，需要模型能够同时理解“多图的灵活输入”，不仅是数量上的多图，还要图片不局限于特定的特征。

这与语言模型的“上下文学习”能力具有显著的相似性。

在语言模型中，理解上下文不仅仅是处理单一的文本输入信息，而是通过关联前后的文本、识别语句之间的关系，生成连贯且符合情境的回答或内容。

同样地，视频生成或多图生成任务中，模型需要能够理解多个输入图像的准确含义和它们之间的关联性，以及能够根据这些信息生成一致、连贯且有逻辑的输出。

秉承通用性的理念，Vidu有和大语言模型一致的设计哲学：

1、统一问题形式：大语言模型将所有问题统一为（文本输入，文本输出），Vidu则将所有问题统一为（视觉输入，视觉输出）；

2、统一架构：大语言模型和Vidu均用单个Transformer统一建模变长的输入和输出；

3、压缩即智能：大语言模型从文本数据的压缩中获取智能，Vidu从视频数据的压缩中获取智能。

通过不断扩展上下文长度，Vidu从1.0迭代到1.5后出现了智能涌现效应，模型能够通过视觉上下文完成大量新任务的直接生成。从单输入主体的文/图生视频，到多输入参考信息，未来生数科技还将以更长、更丰富的上下文作为输入，进一步提升模型的能力表现。

结语：视觉模型将具备更强认知能力

当前的视觉模型尽管在文本生成视频等方面取得显著进展，但与语言模型在深层次智能上的突破相比，尚存在较大差距。

过往的视频模型如果想实现诸如一致性生成的能力，需要针对每一个场景设计相应的模型进行微调，而无法像语言模型一样，通过上下文学习基于少量的示例或提示快速适应新任务。

Vidu 1.5则展现了出色的上下文学习能力。这意味着视觉模型不仅具备了理解和想象的能力，还能够在生成过程中进行记忆管理。

同时，更出色的一致性控制，使Vidu 1.5在创作细腻、逼真的角色时具有显著优势，也进一步降低了对生成视频内容进行后期加工优化的负担。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.