网易首页 > 网易号 > 正文 申请入驻

AI视觉图灵时代来了!字节OmniHuman,一张图配上音频生成视频

0
分享至

机器之心发布

机器之心编辑部

还记得半年前在 X 上引起热议的肖像音频驱动技术 Loopy 吗?升级版技术方案来了,字节跳动数字人团队推出了新的多模态数字人方案 OmniHuman, 其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。

如对下面图片和音频:





音频链接:

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

OmniHuman 生成的人物可以在视频中自然运动:



视频链接:

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

从项目主页上可以看到 OmniHuman 对肖像、半身以及全身这些不同人物占比、不同图片尺寸的输入都可以通过单个模型进行支持,人物可以在视频中生成和音频匹配的动作,包括演讲、唱歌、乐器演奏以及移动。对于人物视频生成中常见的手势崩坏,也相比现有的方法有显著的改善。



视频链接:

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

作者也展示模型对非真人图片输入的支持,可以看到对动漫、3D 卡通的支持也很不错,能保持特定风格原有的运动模式。据悉,该技术方案已落地即梦 AI,相关功能将于近期开启测试。



视频链接:

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

更多细节和展示效果,请查看:

  • 论文项目主页:https://omnihuman-lab.github.io/
  • 技术报告:https://arxiv.org/abs/2502.01061

研究问题

基于扩散 Transformer(DiT)的视频生成模型通过海量视频 - 文本数据训练,已能输出逼真的通用视频内容。其核心优势在于从大规模数据中学习到的强大通用知识,使模型在推理时展现出优异的泛化能力。在细分的人像动画领域,现有技术主要聚焦两类任务:音频驱动的面部生成(如语音口型同步)和姿势驱动的身体运动合成(如舞蹈动作生成)。2023 年后端到端训练方案的突破,使得现有技术方案通常能够对具有固定尺寸和人像比例的输入图像生成动画,实现精准的口型同步与微表情捕捉。

然而,技术瓶颈日益凸显:当前模型依赖高度过滤的训练数据(如固定构图、纯语音片段),虽保障了训练稳定性,却引发 "温室效应"— 模型仅在受限场景(如固定构图、真人形象)中表现良好,难以适应不同画面比例、多样化风格等复杂输入。更严重的是,现有数据清洗机制在排除干扰因素时,往往也丢失了大量有价值的数据,导致生成效果自然度低、质量差。

这种困境导致技术路线陷入两难:直接扩大数据规模会因训练目标模糊(如音频信号与肢体运动的弱相关性)导致模型性能下降;而维持严格筛选策略又难以突破场景限制。如何既能保留有效运动模式学习,又能从大数据规模学习中受益成为当前研究重点。

技术方案

据技术报告,OmniHuman,面向端到端人像驱动任务中高质量数据稀缺的问题,采用了一种 Omni-Conditions Training 的混合多模态训练策略,并相应的设计了一个 OmniHuman 模型,通过这种混合多模态训练的设计,可以将多种模态的数据一起加入模型进行训练,从而大幅度的增加了人像驱动模型的可训练数据,使得模型可以从大规模数据中受益,对各种类似的输入形式有了比较好的支持。

Omni-Conditions Training.在模型训练过程中,作者将多种模态按照和运动的相关性进行区分,依序进行混合条件训练。这个多模态训练遵循两个原则:

原则 1: 较强条件的任务可以利用较弱条件的任务及其数据来扩展训练数据规模。例如,由于口型同步准确性、姿态可见性和稳定性等过滤标准,音频和姿态条件任务中排除的数据可以用于文本和图像条件任务。因此,在早期阶段舍弃音频和姿态条件,在后期逐步加入。

原则 2: 条件越强,训练比例应越低。较强的运动相关条件(如姿态)由于歧义较少,训练效果通常优于较弱的条件(如音频)。当两种条件同时存在时,模型倾向于依赖较强条件进行运动生成,导致较弱条件无法有效学习。因此,需要确保较弱条件的训练比例高于较强条件。

基于以上原则设计他们构建了多个阶段的训练过程,依次增加文本、图像、音频以及姿态模态参与模型训练,并降低对应的训练占比。





OmniHuman 技术框架图

Omni-Conditions Model.除了 Omni-Conditions Training 训练策略以外,OmniHuman 采用了基于 DiT 架构的视频生成框架,使得模型兼容多种模态的条件注入方式,包括文本、图像、音频和姿态,多模态的条件被区分为两类:驱动条件和外观条件。

对于驱动条件,作者对音频特征通过 cross attention 实现条件注入,对于姿态特征通过 Heatmap 特征编码后和 Noise 特征进行拼接实现条件注入,对于文本特征,则保持了 MMDiT 的条件注入方式。

对于外观条件,作者没有像现有工作一样采用一个单独的参考图网络 (Reference Net),而是直接利用去噪声网络 (Denoising Net) 对输入图像进行特征编码,复用了 backbone 的特征提取方式,参考图特征会和 Noise 特征进行拼接实现条件注入

效果对比

作者给出了和目前行业领先的方案的效果对比,通过单个模型同时对比了针对不同人物占比的专有模型,仍然可以取得显著的整体效果优势。



除了数值分析以外,作者也分析基于 Omni-Conditions Training 可以改善在人体手势生成、多样性输入图像上的视频生成效果,并展示了混合多模态训练可以使得单个模型同时兼容多种模态驱动,生成可控的生动人像视频的例子。

结论

OmniHuman 是一个端到端的多模态条件人像视频生成框架,能够基于单张图像和运动信号(如音频、视频或两者)生成人像动画视频。它提出了一个多模态混合训练的技术方案,并调研了具体的训练策略,设计了相应的多模态混合控制的人像视频生成模型,从而克服了以往方法面临的高质量数据稀缺问题,从大规模数据训练中受益,学习自然的运动模式。OmniHuman 显著优于现有方法,能够从弱信号(尤其是音频)生成生动的人类视频。它支持任意纵横比的图像(如肖像、半身或全身),在各种场景下提供生动、高质量的结果。

团队介绍

字节跳动智能创作数字人团队,智能创作是字节跳动 AI & 多媒体技术中台,通过建设领先的计算机视觉、音视频编辑、特效处理等技术,支持抖音、剪映、头条等公司内众多产品线;同时为外部 ToB 合作伙伴提供业界最前沿的智能创作能力与行业解决方案。其中数字人方向专注于建设行业领先的数字人生成和驱动技术,丰富智能创作内容生态。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国防部强势发声,藏南属中国!两天不到,顺势迈出了收复第一步

国防部强势发声,藏南属中国!两天不到,顺势迈出了收复第一步

一个有灵魂的作者
2025-05-23 10:00:39
金普新区召开领导干部会议,宣布中共辽宁省委、大连市委关于金普新区主要领导调整的决定

金普新区召开领导干部会议,宣布中共辽宁省委、大连市委关于金普新区主要领导调整的决定

金普新闻
2025-05-23 19:24:55
社会上的挣钱难,应该还要持续10年以上时间!

社会上的挣钱难,应该还要持续10年以上时间!

武当云中客
2025-05-23 04:12:22
李嘉诚旗下长实集团一楼盘涉贪污造假、偷工减料,香港廉政公署:拘捕10人!公司回应!长实去年净利大降,李泽钜:小心驶得万年船

李嘉诚旗下长实集团一楼盘涉贪污造假、偷工减料,香港廉政公署:拘捕10人!公司回应!长实去年净利大降,李泽钜:小心驶得万年船

每日经济新闻
2025-05-23 18:31:17
香港磁带大王欠债被迫出售豪宅,住了37年全家已搬走,市值4.3亿

香港磁带大王欠债被迫出售豪宅,住了37年全家已搬走,市值4.3亿

树娃
2025-05-23 21:10:45
今夜皇马收官!7万人见证:魔笛等4人告别,姆巴佩冲击30球

今夜皇马收官!7万人见证:魔笛等4人告别,姆巴佩冲击30球

叶青足球世界
2025-05-24 04:00:03
周总理只是让他经商,给党赚取经费,他却给组织赚回一个商业帝国

周总理只是让他经商,给党赚取经费,他却给组织赚回一个商业帝国

博览历史
2025-05-23 17:54:35
美国大失败!G7声明没提关税,谈到中国也没敢点名,特朗普全搞砸

美国大失败!G7声明没提关税,谈到中国也没敢点名,特朗普全搞砸

大道无形我有型
2025-05-23 22:07:17
杀疯了!比亚迪再放大招!

杀疯了!比亚迪再放大招!

电动知家
2025-05-23 10:32:42
禁止哈佛招国际生,特朗普要亲手断送美国繁荣根本 | 京酿馆

禁止哈佛招国际生,特朗普要亲手断送美国繁荣根本 | 京酿馆

新京报
2025-05-23 15:21:06
演员陆毅的高颜值,都是被网友们吹捧出来的,他早就老的不成样子

演员陆毅的高颜值,都是被网友们吹捧出来的,他早就老的不成样子

联友说娱
2025-05-17 09:46:26
炸裂!上海一家庭主妇甩掉前夫,给小10岁新老公买车买房!上亿账单银行都崩溃

炸裂!上海一家庭主妇甩掉前夫,给小10岁新老公买车买房!上亿账单银行都崩溃

鲁中晨报
2025-05-23 15:36:04
2025年养老金调整即将开始,山西省和山东省,哪里涨钱会更多?

2025年养老金调整即将开始,山西省和山东省,哪里涨钱会更多?

暖心人社
2025-05-23 22:57:29
湖北省政府办公厅发布重要通知:这笔钱免了

湖北省政府办公厅发布重要通知:这笔钱免了

看蔡甸
2025-05-23 18:28:15
终于退休了美滋滋!工龄29.92年,湖北某灵活就业退休金到账了!

终于退休了美滋滋!工龄29.92年,湖北某灵活就业退休金到账了!

奔跑小鹰
2025-05-22 21:22:11
因为800元被烧掉工厂,老板才明白底层人也有掀桌子的权利!

因为800元被烧掉工厂,老板才明白底层人也有掀桌子的权利!

逍遥论经
2025-05-23 10:02:14
北京日报怒斥:耳环并不重要,重要的是其父亲入职离职的动机可疑

北京日报怒斥:耳环并不重要,重要的是其父亲入职离职的动机可疑

梦史
2025-05-23 19:45:41
今年端午节是“凶日”,提醒挂艾草3个忌讳:1不挂、2注意、3不错

今年端午节是“凶日”,提醒挂艾草3个忌讳:1不挂、2注意、3不错

匹夫来搞笑
2025-05-23 08:50:38
二战中谁是消灭日军主力的决定性力量?数据还原真相

二战中谁是消灭日军主力的决定性力量?数据还原真相

高博新视野
2025-05-22 18:17:23
四川慈善总会没有说谎!网友查证属实,当年雅安确实存在两个杨伟

四川慈善总会没有说谎!网友查证属实,当年雅安确实存在两个杨伟

寻墨阁
2025-05-22 14:26:03
2025-05-24 05:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
10522文章数 142318关注度
往期回顾 全部

科技要闻

特朗普:iPhone不在美国制造就收25%关税

头条要闻

美媒最新披露:马斯克在特朗普核心圈地位显著下滑

体育要闻

台下掌声一片!65岁安帅挥手告别:感谢皇马

娱乐要闻

赵丽颖否认恋情,与赵德胤没在一起?

财经要闻

特朗普威胁自6月1日起对欧盟征收50%关税

汽车要闻

续航720km/充电10分钟补能500公里 理想i8信息曝光

态度原创

本地
手机
房产
健康
军事航空

本地新闻

巴黎没有倍儿甜,但天津巧克力脑袋倍儿多

手机要闻

荣耀400系列将于5月底发布 配备1.45mm窄边框直屏

房产要闻

连续17次提前交付!海口这座顶流红盘,业主赢麻了!

唇疱疹和口腔溃疡是"同伙"吗?

军事要闻

朝驱逐舰下水事故最新调查结果公布