网易首页 > 网易号 > 正文 申请入驻

首个基于Wan2.1的音频驱动数字人FantasyTalking

0
分享至

从单一静态肖像创建逼真的可动画化头像仍然具有挑战性。现有方法常常难以捕捉微妙的面部表情、相关的全身运动和动态背景。为了应对这些局限性,阿里提出了一种新颖的框架FantasyTalking,给定一张肖像图像、语音和文本,FantasyTalking可以生成富有表情、自然身体动作和身份特征的动画肖像。此外,FantasyTalking 还可以控制动画肖像的运动强度。(链接在文章底部)

尽管FantasyTalking在生成户外对话头像视频的应用场景中取得了显著的进展,展现了更高的真实感和连贯性,但由于其依赖扩散模型的推理过程,该过程需要通过迭代采样来逐步优化结果,因此整体的计算时间较长,导致在实时应用中的效率较低。这一瓶颈限制了其在一些需要快速响应的场景中的应用,如直播和互动实时应用等。

01 技术原理

FantasyTalking 方法基于Wan2.1 视频扩散变换器模型,采用双阶段视听对齐策略,能够生成高度逼真且视觉连贯的对话肖像。第一阶段通过片段级训练对齐音频驱动的动态,建立一致的全局运动;第二阶段通过唇部追踪掩膜精细化唇部动作,确保与音频信号同步。为保持面部一致性,用面部聚焦的跨注意力模块替代传统参考网络,并集成了运动强度调节模块,控制表情和身体动作的幅度,增强肖像的自然性和可控性。

片段级训练:如图(a)所示,第一阶段的训练计算了全长音视频标记序列中的3D全注意力关联,在片段级别建立了全局视听依赖关系,同时实现了整体特征融合。尽管这一阶段使得模型能够联合学习弱音频相关的非语言线索(例如眉毛运动、肩膀动作)和强音频同步的唇部动态,但模型仍然难以精确学习唇部运动。这是因为唇部在整个视觉场景中所占的比例较小,而每一帧的视频序列与音频高度相关。

帧级训练:在第二阶段的训练中,如图3(b)所示,专注于通过帧级精确的视听对齐来优化唇部的动作。根据一对一的映射关系对音频和视频进行分段,将视频标记重塑为形状为 × (ℎ × ) × 的矩阵,将音频标记重塑为形状为 × ′ × 的矩阵,其中表示通道数。接着,计算这些标记之间的3D全注意力,确保视觉特征仅关注它们对应的音频特征。

02 演示效果

视频生成: FantasyTalking 可以生成高度逼真的唇部同步,确保角色的口型与音频匹配。支持多种风格的头像,无论是现实风格还是卡通风格,并且能够生成高质量的对话视频。

逼真的对话视频: FantasyTalking 支持生成具有多种身体范围和姿势的逼真对话视频,包括特写肖像、半身、全身以及正面和侧面姿势。

多样化角色风格:FantasyTalking 可以将角色和动物以各种风格进行动画化,生成动态、富有表现力且自然逼真的风格化视频。

与封闭源方法的比较:FantasyTalking模型的表现与当前多模态条件下人类视频生成的最先进方法OmniHuman-1进行了比较。

https://arxiv.org/abs/2504.04842
https://github.com/Fantasy-AMAP/fantasy-talking

欢迎交流~,带你学习AI,了解AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
难以置信!丈夫工资未发,推迟给生活费,广西留守妻子哭诉想离婚

难以置信!丈夫工资未发,推迟给生活费,广西留守妻子哭诉想离婚

火山詩话
2026-04-22 07:06:09
在中国高铁上坐了12小时,赞不绝口,却转头把380亿订单给了德国

在中国高铁上坐了12小时,赞不绝口,却转头把380亿订单给了德国

史行途
2026-04-22 10:02:43
不再是120/80,“新血压标准”已公布,别再自己吓自己!

不再是120/80,“新血压标准”已公布,别再自己吓自己!

芹姐说生活
2026-04-14 23:27:03
以色列士兵砸碎耶稣雕像!亵渎行为震惊全球,内塔尼亚胡慌忙道歉

以色列士兵砸碎耶稣雕像!亵渎行为震惊全球,内塔尼亚胡慌忙道歉

阿尢说历史
2026-04-23 01:30:15
这张照片是2014年张雪峰和他的妻子李丽婧,在清华大学拍的结婚照

这张照片是2014年张雪峰和他的妻子李丽婧,在清华大学拍的结婚照

喜欢历史的阿繁
2026-04-11 06:47:10
伟伟道来 | 备战

伟伟道来 | 备战

经济观察报
2026-04-22 14:26:02
中国军舰、伊朗军舰及日本军舰:战争还是和平

中国军舰、伊朗军舰及日本军舰:战争还是和平

新民周刊
2026-04-22 09:07:18
我在伊拉克开工厂,娶了4个老婆,虽然年入千万,如今却很焦虑!

我在伊拉克开工厂,娶了4个老婆,虽然年入千万,如今却很焦虑!

千秋文化
2026-04-16 20:12:45
莱斯特城跌入第三级别联赛,但十年前上演童话的主角们将重聚

莱斯特城跌入第三级别联赛,但十年前上演童话的主角们将重聚

仰卧撑FTUer
2026-04-22 18:16:13
两大运营商合并,将超越中国移动!

两大运营商合并,将超越中国移动!

通信爆料
2026-04-22 17:02:13
随着哈兰德破门+曼城1-0,英超最新积分榜:榜首易主,争冠白热化

随着哈兰德破门+曼城1-0,英超最新积分榜:榜首易主,争冠白热化

侧身凌空斩
2026-04-23 04:59:32
废掉一个人最快的方法:让他学满一肚子“无用的文化”

废掉一个人最快的方法:让他学满一肚子“无用的文化”

青苹果sht
2026-04-16 05:33:08
人不会无缘无故血脂高?提醒:患上高血脂,背后或有4点原因

人不会无缘无故血脂高?提醒:患上高血脂,背后或有4点原因

芹姐说生活
2026-04-22 14:55:51
8亿大并购,光纤独角兽,无可替代!

8亿大并购,光纤独角兽,无可替代!

飞鲸投研
2026-04-22 18:54:21
DeepSeek突然更新!

DeepSeek突然更新!

智东西
2026-04-22 18:26:16
轰的一声,日本传来一声巨大爆响,自卫队伤亡惨重,尸体横倒竖卧

轰的一声,日本传来一声巨大爆响,自卫队伤亡惨重,尸体横倒竖卧

音乐时光的娱乐
2026-04-22 15:22:20
郑钦文承认技术性退赛!伤病没有大碍,却等来地狱难度签表

郑钦文承认技术性退赛!伤病没有大碍,却等来地狱难度签表

一枚野球君
2026-04-22 20:25:21
中方行使否决权,新加坡称感到失望,新国大使:应取消一票否决权

中方行使否决权,新加坡称感到失望,新国大使:应取消一票否决权

说历史的老牢
2026-04-21 19:56:59
剖析项英牺牲真相:为何多次拒绝毛泽东北上命令?因自己两个私心

剖析项英牺牲真相:为何多次拒绝毛泽东北上命令?因自己两个私心

阿胡
2025-04-20 11:05:46
是巧合吗?苏林是兴安春桥人,春桥的董事长叫苏勇,被传是亲兄弟

是巧合吗?苏林是兴安春桥人,春桥的董事长叫苏勇,被传是亲兄弟

纵拥千千晚星
2026-04-16 12:47:27
2026-04-23 05:24:49
带你学AI
带你学AI
分享最前沿AI知识,先进的AI工具
379文章数 8关注度
往期回顾 全部

科技要闻

对话梅涛:没有视频底座,具身智能走不远

头条要闻

伊朗:特朗普“又说谎了”

头条要闻

伊朗:特朗普“又说谎了”

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

蜜雪冰城泰国代言人 被扒出辱华黑历史

财经要闻

医院专家号"秒空"!警方牵出黑色产业链

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

房产
艺术
时尚
本地
军事航空

房产要闻

官宣!今年9月起,广州中小学“重点班”将成历史!

艺术要闻

看!这些美女的眼神能让你心醉神迷!

用了8年还心动,这笔钱是花得真值啊

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

军事要闻

特朗普宣布延长停火 伊朗表态

无障碍浏览 进入关怀版