网易首页 > 网易号 > 正文 申请入驻

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

“汉字”这个难关,今天终于被AI视频生成给拿下了!

话不多说,我们直接先来看效果:

视频地址:https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

这个字,就这样被AI水灵灵地一笔一划滴了出来。

再如下面这个例子,我们的Prompt是:

有汉字“量子位”,古风。

视频地址:https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

但这样还是略显单调,我们上一下难度:

赛博朋克风格城市夜景,镜头视角是车辆在马路上行驶,对面大楼楼体有巨大的LED广告牌,上面写着“量子位”三个字。

视频地址:https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

好的,我们也算是打了一波赛博广告了。

那么让字数再多一点,AI是否能hold住呢?

我们直接来挑战一下:

水彩透叠插画风格,三只不同颜色的可爱小猫咪手举着一条超大的鱼,从右边走到左边。它们分别穿着粉色、蓝色和黄色的小背心,眼睛圆圆的,表情呆萌。充满童趣,笔触淡雅温馨,简笔画风格。纯白背景上逐渐显示出来几个字体,写着:“摸鱼一天 快乐无边”。

视频地址:https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

可以看到,这段视频中虽然有一个小瑕疵(“摸”字多了一笔),但整体是把Prompt中的内容给还原了出来。

当然,复杂的汉字都能搞定,这个AI自然也可以生成英文单词,并且还是带“花活儿”的那种(下面还有中文版):

视频地址:https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

那么,这到底是何许AI是也?

不卖关子,它就是阿里通义万相刚刚升级的2个新版本视频生成模型:

  • 通义万相2.1极速版:能够让AI高效、快速地生成视频;
  • 通义万相2.1专业版:更注重AI视频生成的质量。

在整体体验过后,我们能够明显感受到模型整体性能有了大幅的提升。

尤其是在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面。

据了解,新版通义万相已经以84.70%的成绩登上权威评测集VBench榜首的位置,一路超越Gen3、Pika、CausVid等国内外视频生成模型。

不过有一说一,能生成汉字,也还只是通义万相能力升级的一隅。

接下来,我们就继续来看下它在视频生成中的更多能力。

《滕王阁序》都能理解

值得一提的是,这个新升级的模型并不是PPT哦,是已经上线了的那种~

现在人人都可以在线免费体验了,入口和模型选择如下图所示:

如果你是开发者或者企业,还可以在阿里云百炼上调用API,打造自己的专属应用。

鉴于此前大部分AI视频生成,在处理复杂人物动作时,往往会出现转个身就鬼畜的现象。

我们就直接来上个难度,超复杂动作——Breaking

请听Prompt:

在室内,镜头平拍一个外国男子跳霹雳舞的全景,男子身穿灰色的上衣和绿色的裤子,镜头随着男子的动作而移动,男子在舞台上进行一系列的翻滚和旋转动作,背景中可以看到观众席上的观众和一些模糊的舞台灯光,但焦点始终保持在舞者的动作上。

可以看到,这段AI视频生成一改以往的鬼畜,在如此多且复杂的动作情况下,人物效果依旧是稳稳的。

再来看下跳水运动:

细节如脚背,也是拿捏的很到位了。

除了在连续复杂动作发挥稳定效果之外,还原真实物理规律,也是评判AI视频生成效果的关键指标之一。

我们不妨让《滕王阁序》来考验一番:

落霞与孤鹜齐飞,秋水共长天一色。

不难看出,通义万相新版本是非常好地理解了这句诗的意境。

而在面对像切肉这样的动作时,还原物理规律的体现会更加明显:

切肉时肉块的自然分离、刀面上的镜像、肉底部的油……细节如斯,细节如斯。

在真实性的基础之上,若想用AI来打造质量更高的视频效果,那么运镜就是不可或缺的技巧之一。

这一点,通义万相也是可以完全hold住。

例如狐大仙蹦迪,我们可以来个给氛围狠狠加分的运镜:

像电影场景里跑车在山谷里疾驰的画面,跟着汽车的轨迹加复杂运镜也是可以有的:

除此之外,通义万相还有个特点就是可以拿捏各种风格的类型,颇有种影视级的感觉。

例如中世纪真人写实风

再如卡通动画

而且生成的视频尺寸也是选择的哦:

那么接下来的一个问题就是:

怎么做到的?

整体来看,这次通义万相在技术方面采取了三步走的创新路线。

首先,是VAE与DiT架构协同发力

视频VAE可以看做一位“压缩大师”,擅长将视频中的海量信息进行高效压缩,提取出最为关键的特征。

它通过将视频拆分为若干块(Chunk),并缓存中间特征,取代了传统长视频的端到端编解码方式。

这一设计的关键在于,使显存的使用仅与Chunk大小相关,而与原始视频长度无关,从而实现了对无限长1080P视频的高效编解码。

这种机制为任意时长视频的训练提供了可行性。实验表明,在较小模型参数下,通义万相VAE实现了业内领先的视频压缩与重构质量。

而DiT则像是一位“时空捕手”,能够敏锐地捕捉视频中的时空动态,精准地建模视频中不同元素在时间和空间上的变化关系。

通义万相团队采取了以下优化措施:

  • 时空全注意力机制:增强模型对复杂动态场景的建模能力。
  • 参数共享机制:提升模型性能的同时,降低训练成本。
  • 文本嵌入优化:提升文本控制能力,并显著降低计算需求。

△通义万相2.1视频生成架构图

其次,是超长序列训练上的突破

在面对超长序列训练这一极具挑战性的任务时,通义万相团队巧妙地运用了4D并行策略,犹如为模型训练打造了一台超强动力的“引擎”。

这一策略将DP(数据并行)、FSDP( Fully Sharded Data Parallel,全量分片数据并行)、RingAttention(环形注意力机制)、Ulysses(一种优化技术)等多种先进技术有机融合。

例如在显存优化方面,团队根据序列长度带来的计算和通信需求,采用分层显存优化策略,解决显存碎片问题,同时使用FlashAttention3提升时空注意力的计算效率。

此外,通过去冗余计算和高效Kernel实现,进一步降低访存开销。

文件系统优化方面,针对阿里云高性能文件系统的特性,团队采用分片Save/Load方式优化数据读写性能,并通过错峰内存使用方案,解决Dataloader Prefetch、CPU Offloading与Checkpoint存储引起的内存OOM问题。

稳定性提升方面,依托阿里云的智能调度、慢机检测与自愈能力,模型训练能够实现自动故障检测与任务重启,大幅提升训练过程的稳定性。

△通义万相4D并行分布式训练策略

最后,是数据与评估双轮驱动

通义万相团队打造了一套自动化数据构建管线,通过优化视觉质量和运动质量,筛选整合与人类偏好分布高度一致的数据集。这些数据具有多样性高、分布均衡等特点,极大提升了训练效率。

团队还为此设计了一套覆盖美学评分、运动分析、指令遵循等多个维度的评估体系,并训练了专业的打分器。通过这些自动化指标的反馈,显著加速了模型的迭代与优化。

以上便是炼成新版通义万相的核心技术要义了。

至此,不仅是从技术创新方面,更是从真真切切的体验角度来看,国产Sora再次走到了AI视频领域的前沿。

单就能够生成汉字这一点,便是全球独一份的那种。

而从视频生成范围之广,也是应了“通义万相”的名字——AI已经到了可以生成“万相”的时刻。

那么你是否也有脑洞大开的想法,并想让它们以视频的形式呈现出来呢?

快来体验一下最新、最Fashion的模型吧~

直接体验入口:
https://tongyi.aliyun.com/wanxiang/videoCreation

API调用:
https://bailian.console.aliyun.com/?spm=5176.29619931.J__Z58Z6CX7MY__Ll8p1ZOR.1.74cd59fckLhf3c#/model-market


https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宏远速递!朱芳雨深夜发声,杜锋续约受影响,焦泊乔留队几率大增

宏远速递!朱芳雨深夜发声,杜锋续约受影响,焦泊乔留队几率大增

多特体育说
2026-05-27 11:43:19
1970年拥有12位副司令的武汉军区

1970年拥有12位副司令的武汉军区

祁州校尉
2026-05-27 09:00:22
股价大跌80%,A股又一公司被立案调查,近5万股民受波及

股价大跌80%,A股又一公司被立案调查,近5万股民受波及

21世纪经济报道
2026-05-27 16:30:36
徐帆回应离婚9个月后,冯小刚再陷争议,养女徐朵成导火索

徐帆回应离婚9个月后,冯小刚再陷争议,养女徐朵成导火索

枯蝶
2026-05-21 22:22:13
官宣!与戴军牵手三月,李静不再隐瞒喜讯,晚年总算有了依靠

官宣!与戴军牵手三月,李静不再隐瞒喜讯,晚年总算有了依靠

老表是个手艺人
2026-05-26 21:30:15
如果给许家印足够的时间,他恐怕可以绑架整个中国!

如果给许家印足够的时间,他恐怕可以绑架整个中国!

王嚾晓
2026-05-09 16:14:24
迪巴拉或自由转会加盟热刺,阿根廷巨星渴望开启英超新挑战

迪巴拉或自由转会加盟热刺,阿根廷巨星渴望开启英超新挑战

星耀国际足坛
2026-05-27 21:45:32
勇士4大最新动态!巴特勒不顾伤势唱跳 中产追2人+11号签选3目标

勇士4大最新动态!巴特勒不顾伤势唱跳 中产追2人+11号签选3目标

锅子篮球
2026-05-27 22:13:07
上海泳渡女子露胸事件升级!网友:相片看了是哺乳期,选手很漂亮

上海泳渡女子露胸事件升级!网友:相片看了是哺乳期,选手很漂亮

世界圈
2026-05-27 20:08:36
糖尿病去世的人越来越多?医生强调:宁可打打牌,建议别做这7事

糖尿病去世的人越来越多?医生强调:宁可打打牌,建议别做这7事

垚垚分享健康
2026-05-27 20:35:08
47.6℃高温破纪录!印度电网被“烤崩”,14亿人盼空调别停

47.6℃高温破纪录!印度电网被“烤崩”,14亿人盼空调别停

寄予的清风
2026-05-26 20:24:55
4000万欧!佐野海舟加冕新亚洲一哥,胡桑诺夫第2,国足无人入选

4000万欧!佐野海舟加冕新亚洲一哥,胡桑诺夫第2,国足无人入选

夏侯看英超
2026-05-27 23:14:14
法国机场抓人,美国司法部下黑手,全球85%份额的中国集装箱龙头被指控“故意产能不足”——这是一场精心设计的司法围猎

法国机场抓人,美国司法部下黑手,全球85%份额的中国集装箱龙头被指控“故意产能不足”——这是一场精心设计的司法围猎

打破砂锅看本质
2026-05-26 21:12:30
新式床一出,双人床落伍了!学深圳年轻人的做法,简直不要太香!

新式床一出,双人床落伍了!学深圳年轻人的做法,简直不要太香!

室内设计师有料儿
2026-05-26 15:53:23
上海被中央看好的五个区域,未来有福了,看看有你的家乡吗

上海被中央看好的五个区域,未来有福了,看看有你的家乡吗

爱看剧的阿峰
2026-05-27 20:26:17
埃梅里:英超是最难踢的联赛;欧冠决赛?阿森纳和巴黎五五开

埃梅里:英超是最难踢的联赛;欧冠决赛?阿森纳和巴黎五五开

懂球帝
2026-05-27 16:37:11
2米硬汉遭西方羞辱?连把椅子都不给!中国一出手,武契奇擦泪

2米硬汉遭西方羞辱?连把椅子都不给!中国一出手,武契奇擦泪

纵拥千千晚星
2026-05-27 23:16:13
广州轻纺城大火18小时,48万仓库变火海,感人文字催人泪下

广州轻纺城大火18小时,48万仓库变火海,感人文字催人泪下

一曲一场談
2026-05-27 11:59:01
1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

哄动一时啊
2026-02-17 22:21:25
上海又一家店被韩国人盯上了

上海又一家店被韩国人盯上了

看看新闻Knews
2026-05-27 21:28:54
2026-05-28 00:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12695文章数 176471关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

时尚
健康
旅游
本地
亲子

这几件单品太火了,今年流行的风格都离不开它

打外泌体会比干细胞更安全吗

旅游要闻

5月27日最佳情报|晨韵如诗超治愈,蜀葵绽放花枝温婉雅致

本地新闻

用剪纸的方式,打开江苏扬州

亲子要闻

韩国孩子4岁就要考英语幼儿园是家长停不下来的教育焦虑

无障碍浏览 进入关怀版