快手最新发布的国产视频生成大模型“可灵”,采用了类似Sora的技术路线,并结合多项自研技术创新,能够生成时长超过120秒、分辨率高达1080p的视频,且能够精准建模复杂运动和物理特性。
主要功能特点
1. 高质量视频生成
时长和帧率:可灵支持生成长达2分钟的30fps超长视频。
分辨率:生成视频的分辨率高达1080p,画质清晰细腻。
宽高比:支持多种宽高比的视频生成,包括竖版视频,适配不同的使用场景和平台。
2. 物理世界模拟
真实物理特性:可灵大模型能够模拟真实世界的物理特性,例如重力、光影反射、液体流动等。
细节刻画:对于物体的运动、表面反射、影子变化等细节刻画非常到位,提供真实的视觉体验。
3. 复杂运动刻画
精准运动建模:能够准确建模复杂且大幅度的运动场景,例如高速奔跑的动物、在月球上行走的宇航员等。
4. 多种控制信息输入
控制信息输入:支持用户输入相机运镜、帧率、边缘/关键点/深度等控制信息,提供丰富的内容控制能力。
文本提示词优化:设计了专用的语言模型,可以对用户输入的提示词进行高质量扩充及优化,提升生成效果。
技术实现
1. 模型设计
类Sora架构:采用了类Sora的DiT结构,用Transformer代替传统扩散模型中的卷积网络,提升生成能力和扩展性。
3D VAE网络:自研3D VAE网络,实现时空同步压缩,提升视频重建质量。
全注意力机制:设计了3D Attention机制进行时空建模,能够准确建模复杂时空运动,同时兼顾计算效率。
2. 数据保障
标签体系:构建了完备的标签体系,对训练数据进行精细化筛选和调整,确保视频数据的高质量。
视频描述模型:研发了视频描述模型,生成精确、详尽、结构化的视频描述,提高文本指令响应能力。
3. 计算效率
分布式训练集群:使用分布式训练集群,通过算子优化、重算策略优化等手段,大幅提升硬件利用率。
分阶段训练策略:采取分阶段训练策略,先在低分辨率阶段通过大量数据增强模型能力,再在高分辨率阶段提升细节表现。
Kling vs Sora
1. 蚂蚁在蚂蚁巢内部导航的 POV 镜头
2. 吃汉堡比赛
3. 一只白色和橙色的虎斑胡同猫在大雨中飞奔穿过后街小巷,寻找庇护所
4. 逼真的特写视频,两艘海盗船在一杯咖啡中航行时相互搏斗
5. 动画场景的特写镜头是一个矮小的毛茸茸的怪物跪在融化的红蜡烛旁边
6.电影预告片,讲述了30岁太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天,盐沙漠,电影风格,用35mm胶片拍摄,色彩鲜艳
7.一个20多岁的年轻人坐在天空中的一片云朵上,看书
8. 淘金热期间加利福尼亚的历史镜头
这效果怎么样,和sora比较起来你们觉得的如何?留言探讨!
▲ 滑动查看往期内容
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.