vidu
sora
近日,由清华大学与生数科技联合发布的中国首个长时长、高一致性、高动态性视频大模型——Vidu,被誉为“中国版Sora”,在中关村论坛未来人工智能先锋论坛上正式亮相。这一事件不仅在学术界引起了广泛讨论,也在业界和公众中产生了深远影响。
Vidu模型的发布,标志着中国在多模态大模型领域的自主创新能力迈上了新的台阶。Vidu模型能够一键生成长达16秒、分辨率高达1080P的高清视频内容。这一技术突破,使得Vidu在视频生成的连贯性、清晰度和动态表现上,与国际领先的Sora模型相比肩。
Vidu模型背后的技术力量不容小觑。它采用了团队原创的Diffusion与Transformer融合的架构U-ViT,这一架构早在2022年9月就由团队提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。这不仅展示了中国科研团队在算法创新上的实力,也体现了中国在AI领域的深厚积累。
vidu
sora
生数科技,作为Vidu模型的主要研发单位,已经在多模态大模型领域有了较深的积累,并成为该赛道估值最高的初创公司之一。公司已完成三轮融资,融资额达数亿元人民币,投资方包括启明创投、智谱AI、BV百度风投、锦秋基金等知名机构。这一系列的成就,凸显了资本市场对于生数科技及其Vidu模型的高度认可。
在技术实现上,Vidu展现了其独特的优势。朱军教授,作为Vidu的首席科学家,提出了基于Transformer的多模态扩散大模型UniDiffuser,采用了U-ViT架构,这与Sora的架构路线完全一致。Vidu的发布,不仅在技术上实现了突破,更在应用层面提供了广阔的想象空间。从简单的指令输入到逼真视频内容的生成,Vidu的应用场景覆盖了娱乐、教育、安防等多个领域。
此外,Vidu的诞生历程同样值得关注。从2022年9月推出U-ViT架构,到2023年3月开源UniDiffuser,再到Sora发布后紧急启动攻关,Vidu团队在短短两个月内取得了显著的进展。这一速度的背后,是团队对技术路线的深刻理解和对市场需求的敏锐把握。
vidu
sora
在行业竞争中,Vidu的发布无疑为中国AI视频生成领域注入了一剂强心针。目前,国内已有多家企业布局视频大模型,包括字节跳动、阿里云、腾讯、百度、讯飞等传统大厂,以及海康威视等视觉分析厂商,还有昆仑万维、万兴科技等专注于内容开发和创意营销的厂商。Vidu的加入,将进一步推动国内AI视频生成技术的发展和应用。
然而,Vidu面临的挑战也同样明显。与Sora相比,Vidu在视频时长、画面元素的丰富度、细节表现方面仍有差距。此外,Sora的未对外开放策略,也给Vidu等后发者留下了追赶和超越的机会。在技术迭代和市场竞争的双重压力下,Vidu需要不断优化和升级,以满足日益增长的市场需求。
vidu
sora
Vidu的发布是中国AI视频生成领域的一个重要进展。它不仅展示了中国科研团队的技术实力,也为国内AI产业的发展提供了新的动力。未来,随着技术的不断成熟和市场的进一步开拓,Vidu有望在AI视频生成领域占据一席之地,成为中国科技自主创新的又一张亮丽名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.