追赶Sora：清华团队震撼发布Vidu，中国AI视频领域的新里程碑|算法|ai|vidu|sora|Sora(公司)

追赶Sora：清华团队震撼发布Vidu，中国AI视频领域的新里程碑

分享至

vidu

sora

近日，由清华大学与生数科技联合发布的中国首个长时长、高一致性、高动态性视频大模型——Vidu，被誉为“中国版Sora”，在中关村论坛未来人工智能先锋论坛上正式亮相。这一事件不仅在学术界引起了广泛讨论，也在业界和公众中产生了深远影响。

Vidu模型的发布，标志着中国在多模态大模型领域的自主创新能力迈上了新的台阶。Vidu模型能够一键生成长达16秒、分辨率高达1080P的高清视频内容。这一技术突破，使得Vidu在视频生成的连贯性、清晰度和动态表现上，与国际领先的Sora模型相比肩。

Vidu模型背后的技术力量不容小觑。它采用了团队原创的Diffusion与Transformer融合的架构U-ViT，这一架构早在2022年9月就由团队提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构。这不仅展示了中国科研团队在算法创新上的实力，也体现了中国在AI领域的深厚积累。

vidu

sora

生数科技，作为Vidu模型的主要研发单位，已经在多模态大模型领域有了较深的积累，并成为该赛道估值最高的初创公司之一。公司已完成三轮融资，融资额达数亿元人民币，投资方包括启明创投、智谱AI、BV百度风投、锦秋基金等知名机构。这一系列的成就，凸显了资本市场对于生数科技及其Vidu模型的高度认可。

在技术实现上，Vidu展现了其独特的优势。朱军教授，作为Vidu的首席科学家，提出了基于Transformer的多模态扩散大模型UniDiffuser，采用了U-ViT架构，这与Sora的架构路线完全一致。Vidu的发布，不仅在技术上实现了突破，更在应用层面提供了广阔的想象空间。从简单的指令输入到逼真视频内容的生成，Vidu的应用场景覆盖了娱乐、教育、安防等多个领域。

此外，Vidu的诞生历程同样值得关注。从2022年9月推出U-ViT架构，到2023年3月开源UniDiffuser，再到Sora发布后紧急启动攻关，Vidu团队在短短两个月内取得了显著的进展。这一速度的背后，是团队对技术路线的深刻理解和对市场需求的敏锐把握。

vidu

sora

在行业竞争中，Vidu的发布无疑为中国AI视频生成领域注入了一剂强心针。目前，国内已有多家企业布局视频大模型，包括字节跳动、阿里云、腾讯、百度、讯飞等传统大厂，以及海康威视等视觉分析厂商，还有昆仑万维、万兴科技等专注于内容开发和创意营销的厂商。Vidu的加入，将进一步推动国内AI视频生成技术的发展和应用。

然而，Vidu面临的挑战也同样明显。与Sora相比，Vidu在视频时长、画面元素的丰富度、细节表现方面仍有差距。此外，Sora的未对外开放策略，也给Vidu等后发者留下了追赶和超越的机会。在技术迭代和市场竞争的双重压力下，Vidu需要不断优化和升级，以满足日益增长的市场需求。

vidu

sora

Vidu的发布是中国AI视频生成领域的一个重要进展。它不仅展示了中国科研团队的技术实力，也为国内AI产业的发展提供了新的动力。未来，随着技术的不断成熟和市场的进一步开拓，Vidu有望在AI视频生成领域占据一席之地，成为中国科技自主创新的又一张亮丽名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.