Vidu：中国首个视频大模型的崛起

今年2月，Sora的发布引起了一片哗然，吸引了众多业界大佬的关注。然而，随后人们发现Sora的算法闭源，无法复现，给外界留下了一个选择：要么加入，要么自研。两个月后，中国的一家初创公司与清华大学合作推出了Vidu，号称是继Sora后首个完成突破的视频大模型。Vidu采用了原创的U-ViT架构，能够生成高清视频，展示了多镜头生成、模拟真实世界、保持时空一致性等核心能力。与Sora相比，Vidu在视频时长和图像/视频生成方面稍逊一筹，但在动态性和对物理世界规律的理解方面已经达到了相近水平。

Vidu的成功得益于团队对U-ViT架构的深入理解和长期积累的工程与数据经验。团队在架构上采用了与Sora相似的Diffusion和Transformer融合的思路，实现了视频质量更为连贯与自然的效果。此外，团队还开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser，证明了架构的可扩展性和多模态能力。

Vidu的崛起代表着中国视频大模型领域的突破，展示了中国团队在技术研发和工程化能力方面的实力。随着Vidu不断加速迭代，未来将持续提升视频能力，为多模态大模型在AIGC应用中的发展打下坚实基础。在国内外科技巨头竞相推出多模态大模型的背景下，Vidu的成功将激励更多国产多模态大模型的突破创新，推动行业的发展和进步。

Vidu：中国首个视频大模型的崛起

相关推荐：

最近发表

previous