Vidu:中国首个视频大模型的崛起

热点 2024-05-08 10:21 阅读:12

今年2月,Sora的发布引起了一片哗然,吸引了众多业界大佬的关注。然而,随后人们发现Sora的算法闭源,无法复现,给外界留下了一个选择:要么加入,要么自研。两个月后,中国的一家初创公司与清华大学合作推出了Vidu,号称是继Sora后首个完成突破的视频大模型。Vidu采用了原创的U-ViT架构,能够生成高清视频,展示了多镜头生成、模拟真实世界、保持时空一致性等核心能力。与Sora相比,Vidu在视频时长和图像/视频生成方面稍逊一筹,但在动态性和对物理世界规律的理解方面已经达到了相近水平。

Vidu的成功得益于团队对U-ViT架构的深入理解和长期积累的工程与数据经验。团队在架构上采用了与Sora相似的Diffusion和Transformer融合的思路,实现了视频质量更为连贯与自然的效果。此外,团队还开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,证明了架构的可扩展性和多模态能力。

Vidu的崛起代表着中国视频大模型领域的突破,展示了中国团队在技术研发和工程化能力方面的实力。随着Vidu不断加速迭代,未来将持续提升视频能力,为多模态大模型在AIGC应用中的发展打下坚实基础。在国内外科技巨头竞相推出多模态大模型的背景下,Vidu的成功将激励更多国产多模态大模型的突破创新,推动行业的发展和进步。