首个开源世界模型!UC伯克利华人一作吊打GPT-4,百万级上下文长视频理解

科技 2024-04-04 14:08 阅读:32

UC伯克利的研究人员最近发布并开源了一款名为LWM(LargeWorldModel)的世界模型,这是首个开源的世界模型,引起了广泛关注。这款模型采用了一个包含各种视频和书籍的大型数据集,利用了RingAttention技术对长序列进行可扩展的训练,将上下文长度增加到了1M token,实现了百万级上下文的处理能力。

LWM在多模态任务上表现出色,比如文本图像生成、文本视频生成等。通过观看长视频并回答问题,LWM展现出了强大的能力,吊打了商业模型GPT-4V和Gemini Pro。尽管“世界模型”仍是一个概念股,但LWM的多模态能力得到了广泛认可。

LWM的开源技术细节展示了其在训练过程中的优势。通过不同阶段的训练,LWM逐步增加了模型的有效上下文长度,从32K到1M。研究人员还构建了一个简单的QA数据集,用于学习长上下文聊天能力,为模型的进一步发展奠定了基础。

在视觉模型阶段,LWM通过联合训练长视频和语言序列,实现了对不同模态数据的有效处理。模型使用了特殊的分隔符来区分图像和文本token,并进行自回归预测,展现出了多种模式训练的能力。

总的来说,LWM的发布和开源为未来的研究工作提供了重要的基础。希望LWM能够带来更多关于长视频理解和多模态任务的突破,推动人工智能领域的发展。如果您对LWM感兴趣,可以访问官方网站获取更多信息。