Mamba首个MLLM来袭!模型权重、训练代码全面开源

科技 2024-04-22 14:45 阅读:19

近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,当前的MLLM由Transformer网络构成,具有较低效的二次计算复杂度。为了提高效率,研究人员推出了基于Mamba的新型MLLM——Cobra。Cobra采用了经典的视觉编码器、连接两个模态的投影器和Mamba语言主干组成的VLM结构。与传统方法不同,Cobra直接采用状态空间模型(SSM)作为骨干网络,实现了线性计算复杂度。

在训练方案上,Cobra舍弃了预对齐阶段,直接对整个LLM语言主干和投影器进行微调。通过广泛的实验,Cobra在性能和生成速度上均表现出色。与同量级基于Transformer架构的VLM模型相比,Cobra在多个基准测试上实现了更快的推理速度。此外,Cobra还在VQA、GQA、VizWiz等多个任务上与其他模型进行了对比,展现了其优越性能。

消融实验结果显示,Cobra采用的MLP投影器和DINOv2特征融合有效提升了性能。在视觉编码器和语言主干的实验中,Cobra展现出了出色的表现。在定性试验中,Cobra在物体空间关系认知和减轻模型幻觉方面表现优越。

Cobra的推出为提高多模态大型语言模型的效率和性能开辟了新的可能性。其线性计算复杂度和优化的视觉与语言信息融合方案使其在各类任务中表现出色,为未来高性能AI模型的部署提供了新的思路。现在,Cobra的模型权重、训练代码等已全部开源,让更多研究者可以共同探索这一领域的前沿技术。