Mamba首个MLLM来袭！模型权重、训练代码全面开源

近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显著的成功。然而，当前的MLLM由Transformer网络构成，具有较低效的二次计算复杂度。为了提高效率，研究人员推出了基于Mamba的新型MLLM——Cobra。Cobra采用了经典的视觉编码器、连接两个模态的投影器和Mamba语言主干组成的VLM结构。与传统方法不同，Cobra直接采用状态空间模型（SSM）作为骨干网络，实现了线性计算复杂度。

在训练方案上，Cobra舍弃了预对齐阶段，直接对整个LLM语言主干和投影器进行微调。通过广泛的实验，Cobra在性能和生成速度上均表现出色。与同量级基于Transformer架构的VLM模型相比，Cobra在多个基准测试上实现了更快的推理速度。此外，Cobra还在VQA、GQA、VizWiz等多个任务上与其他模型进行了对比，展现了其优越性能。