PSALM：华科多模态大模型统一分割框架全开源

最近，多模态大模型（LMM）在视觉 - 语言任务上的表现引人注目，展现了其在各个领域的实用性和灵活性。然而，在将LMM应用到计算机视觉任务中时，仍面临着文本输出限制的挑战，尤其是在图像分割方面的能力。

针对这一挑战，华中科技大学的研究团队推出了PSALM模型，旨在通过统一框架处理各种图像分割任务，实现分割任务的全面覆盖。PSALM采用了Swin-Base结合Phi-1.5的模型组合，在参数优化、多任务统一和性能优异等方面取得了显著成果。

PSALM包含图像编码器、大语言模型（LLM）和mask生成器，通过任务指令提示和任务条件提示等方式处理各种分割任务。模型在指代分割、语义分割、实例分割、全景分割等任务上展现出比肩甚至超越专家模型的强大性能，同时在开放场景任务中表现出零样本泛化能力。

PSALM在RefCOCO、RefCOCO+和RefCOCOg等基准测试集上取得了SOTA的性能，在COCO-val上与现有SOTA模型相比也表现出极具竞争力。此外，在交互式分割任务中，PSALM取得了SOTA的效果，展现出其在各种任务上的灵活性和强大性能。

PSALM的零样本泛化能力同样令人印象深刻，在开放词表分割、通用指代分割、视频目标分割等任务上展现出了出色的适应性。多个任务上的可视化结果也展示了PSALM在各种场景下的优异表现。

PSALM代表了多模态大模型在统一图像分割领域的一次积极探索，其创新架构和条件提示机制为处理多样化的输入输出需求提供了新思路，为图像分割领域的发展带来了新的机遇。PSALM的开源将为更多研究者和开发者提供参考，推动该领域的进一步发展。