科学家研发图表理解大模型,助力多模态知识挖掘

科技 2024-04-02 21:50 阅读:22

最近,上海交通大学的博士生夏纫秋和他的团队设计了一款名为ChartX的评估基准,用于评价多模态大语言模型在图表领域的表现。这一基准集涵盖了18种不同类型的图表,包括7项测试任务和22个学科主题的高品质图表数据。为了综合评估视觉图表中的结构化信息提取能力,课题组引入了定制化的评估方法,如SCRM评价标准。同时,他们还开发了一款名为ChartVLM的图表理解基座模型,专门处理图表理解、几何图像推理等多模态任务。

在研究中,该团队以ChartX评价基准为依托,对常见多模态大模型和ChartVLM进行了综合评估。测试结果显示,ChartVLM在图表处理任务上表现出色,超越其他通才模型和一些专才模型。他们表示,这将有助于构建更全面的图表评估数据集,促进多模态大模型的进一步发展。

图表大模型在垂直领域具有广泛应用,包括数据分析与可视化、金融领域和医疗健康等方面。此外,图表大模型还可以用于科研领域的多模态知识挖掘,帮助从不同领域的图表中提取关键知识并整合。

夏纫秋表示,随着深度学习和机器学习领域的快速发展,多模态大语言模型的应用越来越广泛。然而,在处理特定视觉图表时,现有模型尚未充分挖掘图表信息潜力。因此,开发具备图表理解与推理能力的AI助手对于科研、商业和教育领域具有重要意义。

为了评价并提升模型在图表领域的表现,学界已经开展了不少课题。夏纫秋团队面临着高质量开源图表数据稀缺、图表任务评价准则缺乏客观性等核心难题。通过采用真实图表与仿真图表相结合的标注方法,重新设定评价标准和提出结构化的图表表征,他们成功研发出ChartVLM和推出ChartX评测基准。

审稿人对ChartX基准测试集和ChartVLM模型的表现给予了肯定。夏纫秋团队表示,他们将继续整合多知识、多类别的图表数据,扩展ChartVLM的功能范围,力求解决更��领域的图表类型和下游任务。通过融合多模态大模型的力量,他们希望促进跨学科知识的深度融合,为科学图表的知识挖掘提供更有力的支持。