当前位置：首页 > article >正文

MM 2024 Oral: 大模型带你鉴赏世界名画！同济大学发布

article 2025/3/11 12:00:24

现有的大模型已经能够创作令人惊叹画作，那鉴赏艺术画作岂不是信手拈来？

但同济大学的研究团队却发现——并非如此。

他们发现这些大模型虽然对熟知的知名画作分析得头头是道，但一遇到较为冷门的画作就容易产生“视觉幻觉”，造成诸如张冠李戴的错误。

比如给大模型看梵高的《向日葵》，它能从画面布局、色彩搭配到笔触技巧等各个方面给出详尽的分析，相当准确：

然而，一换到那些不太出名的画作前，即便是像Gemini和GPT-4V这样强大的模型也会犯迷糊。（图中红色表示错误分析）

作者认为现有的大模型在分析画作时，往往倾向于首先识别给定的画作，然后相应地进行分析。简单来说，他们是先认出了这副画，然后再从记忆中调取关于这幅画的知识。这仅限于照本宣科，还不是真正意义上的具备鉴赏能力。

这种“识别再分析”的过程高度依赖于识别的准确性，一旦遇到不认识的画作，就容易出错，产生“视觉上的错觉”。

而作者更希望赋予大模型formal analysis（形式分析） 的能力，主要关注作品的形式元素，如线条、色彩、构图等，以及它们在作品中的组合和表现方式。

因此作者首先构建一个包含近19K画作和50K形式分析的大型数据集 “PaintingForm”，并进一步微调一个优越的多模态大模型——GalleryGPT，这个新模型不再只是简单地识别画作名称后复述知识，而是能够深入解析画作的视觉元素，大大提升了其艺术鉴赏能力。

论文标题:
GalleryGPT: Analyzing Paintings with Large Multimodal Models

论文链接：
https://arxiv.org/pdf/2408.00491

github链接：
https://github.com/steven640pixel/GalleryGPT

数据集构建

画源与数据过滤

本文在GPT-4 和Gemini等强大的LMM帮助下，使用1st Art Gallery中的著名画作作为来源，构建了一个名为PaintingForm的绘画数据集，包含绘画作品及每幅绘画的相关形式分析标注。整个流程如下图所示：

首先为了确保 LLMs 知道这些画作，询问模型是否知道该画作的标题和艺术家姓名并过滤掉一些没有特定标题的画作，最终获得 18,526 幅画作。其中选择了5000 幅知名度不高的画作进行测试，并保留 13,526 幅用于训练。画作与艺术家的分布如下图所示：

在数据集中梵高的画作是最多的，高达1458副。

形式分析数据标注

在使用LLMs标注时，仅向LLMs提供画作的标题和艺术家姓名，而不输入任何视觉信息。要求LLMs检索与特定画作的标题和艺术家姓名相关的学习知识，并生成一段仅关注视觉特征的分析，包括：1）整体正式分析，以及2）从特定角度的正式分析，例如颜色、构图和形式，下图展示了LLMs提供的主要分析角度。在生成的分析过程中要求LLM不提及标题和艺术家姓名。