《CIDEr: Consensus-based Image Description Evaluation》简要
文章汉化系列目录
文章目录
- 文章汉化系列目录
- 摘要
- 引言
- 三、
- 1、
- 2、
- 3、
- 四、
- 1、
- 2、
- 3、
- 五、
- 1、
- 2、
- 3、
- 六、
- 1、
- 2、
- 3、
- 七、
- 1、
- 2、
- 3、
- 八、
- 1、
- 2、
- 3、
摘要
自动生成描述图像的句子一直是计算机视觉和自然语言处理领域的长期挑战。随着物体检测、属性分类、动作识别等方面的进展,学术界对该领域的兴趣重新高涨。然而,评估生成描述的质量仍然是一个难题。我们提出了一种新的基于人类共识的图像描述评估范式。该范式包括三个主要部分:一种基于三元组的新方法,用于收集人类标注来衡量共识;一种新的自动化评价指标CIDEr,用于捕捉共识;以及两个新数据集PASCAL-50S和ABSTRACT-50S,每个图像包含50条描述句子。我们的简单指标在捕捉人类共识判断方面,比现有的评价指标在各种来源生成的句子上表现更好。我们还使用该新评估协议对五种最先进的图像描述方法进行了评估,并提供了一个基准,以便未来对比。此外,CIDEr的一个版本CIDErD已在MS COCO评估服务器上发布,以支持系统性的评估和基准测试。
引言
近年来,物体识别 [15]、属性分类 [23]、动作分类 [26, 9] 和众包 [40] 等领域的进展提升了对解决更高层次场景理解问题的兴趣。一个这样的问题是生成人类风格的图像描述。尽管这一领域的兴趣日益增长,但自动方法生成的新句子的评价仍然具有挑战性。评估对于衡量进展并推动该领域的改进至关重要。类似的情况已在计算机视觉的各类问题中得到验证,如检测 [13, 7]、分割 [13, 28] 和立体视觉 [39]。
现有的图像描述评估指标试图衡量几个理想的特性,包括语法性、显著性(覆盖主要方面)、正确性/真实性等。这些特性可以通过人工研究来衡量,例如,使用一到五的单独评分 [29, 37, 43, 11] 或成对比较的方式 [44]。然而,将这些不同的结果合并为一个句子质量的总体衡量标准是困难的。另一种方法是让受试者直接判断句子的整体质量 [22, 18]。
在人工评判图像描述时,存在一个重要但不明显的特性:人类喜欢的描述往往不等同于类人化的描述。我们引入了一种新颖的基于共识的评估协议,它衡量句子与大多数人描述该图像的方式(共识)的相似性(见图1)。该评估协议的一种实现方式是让人类受试者评估候选句子与人工提供的真实句子之间的相似性。受试者需要回答“哪一个句子与另一个句子更相似?” 该质量分数基于一个句子被标记为更接近人类生成句子的频率。这种相对问题的方式有助于使任务更加客观。我们鼓励读者参考 [41] 中的类似协议,了解其如何捕捉人类对图像相似性的感知。这些相似性标注协议可以被理解为2AFC(两项选择强迫选择)[3]的实例,这是一种在心理物理学中广泛使用的模式。
由于人工研究成本高、难以复现且评估速度较慢,因此通常需要自动化评估方法。为了在实践中有用,自动化指标应与人工评判有良好的一致性。一些常用于图像描述评估的热门指标包括来自机器翻译领域的 BLEU [33](基于精确度)和来自摘要领域的 ROUGE [45](基于召回率)。然而,这些指标已被证明与人工评判的相关性较弱 [22, 11, 4, 18]。在判断描述整体质量的任务中,METEOR [11] 指标与人工评判的相关性更好。其他指标依赖于描述的排序 [18],因此无法评估新生成的图像描述。
我们提出了一种新的图像描述质量的自动共识度量方法——CIDEr(基于共识的图像描述评估)。该指标衡量生成句子与一组人工编写的真实句子之间的相似性,并显示出与人工评估的共识高度一致。通过句子相似性,该指标自然地包含了语法性、显著性、重要性和准确性(精确度和召回率)等概念。目前常用于图像描述评估的数据集每张图像最多只有五个描述 [35, 18, 32]。然而,我们发现五个句子不足以准确衡量大多数人对图像的描述方式。为此,为了准确衡量共识,我们收集了两个新的评估数据集,每张图像包含 50 个描述——PASCAL-50S 和 ABSTRACT-50S。PASCAL-50S 数据集基于流行的 UIUC Pascal 句子数据集,该数据集每张图像有 5 个描述,并已在众多研究中用于训练和测试 [29, 22, 14, 37]。ABSTRACT-50S 数据集基于 Zitnick 和 Parikh 的数据集 [46]。尽管以往方法仅使用 5 个句子进行评估,我们研究了使用 1 到约 50 个参考句子。令人感兴趣的是,我们发现大多数指标在更多句子的情况下性能有所提高。受此发现的启发,MS COCO 测试数据集现在包含 5K 张图像,每张图像有 40 个参考句子,以提高自动度量的准确性 [5]。
贡献:在本研究中,我们提出了一个基于共识的图像描述评估协议。我们引入了一种用于人工评判的新标注方式、一种新的自动化评估指标,以及两个新的数据集。我们对五种最先进的机器生成方法进行了性能比较 [29, 22, 14, 37]。我们的代码和数据集可在作者的网页上获取。最后,为了促进该协议的采用,我们已将 CIDEr 作为一个评估指标集成到新发布的 MS COCO 描述评估服务器上 [5]。