Predicting Human Scanpaths in Visual Question Answering
Abstract
注意力一直是人类和计算机视觉系统的重要机制。尽管目前最先进的注意力预测模型专注于估计静态的概率显著性图,用于自由观看行为,但现实生活中充满了不同类型和复杂性的任务,视觉探索是一个时间过程,且对任务表现有重要贡献。为了填补这一空白,我们开展了首次研究,旨在理解和预测在执行一般任务过程中眼动注视的时间序列(即扫描路径),并研究扫描路径如何影响任务表现。我们提出了一种新的深度强化学习方法,用于预测在视觉问答中导致不同表现的扫描路径。在任务引导图的条件下,所提出的模型学习问题特定的注意力模式来生成扫描路径。该模型通过自我批判序列训练解决了扫描路径预测中的曝光偏差,并设计了一种一致性-分歧损失(Consistency-Divergence loss),以区分正确答案和错误答案的扫描路径。所提出的模型不仅准确预测了视觉问答中人类行为的时空模式,如注视位置、持续时间和顺序,而且能够推广到自由观看和视觉搜索任务,在所有任务中达到人类级别的表现,并显著优于现有的最先进方法。
Introduction
视觉注意力在日常任务中起着至关重要的作用。现有研究主要集中在基于刺激驱动的注意力以及自由观看行为上,而在日常任务背后存在另一种形式的注意力,即任务驱动的注意力,它通过选择与任务相关的信息来做出决策或完成任务。此外,超越静态显著性图(该图突出显示视觉输入的相对重要性),眼动注视的时间序列能够编码更全面且自然的注意力表现。理解和预测一般任务中的视觉扫描路径不仅能揭示决策过程,还将成为多种计算机视觉应用的有用工具。
任务驱动的视觉扫描路径反映了为完成任务而进行的视觉探索,这与任务表现密切相关。举个例子(图1),为了回答“花瓶和围巾是同样颜色吗?”这个问题,在探索场景时,人类需要主动地浏览场景,寻找花瓶和围巾。当在正确的时间和正确的地点进行注视时,通常会得出正确的答案(图1中间),而如果未能做到这一点,可能会导致错误的答案(图1右侧)。
为了理解和建模一般任务驱动的注意力,我们提出了一种新颖的深度强化学习方法,利用任务引导作为一个重要的方式来预测人类在执行一般任务时的视觉探索行为。我们首先引入了一个任务引导图,用以指定任务相关的图像区域。该图被设计并证明能够跨任务泛化。为了应对训练时和测试时上下文之间的曝光偏差,我们引入了一种强化学习方法,直接优化不可微的测试时评估指标[14]。为了区分导致不同表现的眼动模式,我们进一步引入了一种新的损失函数,用以衡量正确与错误扫描路径之间的一致性和差异性。
我们的工作与以往的扫描路径预测研究有三大区别:(1)尽管最先进的扫描路径预测研究主要集中在自由观看[4, 5, 13, 40]或结构化较好的任务(如视觉搜索[52])上,本研究首次研究了一般决策任务中的复杂扫描路径模式,并在此背景下探索了扫描路径与任务表现之间的关联。(2)与显著性预测相比,扫描路径预测的研究尚不够广泛,且未能达到与人类相媲美的表现,部分原因是曝光偏差——训练时和测试时的上下文差异。在本文中,我们通过强化学习中的自我批评序列训练来弥合这一差距,从而显著提升了性能,甚至超越了人类表现。(3)我们不仅仅研究单一任务,而是设计了一种新机制来编码一般任务相关的信息,这一机制可以轻松适应具有不同性质和复杂程度的其他任务。我们通过三个任务展示了该方法的有效性,并达到了人类水平的表现。总而言之,本研究作出了以下贡献:
- 我们开发了一种深度强化学习模型,以理解和预测在视觉问答(VQA)等一般任务驱动背景下的扫描路径。首次考虑任务表现来预测扫描路径。
- 我们提出了显式地集成任务特定深度神经网络模型的注意力图,既能编码任务相关的信息,也为通过分析模型与人类注意力的差异,提供了测量任务特定模型可解释性的另一种方式。
- 为了解决训练和测试之间的差异,这一差异可能限制了扫描路径预测方法的发展,我们应用了自我批评序列训练,直接优化非可微分的评估指标。同时,我们还引入了一种新的损失函数,用于学习区分性特征,并区分正确与错误的扫描路径。
- 提出的方案在三个任务(VQA、自由观看和视觉搜索)上显著超越了当前