Predicting Goal-directed Attention Control Using Inverse-Reinforcement Learning
ABSTRACT
理解目标状态如何控制行为是一个可以通过机器学习新方法深入探讨的问题。这些方法需要大型的标注数据集来训练模型。为了对一个大规模图像数据集进行标注,使其包含观察到的搜索注视点,我们收集了16,184个注视点,这些注视点来源于人们在一个包含4,366张图片(来自MS-COCO数据集)的数据集中搜索微波炉或钟表的行为。然后,我们使用这一行为标注的数据集,以及机器学习中的逆强化学习(IRL)方法,学习了针对这两种目标的目标特定奖励函数和策略。最后,我们使用这些学习到的策略来预测60名新行为搜索者(30人搜索钟表,30人搜索微波炉)在一个独立测试数据集中的注视点。该测试数据集包含厨房场景,同时展示了微波炉和钟表(从而控制了低级图像对比度的差异)。结果表明,IRL模型通过多种指标成功预测了行为搜索效率和注视密度图。此外,IRL模型生成的奖励图揭示了目标特定的模式,表明不仅仅是目标特征引导了注意力,还有场景上下文(例如,在寻找钟表时沿着墙壁的注视)。通过机器学习和具有心理学意义的奖励原则,可以学习目标导向的注意力控制中所使用的视觉特征。
Introduction
自从 Yarbus 的经典研究展示了目标如何控制注意力以来,理解目标导向的注意力控制就成为心理科学的核心目标之一。这一重点研究是有充分理由的。目标导向的注意力是我们尝试完成一切事情的基础,因此是理解具有认知意义的行为的关键。与 Yarbus 类似,我们也展示了目标导向对眼动行为的控制,但在这里,这些显性注意力移动是由一个深度网络模型完成的,该模型学会了不同的目标。我们的方法与以往研究有三大区别:
-
图像可计算性和特征学习:我们的模型基于图像计算,并使用学习到的特征,而非人工设计的特征。因此,模型输入的是图像,但并未被告知任何有关图像特征的信息(例如“垂直”、“钟表”等),这些特征都需要模型自己学习。这一点将当前模型与大多数行为学文献中的注意力控制模型区分开来,使其更贴近近期的计算机科学研究。
-
研究目标导向行为的范式:我们研究的目标导向行为是类别搜索,即对目标物体类别的任何实例进行视觉搜索。我们选择这一范式是因为类别搜索是目标导向行为中最简单(因此也最适合建模)的形式——任务是寻找一个目标物体。
-
独特的政策学习方法:我们的方法通过训练阶段观察大量搜索注视行为,学习了一种政策,用以最大化目标特定的奖励收获,从而预测类别搜索的注视点。通过逆强化学习(IRL),我们获得这些奖励函数,并利用它们为新图像中搜索目标类别的新参与者优先选择空间位置。为实现这一点,我们创建了一个足够大的搜索注视标注图像数据集,用于训练深度网络模型。
我们的研究表明,该模型成功捕获了目标导向搜索行为中的多个模式,其中最重要的一点是显性注意力被有效引导至目标类别。这验证了模型在目标导向注意力控制中的有效性。
Inverse-Reinforcement Learning
逆强化学习(IRL)是一种源自机器学习领域的模仿学习方法,它通过观察专家行为,学习一个奖励函数和策略,用于模拟专家的表现。在本研究中,我们将这一框架扩展到目标导向行为,假设搜索者注视的图像位置构成了专家表现,模型通过模仿这些行为进行学习。
我们使用的具体 IRL 算法是生成对抗模仿学习(Generative Adversarial Imitation Learning,GAIL)。GAIL 的核心思想是通过生成能够模仿观察到的状态-动作(State-Action)配对的能力来定义奖励。在我们的任务中:
- 动作(Action):搜索图像中注视位置的移动(模型的眼跳动作)。
- 状态(State):搜索的上下文,包括用于搜索任务的所有可用信息。这些信息既包括从图像中提取的视觉特征,也包括目标类别的学习视觉表示。
在训练过程中,通过贪婪地最大化总预期奖励,模型学习到一种策略(Policy),将状态映射到动作。这种策略可以在新的状态(搜索图像)下,预测新的动作(眼跳位置)。
简而言之,模型通过 GAIL 学会模仿人类搜索者的注视模式,从而实现目标导向的行为预测。
Methods
Model Methods
图 1 的标题描