Pathformer3D: A 3D Scanpath Transformer for 360° Images(浅看)
摘要:360°图像中的扫描路径预测有助于在虚拟现实/增强现实应用中实现快速渲染和更好的用户交互。然而,现有的360°图像扫描路径预测模型通常在2D等距矩形投影平面上执行预测,这会由于2D平面的扭曲和坐标不连续性而导致较大的计算误差。在本研究中,我们在3D球面坐标系中进行360°图像的扫描路径预测,并提出了一种新颖的3D扫描路径Transformer,命名为Pathformer3D。具体来说,我们首先使用一个3D Transformer编码器提取360°图像的3D上下文特征表示。然后,将上下文特征表示和历史注视信息输入到Transformer解码器中,以输出当前时间步的注视嵌入,其中自注意力模块用于模仿人类视觉系统的视觉工作记忆机制,并直接建模注视之间的时间依赖性。最后,从每个注视嵌入中学习一个3D高斯分布,从中可以采样到注视位置。在四个全景眼动追踪数据集上的评估表明,Pathformer3D优于当前最先进的方法。代码可在 GitHub - lsztzp/Pathformer3D: The official implementation of "Pathformer3D: A 3D Scanpath Transformer for 360° Images" [ECCV 2024] 获取。
关键词:扫描路径 · 360°图像 · 3D Transformer
1. 引言
虚拟现实(VR)和增强现实(AR)[50] 技术近年来取得了显著进展,为用户提供了沉浸式体验。与此同时,理解并模仿人类如何探索虚拟环境中的360°图像变得越来越重要,因为这有助于实现更实用和快速的渲染,从而改善沉浸式环境中的用户交互[24, 51]。360°图像中的扫描路径预测指的是在探索360°图像时,预测人类的视线移动路径。现有的扫描路径预测研究主要集中在2D图像上[4, 22, 42, 46, 53],然而在VR/AR环境中,360°图像具有不同的特点。360°图像提供了沉浸式互动环境,用户可以通过物理移动头部改变视角,导致注视点的分布更加广泛。360°图像包含更丰富的视觉信息,用户需要更多的时间来处理和吸收这些信息。此外,360°图像的数据结构与2D图像不同,这为数据处理和分析提出了新的要求。因此,现有的2D图像扫描路径预测方法不能直接应用于360°图像的扫描路径预测。
早期的360°图像扫描路径预测方法[6, 43, 57]通过基于显著性信息采样注视点来获取整个扫描路径。随后,随着生成对抗网络(GANs)[2]的进展,一些研究者[5, 35]利用生成网络直接生成360°图像的整个路径。这些方法虽然取得了