当前位置: 首页 > article >正文

Pathformer3D: A 3D Scanpath Transformer for 360° Images(浅看)

摘要:360°图像中的扫描路径预测有助于在虚拟现实/增强现实应用中实现快速渲染和更好的用户交互。然而,现有的360°图像扫描路径预测模型通常在2D等距矩形投影平面上执行预测,这会由于2D平面的扭曲和坐标不连续性而导致较大的计算误差。在本研究中,我们在3D球面坐标系中进行360°图像的扫描路径预测,并提出了一种新颖的3D扫描路径Transformer,命名为Pathformer3D。具体来说,我们首先使用一个3D Transformer编码器提取360°图像的3D上下文特征表示。然后,将上下文特征表示和历史注视信息输入到Transformer解码器中,以输出当前时间步的注视嵌入,其中自注意力模块用于模仿人类视觉系统的视觉工作记忆机制,并直接建模注视之间的时间依赖性。最后,从每个注视嵌入中学习一个3D高斯分布,从中可以采样到注视位置。在四个全景眼动追踪数据集上的评估表明,Pathformer3D优于当前最先进的方法。代码可在 GitHub - lsztzp/Pathformer3D: The official implementation of "Pathformer3D: A 3D Scanpath Transformer for 360° Images" [ECCV 2024] 获取。

关键词:扫描路径 · 360°图像 · 3D Transformer

1. 引言

虚拟现实(VR)和增强现实(AR)[50] 技术近年来取得了显著进展,为用户提供了沉浸式体验。与此同时,理解并模仿人类如何探索虚拟环境中的360°图像变得越来越重要,因为这有助于实现更实用和快速的渲染,从而改善沉浸式环境中的用户交互[24, 51]。360°图像中的扫描路径预测指的是在探索360°图像时,预测人类的视线移动路径。现有的扫描路径预测研究主要集中在2D图像上[4, 22, 42, 46, 53],然而在VR/AR环境中,360°图像具有不同的特点。360°图像提供了沉浸式互动环境,用户可以通过物理移动头部改变视角,导致注视点的分布更加广泛。360°图像包含更丰富的视觉信息,用户需要更多的时间来处理和吸收这些信息。此外,360°图像的数据结构与2D图像不同,这为数据处理和分析提出了新的要求。因此,现有的2D图像扫描路径预测方法不能直接应用于360°图像的扫描路径预测。

早期的360°图像扫描路径预测方法[6, 43, 57]通过基于显著性信息采样注视点来获取整个扫描路径。随后,随着生成对抗网络(GANs)[2]的进展,一些研究者[5, 35]利用生成网络直接生成360°图像的整个路径。这些方法虽然取得了


http://www.kler.cn/a/531252.html

相关文章:

  • XCCL、NCCL、HCCL通信库
  • Rust中使用ORM框架diesel报错问题
  • QT交叉编译环境搭建(Cmake和qmake)
  • 寒假刷题Day20
  • 全栈开发:使用.NET Core WebAPI构建前后端分离的核心技巧(一)
  • 6. 【Vue实战--孢子记账--Web 版开发】-- 主币种设置
  • Simula语言的物联网
  • pycharm 中的 Mark Directory As 的作用是什么?
  • C++11新特性之constexpr
  • Machine Learning Engineering Open Book 机器学习工程开放书
  • 八、Spring Boot 日志详解
  • 带负权值的图如何计算最短路径?
  • w190工作流程管理系统设计与实现
  • Nginx反向代理 笔记250203
  • web-SQL注入-CTFHub
  • 55【ip+dns+域名关系】
  • 说说 Java 中 HashMap 的原理?
  • 51单片机看门狗系统
  • 测试方案和测试计划相同点和不同点
  • 路径规划之启发式算法之二十九:鸽群算法(Pigeon-inspired Optimization, PIO)
  • Ubuntu修改配置文件--编辑操作
  • 攻防世界_php_rce(ThinkPHP框架)
  • FreeRTOS学习 --- 时间管理(相对延时和绝对延时)
  • Python基础-使用list和tuple
  • 树莓派pico入坑笔记,触摸引脚
  • Python从0到100(八十七):CNN网络详细介绍及WISDM数据集模型仿真