当前位置：首页 > article >正文

GHuNeRF: Generalizable Human NeRF from a Monocular Video

article 2025/2/21 3:35:04

研究背景

研究问题：这篇文章要解决的问题是学习一个从单目视频中泛化的人类NeRF模型。尽管现有的泛化人类NeRF已经取得了令人印象深刻的成果，但它们需要多视图图像或视频，这在某些情况下可能不可用。此外，一些基于单目视频的人类自由视点渲染工作无法泛化到未见过的身份。
研究难点：该问题的研究难点包括：如何在大规模人体运动中建模、如何在单目视频中有效地聚合跨帧信息、如何在训练和推理过程中提高效率。
相关工作：该问题的研究相关工作有：传统的3D人体重建方法、神经场景表示与渲染、神经辐射场（NeRF）及其在人体建模中的应用、以及现有的泛化人类NeRF方法。这些方法在多视图设置下取得了显著成果，但在单目视频设置下仍存在泛化问题。

研究方法

这篇论文提出了GHuNeRF，用于从单目视频中学习泛化的人类NeRF模型。具体来说，

1、可见性感知特征聚合：首先，提出了一种可见性感知特征聚合方案，以计算顶点级别的特征。由于遮挡问题，一个顶点在视频的某些帧中可能是可见的。通过考虑可见性信息，能够跨不同时间步收集有用的信息，从而补偿多视图信息的缺失。公式如下：

其中，vgvg 表示目标SMPL上的一个顶点，{v1,v2,...,vT}{v1,v2,...,vT} 表示观测帧中对应的SMPL顶点，bibi 表示顶点vivi的可见性。

2、基于注意力机制的时间对齐特征增强：由于SMPL顶点的稀疏性和体积分辨率的限制，基于SMPL顶点的特征体积只能表示人体的整体几何形状，但精度不足。为了解决这个问题，提出了一种基于注意力机制的时间对齐点特征增强方法。通过学习从目标帧到观测帧的变换映射，将目标空间中的3D采样点映射到观测帧中。公式如下：

其中，popo 是目标空间中的3D采样点，TT 是基于SMPL的姿态参数和关节位置的变换矩阵，wgwg 是混合权重。

3、表面引导的点采样：为了提高训练和推理的效率，采用了一种表面引导的点采样策略。与原始NeRF中的随机采样不同，表面引导采样只在SMPL表面区域附近采样点，从而减少空空间中的不必要点数，并隐式地规范3D几何形状。

4、体积渲染：使用体积渲染技术为每个像素渲染RGB值。公式如下：

其中，NkNk 表示沿每条光线上的采样点数量，δkδk 是相邻采样点之间的距离。

实验设计

数据集：在ZJU-MoCap数据集和People-Snapshot数据集上进行了评估。ZJU-MoCap数据集包含9个动态人体视频，每个主体由21个同步相机捕获的多摄像机系统拍摄。People-Snapshot数据集包含单目视频，捕捉表演者在保持A姿势时旋转。
评估指标：采用峰值信噪比（PSNR）和结构相似性指数（SSIM）作为评估指标。
训练细节：使用Adam优化器进行训练，学习率为1e−41e−4，批量大小为1。训练和推理均使用512×512512×512的图像大小。在每个RTX 3090Ti GPU上进行训练，共训练500个epoch，每个epoch迭代500次。

结果与分析

1、ZJU-MoCap数据集：在ZJU-MoCap数据集上的定量结果显示，GHuNeRF在单目视频输入下达到了与多视图输入方法相当的性能。对于已见身份，GHuNeRF的PSNR为27.32，SSIM为0.936；对于未见身份，GHuNeRF的PSNR为24.55，SSIM为0.911。

2、People-Snapshot数据集：在People-Snapshot数据集上的定量结果显示，GHuNeRF在单目视频输入下显著优于NHP。对于未见身份，GHuNeRF的PSNR为23.20，SSIM为0.889。

3、交叉数据集泛化：将People-Snapshot数据集上训练的模型直接应用于ZJU-MoCap数据集，交叉数据集泛化的PSNR为23.20，与在ZJU-MoCap数据集上训练的模型相当。

4、定性结果：定性结果显示，GHuNeRF能够生成高保真度的图像，并且在某些情况下比NHP生成更多细节。3D重建结果也显示，GHuNeRF能够预测更真实的3D人体形状。

总体结论

本文提出了GHuNeRF，用于从单目视频中学习泛化的人类NeRF模型。通过引入可见性感知特征聚合、时间对齐特征增强和表面引导的点采样策略，GHuNeRF在单目视频输入下实现了与多视图输入方法相当的性能。实验结果表明，GHuNeRF在ZJU-MoCap和People-Snapshot数据集上均表现出色，具有较高的泛化能力和高质量的渲染结果。

优点与创新

首次尝试：本文首次提出了从单目视频中学习通用人类NeRF模型的任务。
GHuNeRF方法：提出了GHuNeRF方法，包括可见性感知体积特征聚合和时间对齐的特征增强，以跨视频帧聚合信息，用于自由视点图像合成。
性能表现：在ZJU-MoCap数据集上实现了与现有多视图视频方法相当的性能，并且在仅使用单目视频的情况下，性能优于现有工作。
表面引导采样策略：引入了表面引导采样策略，提高了训练和推理的效率，并通过假设远处区域为空空间来隐式规范3D几何形状。
多视角和单目训练：在多视角（MVT）和单目（MoT）设置下均进行了实验，验证了方法的有效性。

不足与反思

泛化能力有限：当训练和测试数据显著不同时，泛化能力仍然有限。
失败案例：在补充材料中展示了一些失败案例，例如在People-Snapshot数据集上训练的模型在ZJU-MoCap数据集上的预测颜色不正确。主要原因是两个数据集的光照条件差异显著，且People-Snapshot数据集中从未见过黄色衬衫。

创新点

1、GHuNeRF利用SMPL模型来构建特征体积，从而处理大规模人体运动。具体来说，GHuNeRF首先使用SMPL模型将每个顶点的特征表示从2D图像空间投影到目标空间的3D空间。然后，通过SparseConvNet将顶点级别的特征扩散到附近的3D空间，形成一个特征体积。这个特征体积虽然能够表示人体的整体几何形状，但由于SMPL顶点的稀疏性和体积分辨率的限制，其精度不足。为了提高精度，GHuNeRF进一步通过注意力机制将时间对齐的点特征与体积特征融合，从而增强特征体积的表示能力。

2、GHuNeRF中的可见性感知特征聚合方案通过考虑顶点的可见性信息来计算顶点级别的特征。具体来说，对于目标SMPL上的每个顶点vgvg，其特征表示是通过聚合观测帧中对应顶点的特征F(vi)F(vi)得到的，其中bibi表示顶点vivi的可见性。

3、GHuNeRF采用了表面引导的点采样策略来提高训练和推理的效率。具体来说，与原始NeRF中的随机采样不同，表面引导采样只在SMPL表面区域附近采样点，从而减少空空间中的不必要点数，并隐式地规范3D几何形状。此外，GHuNeRF还通过使用ResNet18提取图像特征，并使用SparseConvNet进行特征扩散和注意力机制增强，进一步优化了网络结构和计算效率。实验结果表明，这些策略显著提高了GHuNeRF的训练和推理效率，同时在合成图像和3D人体重建的质量上也表现出色。

查看全文

http://www.kler.cn/a/379833.html