干掉运动模糊!Deblur4DGS:清晰的高质量视频动态重建
导读:
当前许多4D重建技术能从视频中重建逼真的三维动态场景,可惜它们往往要求输入视频必须非常清晰。然而,在实际拍摄中,运动模糊很常见,无论是相机轻微晃动,还是被摄物体自身的快速运动,都可能导致视频画面发虚。这使得传统方法在重建过程中“失焦”,无法得到理想的4D模型。
©️【深蓝AI】编译
论⽂题目:Deblur4DGS: 4D Gaussian Splatting from Blurry Monocular Video
论文作者:Renlong Wu, Zhilu Zhang, Mingyang Chen, Xiaopeng Fan, Zifei Yan, Wangmeng Zuo
论文地址:http://arxiv.org/abs/2412.06424
新提出的Deblur4DGS借鉴了3DGS的建模方法,试图直接在存在模糊的单目视频中提取清晰、连贯的动态场景。它将问题转化为对曝光时间的估计,并通过曝光正则化、多帧与多分辨率一致性策略来确保结果的稳定性与清晰度。此外,为应对快速运动的物体,它还采用了对模糊敏感的可变高斯点,实现更灵活的场景表达。
在多项测试中,Deblur4DGS不仅能产生优于现有技术的4D重建结果,还可从多维度提升模糊视频质量。例如,它可用于去除模糊、对视频进行细腻的插帧,以及提供更平稳的稳定画面。这些能力使得Deblur4DGS在未来的虚拟现实、影视制作和计算机视觉应用中具有广阔的应用前景。
▲图1|视频重建模糊效果示意(最右侧为正确的重建结果,左边三列皆为不同类型的重建模糊)©️【深蓝AI】编译
1.引入
近年来,4D重建领域取得了大量进展,其在增强现实和虚拟现实中有着广泛的应用。为建模静态场景,Neural Radiance Field (NeRF)和3D Gaussian Splatting (3DGS)分别提出了基于隐式神经表示和基于显式高斯椭球的建模方式。对于动态物体的建模,则有基于隐式神经场和显式变形的运动表示方法可供选择。尽管在这一领域已取得可观的进展,但大多数方法依赖同步多视点视频,当应用于单目视频时,动态物体在每个时间点上仅被观察到一次,这导致了对单目条件下的4D重建结果不尽理想。为缓解这一不充分约束问题,近期研究引入了数据驱动的先验(例如深度图、光流、跟踪信息以及生成模型)来改进4D重建表现。然而,实际视频中常因相机抖动和物体运动产生运动模糊,而上述方法严重依赖清晰视频进行监督,当从模糊视频中重建4D场景时,这些方法将得到带有模糊的结果。
解决这一难题的第一步是应对相机运动模糊,该问题相对简单。一些基于NeRF和3DGS的方法建议在曝光时间内联合优化3D静态场景表示和相机位姿,通过合成模糊图像与输入模糊帧之间的重建误差来求解。而相比之下,物体运动模糊更具挑战性。为准确模拟模糊帧,需要在曝光时间内估计连续且清晰的动态表示。已有工作中,只有DybluRF尝试过在NeRF框架下解决该问题,但效果有限,难以产生高质量且实时的渲染结果。
本研究建议以3DGS作为场景表示方式来探究这一问题,基于两点动机:首先,3DGS具备实时渲染能力,并已成功应用于4D重建中,前景可观;其次,3DGS的显式表示属性使其较NeRF更易于进行3D物体运动建模。近期对3D运动轨迹的重建进展为简化连续动态表示估计问题提供了契机。在此基础上,本研究将这一复杂难题转换为简单的曝光时间估计任务,而无需像DybluRF那样额外进行运动轨迹建模。一旦获取曝光时间,可通过直接在最近的整数时间戳之间进行插值来获得连续动态表示。
本研究提出的Deblur4DGS是首个专为从单目模糊视频中进行4D重建而设计的Gaussian Splatting框架。针对静态场景,引入了相机运动预测器来学习曝光开始和结束时的相机位姿,并与静态高斯点同时优化。针对动态物体,则同时优化可学习的曝光时间参数以及整数时间戳对应的动态高斯点。通过插值方式可在曝光时间内得到连续的相机位姿与动态高斯点,并以连续清晰的帧进行渲染以计算重建误差。此外,本研究引入曝光正则化项以避免无效解,并采用多帧和多分辨率一致性正则化项来减轻伪影。为应对大幅运动场景,本研究提出随着时间推移动态调整基准高斯点的策略——在相对清晰的帧中选取高斯点作为基准,从而更好地去除模糊,同时将每个基准高斯点的使用范围限制在其周围的时间戳内,以降低建模大运动的难度。
模糊视频通常不仅有运动模糊,还有低帧率与场景抖动等问题。优化后的Deblur4DGS除可用于新视点合成外,还可应用于去模糊、插帧和视频稳像。在这四个任务上的实验均显示,Deblur4DGS在定量和定性指标上均显著优于现有最先进的4D重建方法,同时保持实时渲染速度。进一步对比结果表明,Deblur4DGS在与特定任务的监督训练视频处理模型相比时也具有竞争力。
研究的主要贡献可概括如下:
-
提出Deblur4DGS,首个专为从模糊单目视频重建高质量4D模型而设计的4D Gaussian Splatting框架。
-
将动态表示估计问题转化为曝光时间估计,并提出一系列正则化策略来应对欠约束优化和大运动场景下的模糊敏感可变基准高斯点。
-
在新视点合成、去模糊、插帧和视频稳像等多项任务中的实验显示,Deblur4DGS显著优于现有最先进的4D重建方法。
▲图2|全文方法总览©️【深蓝AI】编译
2.具体方法与实现
图2所示为本文的方法总览,这个图笔者认为是一个非常值得仔细讲解的图,其清晰的展示了全文的脉络和方法以及流程,理解了这个图,就能够对全文方法有一个比较宏观的认识,在细节部分的方法实现解读之前,请各位读者跟随笔者一起仔细看看这个图。首先,图2分为a和b两个部分,在(a)部分主要展示了Deblur4DGS的训练过程:在处理某一帧(称为第 t 帧)时,首先将该帧的拍摄过程(曝光时间)划分为若干个细小的时间段。对每个时间段,都需要估计当时的相机位置和姿态(即相机位姿),以及该时间段内的动态场景表示(动态高斯点)。有了这些相机位姿和动态场景表示后,再结合场景中不变的部分(静态高斯点),即可渲染出对应时间段下理想的清晰图像。接着,将这些来自多个时间段的清晰图像平均融合,就能得到一个模拟出的“模糊图像”。由于有原始的模糊帧作为参考,通过比对该模拟的模糊图像与原始模糊图像之间的差异,来不断优化和调整模型的参数。然而,这样的优化过程本身存在一定不确定性和松散性(即欠约束问题)。为此,作者引入了额外的约束措施:包括对曝光时间进行限制的曝光正则化、确保多帧之间结果一致性的多帧一致性正则化,以及从不同分辨率层面对结果进行协调的多分辨率一致性正则化。这些措施的加入有助于使模型的训练过程更加稳定和合理。
在(b)部分,则主要体现的是Deblur4DGS的渲染过程:在经过训练后,当用户给定任意的时间和相机位姿时,Deblur4DGS就能根据已有的场景表示结构与参数,直接生成对应视角下的清晰画面。换句话说,无论用户选择哪一刻的时间点与相机视角,这个模型都能利用其内部的动态与静态表示,为该时刻渲染出没有模糊的高质量图像。
通过以上对于图2的理解,相信各位读者已经对本文的方法和流程有了一个初步的认知,接下来笔者再对各个细节进行补充介绍。
2.1问题定义
设有一个模糊视频序列,包含个时间戳记为,以及相应的动态区域掩码 。在处理第帧时,首先将该帧的相机曝光时间均匀分为个小时间段。在这个时间段内,需要对相机位姿和动态高斯点进行估计,以模拟相机的抖动与物体的运动。
完成上述估计后,利用这些相机位姿、动态高斯点以及场景中的静态高斯点,可以为每个时间段渲染出清晰的图像。将这个清晰图像平均融合后,即可得到合成的模糊图像。接着,将该合成模糊图像与原始模糊帧进行比较,计算重建误差,用以优化模型参数。此处的重建误差由两种损失组成:一种是绝对误差损失(L1损失),另一种是结构相似性损失(SSIM损失)。通过一个加权参数来平衡两种损失的影响,例如将设为0.2。该加权方案参考了已有的3DGS方法的设置。
2.2连续相机位姿估计
为估计连续的相机位姿,可先优化曝光开始与结束时的相机位姿,然后在特殊的坐标空间中对这两个位姿进行插值,以获得整个曝光时段内连续变化的相机位姿。为让优化更加稳定,本研究在此基础上增加了一个小型的多层感知机(MLP)作为相机运动预测器,并在预训练阶段仅针对静态区域进行重建优化。在此过程中,可以使用一套与前述类似的重建误差计算方法,但将注意力集中在静态区域,以确保静态场景的清晰重建和更精确的相机位姿估计。
2.3连续动态高斯点估计
在动态场景下,本研究首先引入了对模糊敏感的可变基准高斯点。传统上,4D重建往往在整个视频中只使用一组固定的基准高斯点,但当场景中存在大范围运动时,这样会导致细节缺失。为缓解这一问题,本研究将视频划分为若干片段,并在每个片段中根据清晰度选择一帧较为清晰的图像来确定该片段的基准高斯点。清晰度可通过图像的拉普拉斯算子差异等方法进行评估。通过这种方式,不同时间段可拥有各自的基准高斯点,更易于处理大运动场景。
为了进一步描述动态高斯点的变化方式,本研究采用了一种基于刚性变换的方案。简单来说,可以通过对基准高斯点进行刚性变换,得到特定时间戳下的动态高斯点。这样,原本需要独立为每个时间段参数化的复杂问题,可以简化为在相邻的整数时间戳之间进行插值,从而获得任意时间段的动态高斯点。然而,如果为每个时间戳都设置独立的参数,会导致优化不稳定。为此,本研究将问题简化为学习一个“曝光时间参数”:只需在曝光开始与结束两个点上确定该参数值,再通过线性插值即可获得中间时刻的动态高斯点。这减少了参数数量并提高了优化的稳定性。
2.4正则化项的引入
仅靠上述重建误差进行优化,在动态区域可能出现伪影。原因是:模型有多种可能的解法,其中最理想的解是让所有时段对应的清晰图像都很清晰,而最简单的无效解则是让所有时段的清晰图像都接近原始模糊帧,从而不真正去清晰化。对于静态区域,由于全片段一致的视觉信息能提供跨帧一致性约束,模型倾向学习出清晰的表示。但动态区域中,由于物体运动,跨帧一致性弱,无法提供足够约束来避免伪影。为解决这些问题,本研究引入了多种正则化策略:
曝光正则化:限制曝光时间参数不能过小,否则所有中间时刻的动态高斯点几乎相同,导致无效解。
多帧一致性正则化:确保相邻帧和参考帧之间的内容在动态区域保持一定程度的一致,从而减少伪影。
多分辨率一致性正则化:利用低分辨率下去模糊更容易的特点,将低分辨率模型的结果作为辅助,引导高分辨率模型的优化过程,从而减少伪影。
此外,本研究还采用了一些其他正则化手段来更好地重建场景中的三维运动。
2.5多任务应用
实际的视频不仅有运动模糊,还有低帧率和相机抖动等问题。该框架不仅能进行新视点合成,还可通过调整相机位姿与时间戳,实现去模糊(输出对应时间和视角下的清晰图像)、插帧(通过在时间轴上插值生成更多中间帧)及视频稳像(通过平滑相机位姿减轻画面抖动)。这样,本研究提出的Deblur4DGS框架不仅能显著提高从单目模糊视频中构建高质量4D模型的能力,还能在多种视频后期任务中发挥积极作用。
3.实验
本文的实验部分主要是以对比实验和数值实验进行提现,同时作者也做了一些可视化,值得关注的是由于本文的创新模块比较多,所以作者做了比较多的消融实验来验证每个模块的作用。
▲图3|数值实验(新视角合成)©️【深蓝AI】编译
▲图4|数值实验(不同预处理)©️【深蓝AI】编译
图3和图4分别体现了数值实验的结果,分别为新视角合成以及不同的预处理之下的指标,图3能够直接体现出本文方法的优异之处,图4则是由于本文中提出了不同的一些提升重建方法的trick,因此需要对这些tricks进行一个实验,说明其有效性。
▲图5|阴影可视化渲染(新姿态)©️【深蓝AI】编译
▲图6|阴影可视化渲染(新姿态)©️【深蓝AI】编译
图5与图6则实在不同数据集上与当前SOTA方法对比的效果,这些数值实验看起来可能比较枯燥,读者们可以快速浏览,然后一起关注下面的可视化实验。
▲图7|可视化实验(细节)©️【深蓝AI】编译
▲图8|可视化实验(整体)©️【深蓝AI】编译
图7与图8是可视化实验,作者分别从细节重建和整体重建两个方面进行了可视化,从细节重建方面可以看,对于一些视频中不太清晰的或者所占区域不太大,但是又包含了一定信息内容的细节区域,本文方法能够取得不错的重建效果,对于整体的可视化实验,则是从视连续视频运动物体的整体部分体现了本文方法对于一些可能出现模糊区域的重建效果。
4.总结
在本研究中,作者提出了Deblur4DGS,这是一种能够从单目模糊视频中重建高质量4D模型的首个4D Gaussian Splatting框架。值得强调的是,通过在3D Gaussian Splatting的基础上对运动轨迹进行显式建模,我们将原本在曝光时间内对连续动态表示进行估计的复杂难题转化为曝光时间的估计问题。为解决其中的欠约束优化,本研究引入了一系列正则化策略。此外,作者还提出了对模糊敏感的可变基准高斯点,以更好地表示具有大幅运动的物体。除了新视点合成之外,Deblur4DGS还可从多方面提升模糊视频质量,包括去模糊、插帧以及视频稳像。大量实验结果表明,Deblur4DGS在各项指标上均优于现有的最先进4D重建方法。