新一代图像生成E2E FT:深度图微调突破
文章地址:Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
项目主页:https://gonzalomartingarcia.github.io/diffusion-e2e-ft/
代码地址:https://github.com/VisualComputingInstitute/diffusion-e2e-ft
机构:亚琛工业大学+埃因霍温理工大学(2024 年 9 月 17 日)
文章摘要
最近的研究表明,通过将深度估计作为图像条件图像生成任务,大型扩散模型可以重新用作高精度单目深度估计器。虽然所提出的模型取得了最先进的结果,但由于多步推理而产生的高计算需求限制了它在许多场景中的使用。
在本文中,研究表明,感知到的低效率是由推理管道中的一个缺陷造成的,而这个缺陷迄今为止尚未引起注意。固定模型的性能与之前报告的最佳配置相当,但速度却快了 200 倍以上。为了优化下游任务性能,作者在单步模型的基础上执行端到端微调,并采用特定于任务的损失,并得到一个确定性模型,该模型在常见的零样本基准上优于所有其他基于扩散的深度和正常估计模型。
最后惊讶地发现,这种微调协议也可以直接在稳定扩散上工作,并实现与当前最先进的基于扩散的深度和正常估计模型相当的性能,这使人们对从以前的工作中得出的一些结论产生了质疑。
解决什么问题
本文试图解决的问题是如何高效地微调图像条件扩散模型,以提高单目深度和法线估计的性能和效率。具体来说,文章主要关注以下几个关键问题:
-
推理效率问题:先前的工作表明,大型扩散模型在进行单目深度估计时,由于需要多步推理过程,计算成本高,导致在许多实际应用场景中使用受限。本文旨在通过修复推理流程中的错误,提高模型的推理效率。
-
简化微调流程:作者指出,尽管已有的模型(如Marigold)在单目深度估计任务上取得了先进的性能,但这些模型通常需要复杂的训练和微调流程。本文通过端到端的微调方法,探索是否可以简化这一流程,同时保持或提高性能。
-
提高准确性:通过端到端微调,作者试图优化模型以更好地适应特定的下游任务(如深度和法线估计),从而提高模型的准确性。
-
挑战现有结论:作者发现,之前的方法由于推理流程中未注意到的错误,导致效率和性能可能被低估。本文通过修正这些错误,挑战并重新评估现有方法的性能,以期提供更准确的性能比较。
-
探索不同微调策略:文章还探讨了不同的微调策略,包括对现有模型(如Stable Diffusion)的直接微调,以及对特定任务损失函数的优化,以确定哪些策略在提高性能方面最有效。
单目深度估计在许多下游任务中都有应用,如图像和视频编辑、场景重建、新视角合成和机器人导航。以前的工作将大型扩散模型适应于单目深度估计,但这些模型在推理时计算量大,因为需要多次评估大型神经网络。作者认为,通过修正推理流程中的错误,可以显著提高模型的效率,并提出了一种新的端到端微调方法。
相关工作
在论文的“相关工作(Related Work)”部分,作者详细讨论了单目深度估计和法线估计领域的现有研究,以及扩散模型在这些领域的应用:
单目深度估计(Monocular Depth Estimation):
- 相对深度和度量深度:介绍了相对深度和度量深度的概念,其中相对深度仅提供场景中物体的深度排序,而度量深度则需要考虑相机的焦距,引入了额外的不确定性。
- 仿射不变深度:作为相对深度和度量深度之间的中间地带,仿射不变深度在不考虑相机焦距的情况下,能够保持物体间距离比率。
- 零样本学习:讨论了在零样本设置中评估的深度估计方法,这些方法通常使用大型训练数据集来提高泛化能力。
- 基于学习的方法:从早期的基于传统特征的方法,到后来基于卷积神经网络(CNN)的方法,再到最近的基于视觉变换器(ViT)的方法,如DPT和Omnidata。
单目法线估计(Monocular Normal Estimation):
- 基于学习的方法:讨论了基于学习的方法,这些方法使用深度学习来预测图像中每个像素的表面法线方向。
- 数据集和挑战:介绍了用于评估法线估计方法的数据集,如NYUv2和ScanNet,并讨论了在多样化环境中进行准确估计的挑战。
扩散模型在几何估计中的应用(Diffusion Models for Geometry Estimation):
- 文本到3D的方法:提到了一些将扩散模型用于文本到3D生成的方法,这些方法显式地产生多视图深度和法线图。
- 场景级深度估计:讨论了使用扩散模型进行场景级深度估计的方法,如VPD和Marigold,这些方法利用了扩散模型在高质量合成数据集上训练的优势。
条件潜在扩散模型(Image-Conditional Latent Diffusion Models):
- 潜在扩散模型(Latent Diffusion Models):解释了潜在扩散模型的工作原理,包括DDPM和DDIM,以及它们如何通过逆转一个随机过程来学习从简单噪声分布到数据分布的映射。
- Marigold模型:详细介绍了Marigold模型如何利用潜在扩散模型进行深度估计,包括其训练过程和推理策略。
作者强调,尽管基于扩散的深度和法线估计方法表现出良好的性能,但它们在推理时往往速度较慢,因为需要多次迭代去噪过程。
本文方法
Marigold + E2E FT:
此方法涉及使用端到端方法对 Marigold 模型进行微调,从而通过单个推理步骤提高深度和正常估计性能。
亮点:单步推理能力+性能优化+零样本基准测试
损失函数:仿射不变损失+角度损失
- 基础模型:Marigold模型是一种基于扩散的图像生成模型,它被设计用于从单目图像中估计深度。
- 微调策略:作者通过对Marigold模型进行端到端的微调,优化了模型在特定任务(如深度和法线估计)上的性能。这种微调是在修正了模型的推理流程后进行的,以确保模型能够通过单步推理产生高质量的预测。
- 任务特定损失:在微调过程中,使用了适合于深度和法线估计任务的特定损失函数,如仿射不变损失和基于角度的损失,以进一步提高模型的准确性。
稳定扩散 + E2E FT:
该方法需要采用端到端方法对稳定扩散模型进行微调,从而在深度和正常估计任务中取得有竞争力的结果,并且效率和准确性有所提高。
亮点:多任务适应性+效率提升+简化的微调策略
损失函数:仿射不变损失+角度损失
- 基础模型:Stable Diffusion是一种高分辨率图像合成模型,它能够根据文本描述生成图像。
- 微调策略:尽管Stable Diffusion最初是为图像生成任务设计的,但作者展示了如何通过端到端微调使其适应深度和法线估计任务。这种微调同样在修正了推理流程后进行,使得模型能够直接从单目图像中产生准确的几何估计。
- 效率和准确性:通过微调,Stable Diffusion模型在深度和法线估计任务上取得了有竞争力的结果,同时在效率和准确性上都有所提高。
结论
文章的最终结论主要集中在以下几个方面:
-
修复推理流程的关键性:作者指出,之前在扩散模型推理中的一个关键缺陷导致了效率低下和性能不佳。通过修复推理流程,特别是调整DDIM调度器,模型能够在单步推理中产生合理的预测,从而显著提高了推理效率。
-
端到端微调的有效性:作者展示了通过端到端微调(E2E FT)来优化模型的有效性。这种方法不仅简化了训练流程,还能在深度和法线估计任务中取得优异的性能。微调后的模型在多个标准基准测试中表现出色,超越了许多现有的复杂模型。
-
简单方法的竞争力:作者发现,即使是直接对Stable Diffusion模型进行简单的端到端微调,也能在深度和法线估计任务中取得有竞争力的结果。这表明,复杂的训练流程并不是唯一的成功路径,简单的方法同样可以有效。
-
对现有结论的挑战:通过修复推理流程和优化微调策略,作者挑战了之前一些关于扩散模型在几何估计任务中效率低下的结论,提供了新的视角和实证结果。
-
未来研究的方向:作者认为,扩散模型在几何任务中的潜力尚未完全挖掘,未来的研究可以进一步探索如何利用大规模数据和自训练技术来提高模型的性能。
总的来说,文章强调了修复推理流程和采用端到端微调的重要性,展示了这些改进如何显著提升扩散模型在单目深度和法线估计任务中的效率和准确性,为未来的研究提供了新的思路和方向。