【论文解读】CVPR 2024 DSL-FIQA :全新人脸面部图像质量评估算法(附论文地址)
论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_DSL-FIQA_Assessing_Facial_Image_Quality_via_Dual-Set_Degradation_Learning_and_CVPR_2024_paper.pdf
这篇论文标题为"DSL-FIQA: Assessing Facial Image Quality via Dual-Set Degradation Learning and Landmark-Guided Transformer",由Wei-Ting Chen, Gurunandan Krishnan, Qiang Gao, Sy-Yen Kuo, Sizhuo Ma, Jian Wang等人撰写,发表在CVPR2024会议上。论文提出了一种新颖的基于Transformer的方法,用于评估面部图像的感知质量。该方法不依赖于边界框或部分注释,能够有效地定位图像中的信息性区域,以解决面部图像质量评估的挑战。以下是对论文内容的解读:
摘要
-
本文提出了一种基于Transformer的方法,用于评估面部图像的感知质量。
-
方法包括两个独特机制:双集降解表示学习(DSL)和 Landmark-Guided Transformer。
-
DSL机制使用合成和真实退化的面部图像来解耦退化和内容,提高对真实世界场景的泛化能力。
-
提出了一个新的数据集CGFIQA-40k,包含40,000张图像,旨在克服现有数据集中的偏见,如肤色和性别表现的不平衡。
-
通过广泛的分析和评估,展示了该方法的鲁棒性,并与先前的方法相比有显著改进。
引言
-
在数字时代,面部图像在我们的视觉体验中扮演核心角色,需要一个强大的指标来评估它们的感知质量。
-
面部图像质量评估的设计面临重大挑战,因为人脸的复杂性和细微的视觉特征对感知质量有很大影响。
-
该研究的目标是提出一种Transformer-based方法,专门用于面部图像质量评估(GFIQA),并解决现有方法的局限性。
现有方法的限制
尽管一般图像质量评估(GIQA)在标准数据集上表现出色,但它们常常忽视了面部图像的特殊性质,如表情的复杂性和环境的多样性,导致无法有效评估面部图像的真实感知质量。此外,生物识别面部图像质量评估(BFIQA)虽然提高了面部识别系统的识别能力,但这类方法主要关注于图像的可识别性,而不是其感知退化的程度,因此无法全面评估面部图像的质量。
相关工作
面部图像质量评估(FIQA)
-
FIQA可以分为生物特征面部图像质量评估(BFIQA)和通用面部图像质量评估(GFIQA)两大类。
-
BFIQA关注于识别系统中的应用,而GFIQA更广泛,集中于图像质量的感知退化。
通用图像质量评估(GIQA)
-
传统的GIQA方法如BRISQUE、NIQE和DIIVINE基于传统统计模型,但在复杂真实世界图像上面临限制。
-
深度学习的出现推动了GIQA方法的发展,如RAPIQUE和DB-CNN等。
提出的方法
-
模型概述:介绍了模型的各个组成部分,包括特征提取和细化、退化提取、特征集成和质量估计以及Landmark-Guided。
-
自监督双集降解表示学习(DSL):提出了一种新的自监督学习方法,通过构建两个独特的图像集来提高退化特征的表示能力。
-
Landmark-Guided 的GFIQA:利用Landmark-Guided 信息来提高模型对关键面部特征的关注,从而提高质量评估的准确性。
-
损失函数:介绍了用于训练模型的损失函数,包括退化编码器的损失和GFIQA网络的损失。
综合通用面部图像质量评估数据集(CGFIQA-40k)
新构建的数据集CGFIQA-40k,该数据集包含约40K张图像,具有更平衡的肤色和性别分布。它包含了大约40K张图像,每张图像的分辨率为512x512。每张图像由20个标注者进行标注,每个标注者花费大约30秒的时间给出一个评分。在最初的40,000张图像中,我们筛选出了一些内容不可用或标签不完整的图像,最终得到了总共39,312张有效图像。这个数据集特别策划,包含了面部图像的广泛集合,这些图像在肤色、性别和面部遮挡(如面具和配件)上具有多样化的分布。
实验结果
-
实验设置:使用了GFIQA-20k、PIQ23和CGFIQA-40k三个数据集进行实验。
-
消融研究:验证了模型中各个组件的有效性,包括DSL、Landmark-Guided和Charbonnier损失函数。
-
使用t-SNE去针对不同degradation extraction训练方法去做分析:实验结果表明,相较于现有的Patch-based strategy,使用所提出的DSL能够更好的识别不同的degradation。
-
使用landmark guidance对于模型对于脸部各部位重要性的影响程度:实验结果表明了使用landmark guidance能够使网路更专注在人脸重要的feature上面。
结论
-
本文通过Transformer-based方法解决了GFIQA中的复杂性问题,通过DSL改善了退化提取,并通过Landmark-Guided 额外指导提高了评估的准确性。
-
通过广泛的实验结果,证明了所提出的方法在多个GFIQA数据集上的表现优于现有方法。
在这篇论文中,我们解决了GFIQA中固有的复杂性采用基于变压器的方法。我们的 Dual-Set Degra dation 表示学习提高了退化的牵引力,Landmark-Guided 的额外指导进一步提高了评估的准确性。
此外,我们整理了CGFIQA-40k数据集,纠正了以前数据集中普遍存在的肤色和性别比例的不平衡。大量实验结果表明所提出的方法在多个GFIQA数据集中的表现优于最先进的方法。