当前位置：首页 > article >正文

【论文解读】CVPR 2024 DSL-FIQA ：全新人脸面部图像质量评估算法（附论文地址）

article 2025/4/2 8:23:39

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_DSL-FIQA_Assessing_Facial_Image_Quality_via_Dual-Set_Degradation_Learning_and_CVPR_2024_paper.pdf

这篇论文标题为"DSL-FIQA: Assessing Facial Image Quality via Dual-Set Degradation Learning and Landmark-Guided Transformer"，由Wei-Ting Chen, Gurunandan Krishnan, Qiang Gao, Sy-Yen Kuo, Sizhuo Ma, Jian Wang等人撰写，发表在CVPR2024会议上。论文提出了一种新颖的基于Transformer的方法，用于评估面部图像的感知质量。该方法不依赖于边界框或部分注释，能够有效地定位图像中的信息性区域，以解决面部图像质量评估的挑战。以下是对论文内容的解读：

摘要

本文提出了一种基于Transformer的方法，用于评估面部图像的感知质量。
方法包括两个独特机制：双集降解表示学习（DSL）和 Landmark-Guided Transformer。
DSL机制使用合成和真实退化的面部图像来解耦退化和内容，提高对真实世界场景的泛化能力。
提出了一个新的数据集CGFIQA-40k，包含40,000张图像，旨在克服现有数据集中的偏见，如肤色和性别表现的不平衡。
通过广泛的分析和评估，展示了该方法的鲁棒性，并与先前的方法相比有显著改进。

引言

在数字时代，面部图像在我们的视觉体验中扮演核心角色，需要一个强大的指标来评估它们的感知质量。
面部图像质量评估的设计面临重大挑战，因为人脸的复杂性和细微的视觉特征对感知质量有很大影响。
该研究的目标是提出一种Transformer-based方法，专门用于面部图像质量评估（GFIQA），并解决现有方法的局限性。

现有方法的限制

尽管一般图像质量评估（GIQA）在标准数据集上表现出色，但它们常常忽视了面部图像的特殊性质，如表情的复杂性和环境的多样性，导致无法有效评估面部图像的真实感知质量。此外，生物识别面部图像质量评估（BFIQA）虽然提高了面部识别系统的识别能力，但这类方法主要关注于图像的可识别性，而不是其感知退化的程度，因此无法全面评估面部图像的质量。

提出的方法

模型概述：介绍了模型的各个组成部分，包括特征提取和细化、退化提取、特征集成和质量估计以及Landmark-Guided。
自监督双集降解表示学习（DSL）：提出了一种新的自监督学习方法，通过构建两个独特的图像集来提高退化特征的表示能力。
Landmark-Guided 的GFIQA：利用Landmark-Guided 信息来提高模型对关键面部特征的关注，从而提高质量评估的准确性。
损失函数：介绍了用于训练模型的损失函数，包括退化编码器的损失和GFIQA网络的损失。

综合通用面部图像质量评估数据集（CGFIQA-40k）

新构建的数据集CGFIQA-40k，该数据集包含约40K张图像，具有更平衡的肤色和性别分布。它包含了大约40K张图像，每张图像的分辨率为512x512。每张图像由20个标注者进行标注，每个标注者花费大约30秒的时间给出一个评分。在最初的40,000张图像中，我们筛选出了一些内容不可用或标签不完整的图像，最终得到了总共39,312张有效图像。这个数据集特别策划，包含了面部图像的广泛集合，这些图像在肤色、性别和面部遮挡（如面具和配件）上具有多样化的分布。