当前位置: 首页 > article >正文

【论文解读】CVPR 2024 DSL-FIQA :全新人脸面部图像质量评估算法(附论文地址)

论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_DSL-FIQA_Assessing_Facial_Image_Quality_via_Dual-Set_Degradation_Learning_and_CVPR_2024_paper.pdf

这篇论文标题为"DSL-FIQA: Assessing Facial Image Quality via Dual-Set Degradation Learning and Landmark-Guided Transformer",由Wei-Ting Chen, Gurunandan Krishnan, Qiang Gao, Sy-Yen Kuo, Sizhuo Ma, Jian Wang等人撰写,发表在CVPR2024会议上。论文提出了一种新颖的基于Transformer的方法,用于评估面部图像的感知质量。该方法不依赖于边界框或部分注释,能够有效地定位图像中的信息性区域,以解决面部图像质量评估的挑战。以下是对论文内容的解读:

摘要

  • 本文提出了一种基于Transformer的方法,用于评估面部图像的感知质量。

  • 方法包括两个独特机制:双集降解表示学习(DSL)和 Landmark-Guided Transformer。

  • DSL机制使用合成和真实退化的面部图像来解耦退化和内容,提高对真实世界场景的泛化能力。

  • 提出了一个新的数据集CGFIQA-40k,包含40,000张图像,旨在克服现有数据集中的偏见,如肤色和性别表现的不平衡。

  • 通过广泛的分析和评估,展示了该方法的鲁棒性,并与先前的方法相比有显著改进。

引言

  • 在数字时代,面部图像在我们的视觉体验中扮演核心角色,需要一个强大的指标来评估它们的感知质量。

  • 面部图像质量评估的设计面临重大挑战,因为人脸的复杂性和细微的视觉特征对感知质量有很大影响。

  • 该研究的目标是提出一种Transformer-based方法,专门用于面部图像质量评估(GFIQA),并解决现有方法的局限性。

现有方法的限制

尽管一般图像质量评估(GIQA)在标准数据集上表现出色,但它们常常忽视了面部图像的特殊性质,如表情的复杂性和环境的多样性,导致无法有效评估面部图像的真实感知质量。此外,生物识别面部图像质量评估(BFIQA)虽然提高了面部识别系统的识别能力,但这类方法主要关注于图像的可识别性,而不是其感知退化的程度,因此无法全面评估面部图像的质量。

相关工作

面部图像质量评估(FIQA)

  • FIQA可以分为生物特征面部图像质量评估(BFIQA)和通用面部图像质量评估(GFIQA)两大类。

  • BFIQA关注于识别系统中的应用,而GFIQA更广泛,集中于图像质量的感知退化。

通用图像质量评估(GIQA)

  • 传统的GIQA方法如BRISQUE、NIQE和DIIVINE基于传统统计模型,但在复杂真实世界图像上面临限制。

  • 深度学习的出现推动了GIQA方法的发展,如RAPIQUE和DB-CNN等。

提出的方法

  • 模型概述:介绍了模型的各个组成部分,包括特征提取和细化、退化提取、特征集成和质量估计以及Landmark-Guided。

  • 自监督双集降解表示学习(DSL):提出了一种新的自监督学习方法,通过构建两个独特的图像集来提高退化特征的表示能力。

  • Landmark-Guided 的GFIQA:利用Landmark-Guided 信息来提高模型对关键面部特征的关注,从而提高质量评估的准确性。

  • 损失函数:介绍了用于训练模型的损失函数,包括退化编码器的损失和GFIQA网络的损失。

综合通用面部图像质量评估数据集(CGFIQA-40k)

新构建的数据集CGFIQA-40k,该数据集包含约40K张图像,具有更平衡的肤色和性别分布。它包含了大约40K张图像,每张图像的分辨率为512x512。每张图像由20个标注者进行标注,每个标注者花费大约30秒的时间给出一个评分。在最初的40,000张图像中,我们筛选出了一些内容不可用或标签不完整的图像,最终得到了总共39,312张有效图像。这个数据集特别策划,包含了面部图像的广泛集合,这些图像在肤色、性别和面部遮挡(如面具和配件)上具有多样化的分布。

实验结果

  • 实验设置:使用了GFIQA-20k、PIQ23和CGFIQA-40k三个数据集进行实验。

  • 消融研究:验证了模型中各个组件的有效性,包括DSL、Landmark-Guided和Charbonnier损失函数。

  • 使用t-SNE去针对不同degradation extraction训练方法去做分析:实验结果表明,相较于现有的Patch-based strategy,使用所提出的DSL能够更好的识别不同的degradation。

  • 使用landmark guidance对于模型对于脸部各部位重要性的影响程度:实验结果表明了使用landmark guidance能够使网路更专注在人脸重要的feature上面。

结论

  • 本文通过Transformer-based方法解决了GFIQA中的复杂性问题,通过DSL改善了退化提取,并通过Landmark-Guided 额外指导提高了评估的准确性。

  • 通过广泛的实验结果,证明了所提出的方法在多个GFIQA数据集上的表现优于现有方法。

在这篇论文中,我们解决了GFIQA中固有的复杂性采用基于变压器的方法。我们的 Dual-Set Degra dation 表示学习提高了退化的牵引力,Landmark-Guided 的额外指导进一步提高了评估的准确性。

此外,我们整理了CGFIQA-40k数据集,纠正了以前数据集中普遍存在的肤色和性别比例的不平衡。大量实验结果表明所提出的方法在多个GFIQA数据集中的表现优于最先进的方法。


http://www.kler.cn/a/411444.html

相关文章:

  • Hot100 - 字母异位词分组
  • 宇信科技JAVA笔试(2024-11-26日 全部AK)
  • Spring源码(十三):Spring全系列总结
  • element-ui 中el-calendar 日历插件获取显示的第一天和最后一天【原创】
  • django authentication 登录注册
  • 001 MATLAB介绍
  • HPA - k8s自动伸缩机制
  • 2024年11月26日Github流行趋势
  • 推荐一款龙迅HDMI2.0转LVDS芯片 LT6211UX LT6211UXC
  • 1 ISP一键下载
  • ffmpeg 生成白噪声,粉噪声,棕噪声,蓝噪声,紫噪声,丝绒噪声
  • SVG无功补偿装置MATLAB仿真模型
  • java虚拟机——频繁发生Full GC的原因有哪些?如何避免发生Full GC
  • 快速理解微服务中Fegin的概念
  • 241126学习日志——[CSDIY] [ByteDance] 后端训练营 [19]
  • 【Linux】线程同步与互斥
  • 代码随想录算法训练营第五十五天|Day55 图论
  • 第三届航空航天与控制工程国际 (ICoACE 2024)
  • C语言实现冒泡排序:从基础到优化全解析
  • 电话机器人是什么?
  • node.js @ffmpeg-installer/ffmpeg 桌面推流
  • 安装 electron 依赖报错
  • Flutter 3.24.5安装配置——2024年11月26日
  • OpenCV从入门到精通实战(五)——dnn加载深度学习模型
  • 股指期货交割日为啥会大跌?
  • SpringBoot 项目中使用 spring-boot-starter-amqp 依赖实现 RabbitMQ