当前位置: 首页 > article >正文

探索在直播中的面部吸引力预测新的基准和多模态方法

概述

迄今为止,面部吸引力预测(FAP)主要是在心理学研究、美容化妆品行业以及整形手术领域进行研究。这是一个具有挑战性的研究领域,因为美的标准往往是具有国别性而非全球性的。

这意味着没有一个单一有效的基于人工智能的数据集是可行的,因为从所有文化中采样面部/评分得到的平均值会存在很大偏差(人口较多的国家会获得更多关注),否则就可能对任何文化都不适用(多种族/评分的平均值可能并不代表任何实际的种族)。

相反,挑战在于开发出概念性的方法和工作流程,以便能够处理特定国家或文化的数据,从而开发出针对各个地区的有效FAP模型。

FAP在美容和心理学研究中的用例非常有限,或者是特定于某个行业的;因此,到目前为止整理的大多数数据集只包含有限的数据,或者根本没有公开。

在线吸引力预测工具很容易获得,大多针对西方受众,但它们不一定代表FAP的最新技术水平,目前FAP领域似乎以东亚地区(主要是中国)的研究以及相应的东亚数据集为主导。

美容评估的更广泛商业用途包括在线约会应用程序,以及旨在“修饰”人物真实头像图像的生成式人工智能系统(因为此类应用程序需要将量化的美貌标准作为有效性指标)。

一、绘制面孔

有吸引力的人在广告和影响力塑造方面仍然是一种宝贵的资产,这使得这些领域的经济激励成为推动先进FAP数据集和框架发展的明显机遇。

例如,一个使用真实世界数据进行训练的人工智能模型,用于评估和评定面部美貌,有可能识别出具有高广告影响力的事件或个人。这种能力在直播视频环境中尤为重要,因为目前像“粉丝数”和“点赞数”这样的指标只是个人(甚至是某种面部类型)吸引观众能力的__隐含__指标。

当然,这只是一个表面指标,声音、表现方式和观点在吸引观众方面也起着重要作用。因此,FAP数据集的整理需要人工监督,并且能够区分面部的吸引力和“虚假的”吸引力(否则,像亚历克斯·琼斯这样的非主流影响者可能会影响专门用于评估面部美貌的数据集的平均FAP曲线)。

LiveBeauty

为了解决FAP数据集短缺的问题,中国的研究人员提供了第一个大规模的FAP数据集,其中包含100,000张面部图像,以及200,000个人工标注的面部美貌评估。

这个数据集名为__LiveBeauty__,包含10,000个不同的身份,所有图像均于2024年3月从(未指明的)直播平台上采集。

作者还提出了FPEM,这是一种新颖的多模态FAP方法。FPEM通过个性化吸引力先验模块(PAPM)、多模态吸引力编码器模块(MAEM)和跨模态融合模块(CMFM),整合了整体面部先验知识和多模态美学语义特征。

论文认为,FPEM在新的LiveBeauty数据集和其他FAP数据集上取得了最先进的性能。作者指出,这项研究在提高直播视频质量、内容推荐和面部修饰方面具有潜在应用价值。

作者还承诺“很快”就会公开这个数据集——不过必须承认,源领域中固有的任何许可限制似乎都可能会影响到大多数可能使用该数据集的相关项目。

这篇新论文的标题是《Facial Attractiveness Prediction in Live Streaming:
A New Benchmark and Multi-modal Method》,由阿里巴巴集团和上海交通大学的十位研究人员共同撰写。

二、 方法和数据

研究人员从直播平台的每个时长为10小时的直播中,选取前三个小时内每小时的一张图像。选择的是浏览量最高的直播。

收集到的数据随后经过了几个预处理阶段。第一个阶段是__面部区域尺寸测量__,使用2018年基于CPU的FaceBoxes检测模型在面部轮廓周围生成一个边界框。该流程确保边界框的较短边超过90像素,避免出现过小或不清晰的面部区域。

第二个步骤是__模糊检测__,通过使用拉普拉斯算子在面部裁剪图像的高度(Y)通道中的方差,对人脸区域进行模糊检测。该方差必须大于10,这有助于过滤掉模糊的图像。

第三个步骤是__面部姿态估计__,使用2021年的3DDFA-V2姿态估计模型:

在这个步骤中,工作流程确保裁剪后的面部的俯仰角不大于20度,偏航角不大于15度,从而排除具有极端姿态的面部。

第四个步骤是__面部比例评估__,同样使用3DDFA-V2模型的分割功能,确保裁剪后的面部区域比例大于图像的60%,排除面部在整体画面中不突出(即面部在画面中过小)的图像。

最后,第五个步骤是__重复人物去除__,对于在一个10小时的视频中采集的三张图像中出现同一个人的情况,使用一个(未注明出处的)最先进的人脸识别模型进行处理。

2.1 人工评估和标注

招募了20名标注人员,其中包括6名男性和14名女性,反映了所使用的直播平台的人口统计特征*。面部图像显示在iPhone 14 Pro Max的6.7英寸屏幕上,实验在一致的实验室条件下进行。

评估分为200个环节,每个环节使用50张图像。受试者被要求对样本的面部吸引力进行1 - 5分的评分,每个环节之间强制休息五分钟,并且所有受试者都参与所有环节。

因此,这10,000张图像由20名受试者进行了全面评估,得到了200,000个标注。

2.2 分析和预处理

首先,使用异常值比率和斯皮尔曼等级相关系数(SROCC)对受试者进行筛选。SROCC小于0.75或异常值比率大于2%的受试者被认为不可靠,将被剔除,最终得到20名受试者。

然后,通过对有效受试者给出的分数求平均值,计算出每张面部图像的平均意见得分(MOS)。MOS作为每张图像的[真实]吸引力标签,该得分是通过对每个有效受试者的所有个人得分求平均值计算得出的。

最后,对所有样本以及女性和男性样本的MOS分布进行分析,结果表明它们呈现出高斯分布形状,这与现实世界中面部吸引力的分布情况一致:

大多数人的面部吸引力处于平均水平,只有少数人的吸引力极低或极高。

此外,对偏度和峰度值的分析表明,这些分布的特点是尾部较薄,集中在平均得分附近,并且在收集的直播视频中,女性样本中高吸引力的情况更为普遍

2.3 架构

面部先验增强多模态模型(FPEM)和LiveBeauty中的混合融合阶段采用了两阶段训练策略,分为四个模块:个性化吸引力先验模块(PAPM)、多模态吸引力编码器模块(MAEM)、跨模态融合模块(CMFM)和决策融合模块(DFM)。


PAPM模块以图像作为输入,使用Swin Transformer提取多尺度视觉特征,并使用预训练的FaceNet模型提取面部感知特征。然后,使用交叉注意力模块将这些特征组合起来,创建一个个性化的“吸引力”特征。

在初步训练阶段,MAEM使用图像和关于吸引力的文本描述,利用CLIP提取多模态美学语义特征。

模板化的文本描述形式为__“一张具有{a}吸引力的人的照片”(其中{a}可以是__差一般中等好__或__完美)。该过程通过估计文本和视觉嵌入之间的余弦相似度来得出吸引力水平的概率。

在混合融合阶段,CMFM使用PAPM生成的个性化吸引力特征对文本嵌入进行细化,从而生成个性化的文本嵌入。然后,它使用相似度回归策略进行预测。

最后,DFM将PAPM、MAEM和CMFM的各个预测结果组合起来,生成一个单一的最终吸引力得分,目标是达成一个可靠的共识。

2.4 损失函数

对于损失度量,PAPM使用L1损失进行训练,L1损失是预测的吸引力得分与实际(真实)吸引力得分之间的绝对差值的度量。

MAEM模块使用一个更复杂的损失函数,该函数将评分损失(LS)与合并的排序损失(LR)相结合。排序损失(LR)包括保真度损失(LR1)和双向排序损失(LR2)。

LR1比较图像对的相对吸引力,而LR2确保预测的吸引力水平概率分布有一个单峰,并且在两个方向上逐渐减小。这种组合方法旨在优化图像基于吸引力的准确评分和正确排序。

CMFM和DFM使用简单的L1损失进行训练。

三、测试

在测试中,研究人员将LiveBeauty与九种先前的方法进行了对比:ComboNet;2D-FAP;REX-INCEP;CNN-ER(在REX-INCEP中有介绍);MEBeauty;AVA-MLSP;TANet;Dele-Trans;以及EAT。

同时,也测试了符合图像美学评估(IAA)协议的基线方法,即ViT-B、ResNeXt-50和Inception-V3。

除了LiveBeauty,测试中使用的其他数据集还有SCUT-FBP5000和MEBeauty。以下是这些数据集的平均意见得分(MOS)分布对比:
基准数据集的MOS分布

为了与这些数据集原本的协议保持一致,这些用作对比的数据集分别按60%-40%和80%-20%的比例划分用于训练和测试,而LiveBeauty则按90%-10%的比例划分。

在MAEM的模型初始化中,分别使用VT-B/16和GPT-2作为图像和文本编码器,并根据CLIP的设置进行初始化。对于PAPM,依据SwinFace,使用Swin-T作为可训练的图像编码器。

优化器采用AdamW,并设置了带有线性预热的学习率调度器,采用余弦退火策略。不同训练阶段的学习率有所不同,但每个阶段的批次大小均为32,训练轮数为50轮。
测试结果

以上展示了在三个面部吸引力预测(FAP)数据集上的测试结果。关于这些结果,论文中指出:
“我们提出的方法在LiveBeauty、MEBeauty和SCUT-FBP5500数据集上,斯皮尔曼等级相关系数(SROCC)值分别位居第一,比第二名高出约0.012、0.081和0.021,这证明了我们所提方法的优越性。
“图像美学评估(IAA)方法不如面部吸引力预测(FAP)方法,这表明通用的美学评估方法忽略了面部吸引力主观性所涉及的面部特征,导致在面部吸引力预测任务中表现不佳。
“所有方法在MEBeauty数据集上的性能均显著下降。这是因为MEBeauty数据集中的训练样本有限,且面部的种族多样性较高,这表明面部吸引力存在很大差异。
“所有这些因素使得在MEBeauty数据集中预测面部吸引力更具挑战性。”

四、伦理考量

对吸引力的研究可能会引发争议,因为在建立所谓的客观美的标准时,这样的系统往往会强化与计算机视觉研究中人类相关的年龄、种族等诸多方面的偏见。

有人可能会认为,面部吸引力预测系统本质上就倾向于强化和延续对吸引力的片面、有偏见的观点。这些判断可能源于人工标注——标注所采用的量表往往过于局限,难以有效进行领域泛化;也可能来自对直播平台等在线环境中注意力模式的分析,而这些在线环境远非公平竞争的环境。


http://www.kler.cn/a/578695.html

相关文章:

  • 服务远程调用(RPC)架构及原理
  • 欢乐力扣:汇总区间
  • QwQ-32B 开源!本地部署+微调教程来了
  • 文心一言:中国大模型时代的破局者与探路者
  • STM32中输入/输出有无默认电平
  • Vue3中computed计算属性的高级玩法
  • Vue3基础之响应式原理
  • 【java】StringJoiner
  • MyBatis-Plus分页控件使用及使用过程发现的一个坑
  • 【形态学操作中的开运算和闭运算详细讲解】
  • 系统架构设计师—系统架构设计篇—特定领域软件体系结构
  • 为AI聊天工具添加一个知识系统 之141 设计重审 之6 文章学 之 引言 之0 总括生命的形式:意识形态 诗和逻辑
  • WPF基础知识1-20
  • LeetCode 每日一题 1328. 破坏回文串
  • 机器学习数学基础:42.AMOS 结构方程模型(SEM)分析的系统流程
  • Primer - 自适应学习,AI学习工具
  • 从案例分析看微型工业计算机在智能社区中的卓越表现
  • JavaScript网页设计案例:打造交互式用户体验
  • Stream特性(踩坑):惰性执行、不修改原始数据源
  • Expo知识框架大全详解