当前位置: 首页 > article >正文

NLP论文速读(CVPR 2024)|学习文本到图像生成的多维人类偏好

论文速读|Learning Multi-dimensional Human Preference for Text-to-Image Generation

论文信息:

图片

简介:

      本文讨论的是文本到图像生成领域中的一个关键问题,即如何准确评估由文本描述生成的图像质量。传统的评估方法主要依赖于统计指标,如Inception Score (IS)、Fréchet Inception Distance (FID)和CLIP Score等,但这些指标往往不能很好地代表人类的真实偏好。尽管有些工作尝试通过人工标注的图像来学习这些偏好,但它们通常将复杂的人类偏好简化为单一的总体评分,忽略了人类在评估图像时会从多个维度进行考量的事实。动机在于现有的文本到图像生成模型在创建高质量图像方面取得了显著进展,但在实际应用中往往未能与人类偏好对齐。此外,人类在评估图像时会从多个角度进行考量,例如图像的美观程度、与文本描述的一致性、细节的清晰度等,而单一维度的评估方法无法充分捕捉这种复杂性。因此,本文旨在通过构建一个多维度的人类偏好评分模型(MPS),来更好地评估和改进文本到图像的生成质量。

论文方法:

图片

      本文提出了一个名为多维偏好评分(Multi-dimensional Preference Score, MPS)的模型,该模型基于CLIP模型构建,并引入了一个偏好条件模块来学习不同的偏好。

      MPS模型的训练基于多维人类偏好(Multi-dimensional Human Preference, MHP)数据集,该数据集包含了918,315个人类偏好选择,涵盖了607,541张由多种最新的文本到图像模型生成的图像,覆盖了美学、语义对齐、细节质量和总体评估四个维度。

      MPS模型的工作流程如下: 

      1)使用CLIP模型从图像和文本中提取特征。    

      2)通过条件掩码(condition mask)来突出与特定偏好条件相关的文本部分,同时抑制不相关的部分。   

      3)将图像和文本的特征通过多模态交叉注意力层(multimodal cross-attention layer)融合。  

      4)使用融合后的特征来预测偏好分数。

      MPS模型的关键创新在于条件掩码的使用,它允许模型在计算偏好分数时只关注与特定偏好条件相关的文本部分。这样,即使是在偏好之间相关性较弱的情况下,MPS模型也能够有效地预测多维度的人类偏好。通过在三个数据集上的性能比较,MPS模型在预测总体偏好和多维度偏好方面均优于现有方法,证明了其方法的有效性和泛化能力。

论文实验:

图片

      根据提供的Table 3,我们可以了解到论文中的实验部分主要关注于评估和比较不同方法在预测人类对文本到图像合成模型偏好的准确性。MPS在所有三个数据集上都展现出了比现有方法更高的准确率。在ImageReward数据集上,MPS的准确率为67.5%,高于其他所有方法。在HPD v2数据集上,MPS的准确率达到了83.5%,同样高于其他方法。在MHP数据集(总体)上,MPS的准确率为74.2%,表现优于其他方法。论文还比较了不同方法在预测多维度人类偏好方面的表现,这些维度包括总体、美学、语义对齐和细节。

论文链接:

   https://arxiv.org/abs/2405.14705


http://www.kler.cn/a/413280.html

相关文章:

  • 多输入多输出 | Matlab实现TCN-LSTM时间卷积神经网络结合长短期记忆神经网络多输入多输出预测
  • 多目标优化算法——多目标粒子群优化算法(MOPSO)
  • Linux ACL 权限详解与多场景实践
  • 介绍一下atol(arr);(c基础)
  • 数据结构C语言描述5(图文结合)--广义表讲解与实现
  • CatBoost 库包介绍与实战
  • Unity C# 影响性能的坑点
  • 深度学习6
  • Qt读写Usb设备的数据
  • Linux 上 MySQL 8.0 的备份与恢复实战指南
  • vi/vim文件管理命令练习
  • 基于Spring Boot的林业产品智能推荐平台
  • 【leetcode100】最大子数组和
  • Oracle-伪劣rowid和rownumber的用法
  • 设计模式学习之——责任链模式
  • Educator头歌:离散数学 - 图论
  • 【若依ruoyi Vue前端线上个人服务器部署】以及常见报错问题解决
  • 2024年11月27日Github流行趋势
  • 【Flink-scala】DataStream编程模型之 窗口的划分-时间概念-窗口计算程序
  • Day28 贪心算法 part02
  • CTF之密码学(费纳姆密码)
  • LLamafactory API部署与使用异步方式 API 调用优化大模型推理效率
  • 初识Linux(4):Linux基础环境工具(下)
  • YOLO的框架及版本迭代
  • Mac安装及合规无限使用Beyond Compare
  • Linux iptables 命令详解