当前位置: 首页 > article >正文

超越IP-Adapter!阿里提出UniPortrait,可通过文本定制生成高保真的单人或多人图像。

阿里提出UniPortrait,能根据用户提供的文本描述,快速生成既忠实于原图又能灵活调整的个性化人像,用户甚至可以通过简单的句子来描述多个不同的人物,而不需要一一指定每个人的位置。这种设计大大简化了用户的操作,提升了个性化生成的效率和效果。

UniPortrait以统一的方式定制单 ID 和多 ID 图像,提供高保真身份保存、广泛的面部可编辑性、自由格式的文本描述,并且无需预先确定的布局。

亮点直击

  • UniPortrait是一种创新的人类形象个性化框架,该框架统一了具有高面和可控性的单ID定制和多ID定制;

  • 文中提出了一个新颖的ID嵌入模块,具有脱钩策略,该模块嵌入了详细的面部身份信息,同时保持良好的编辑性。

  • 文中介绍了ID路由机制,该机制解决了多ID自定义中的身份混合问题,但并不损害每个身份完整性,生成的图像多样性和迅速设计灵活性。

相关链接

论文地址:http://arxiv.org/abs/2408.05939v1

项目地址:https://aigcdesigngroup.github.io/UniPortrait-Page/

论文阅读

UniPortrait:用于保留身份的单人和多人图像个性化的统一框架

摘要

本文介绍了一种创新的人体图像个性化框架 UniPortrait,它将单 ID 和多 ID 定制与高人脸保真度、广泛的人脸可编辑性、自由形式的输入描述和多样化的布局生成统一起来。UniPortrait 仅包含两个即插即用模块:ID 嵌入模块和 ID 路由模块。ID 嵌入模块使用解耦策略为每个 ID 提取多功能可编辑人脸特征,并将它们嵌入到扩散模型的上下文空间中。然后,ID 路由模块将这些嵌入自适应地组合和分布到合成图像中的各自区域,实现单 ID 和多 ID 的定制。通过精心设计的两阶段训练方案,UniPortrait 在单 ID 和多 ID 定制中均实现了卓越的性能。定量和定性实验证明了我们的方法优于现有方法的优势以及良好的可扩展性,例如与现有生成控制工具的通用兼容性。

方法

UniPortrait由两个即插即用的模块组成:ID 嵌入模块和 ID 路由模块。ID 嵌入模块使用针对每个 ID 的解耦策略提取多功能可编辑面部特征,ID 路由模块自适应地组合和分配这些嵌入到各自的位置,而无需提示和布局的干预。该框架的整个训练过程分为两个阶段,即单 ID 训练阶段和多 ID 微调阶段。

UniPortrait仅由两模块组成:ID嵌入模块和ID路由模块。

ID嵌入模块使用Stable Diffusion模型,接受文本提示并生成对应图像。该模块通过提取面部特征,并在嵌入过程中采用多层感知机模型,确保ID信息的高保真度和可编辑性。同时,通过将深层次的特征与结构特征相结合,UniPortrait能够有效地解耦身份信息和外部干扰信息,消除过拟合的可能性。

在ID路由模块中,UniPortrait引入了位置无关的ID嵌入,将每个潜在面部区域与一个独特ID相连,从而有效解决多ID生成中的身份混淆问题。训练过程分为两个阶段:单ID训练阶段和多ID微调阶段。这样的设计确保了模型不仅支持单一身份的定制,还能处理复杂的多身份任务。

实验

文本到单一 ID 个性化示例

文本到多 ID 个性化示例

与之前作品的比较

对单一 ID 图像定制的不同方法进行定性比较。

对多 ID 图像定制的不同方法进行定性比较。为了与 FastComposer 兼容,数字复数表达(例如"two men")被转换为由"and"连接的单数短语(例如"a man and a man")。

多 ID 定制的其他示例。UniPortrait 能够使用自由格式提示定制多 ID 图像并生成不同的布局。

多样化应用

UniPortrait 在对齐 ID、保持及时一致性以及增强生成图像的多样性和质量方面的卓越性能为大量潜在的下游应用铺平了道路。

结论

我们介绍了UniPortrait,该模型是为单IID图像的统一定制而开发的。 UniPortrait结合了一个高级ID嵌入模块,可确保高保真和可编辑的身份嵌入。此外,已经集成了一个模块化的插件ID路由组件,以解决多个ID生成过程中身份混合物的挑战。经验结果表明,UniPortrait通过提供不仅具有高质量和多样性的合成,而且提供了强大的编辑性和强大的身份保真度来优于现有方法。我们希望我们的单一图案将在该领域内作为新的基线工作,提供所有研究机构可以遵循,复制和优化的基准。

限制。 考虑到路由决策路由器仅基于人类ID信息,我们的 ID路由模块当前无法自定义与面对身份无关的属性,例如服装和动作, 对于多ID世代中的每个ID。可能的解决方案是为了将所有感兴趣属性的表示形式送入指导ID路由的路由器,即属性绑定ID路由。我们将其留给以后的研究。


http://www.kler.cn/news/294805.html

相关文章:

  • 类和对象的定义和调用演示(C++)
  • CSS-动态计算高度
  • [数据集][目标检测]街道乱堆垃圾检测数据集VOC+YOLO格式94张1类别
  • ELK学习笔记(一)——使用K8S部署ElasticSearch8.15.0集群
  • Python条件表达式优化的10个实例
  • Springboot集成WebSocket客户端,发送消息并监测心跳
  • Ansible与Docker集成:实现容器化运维自动化
  • 浙大数据结构:02-线性结构1 两个有序链表序列的合并
  • [数据集][目标检测]西红柿成熟度检测数据集VOC+YOLO格式3241张5类别
  • 网络协议-SSH
  • Linux 上如何做MySQL数据备份
  • K近邻法(K-nearest neighbor,K-NN)—有监督学习方法、非概率模型、判别模型、线性模型、参数化模型、批量学习、核方法
  • ffmpeg音视频开发从入门到精通——ffmpeg 视频数据抽取
  • 【C++STL(十四)】一个哈希桶简单模拟实现unordered_map/set
  • 基于微信小程序在线订餐系统
  • 什么是串口服务器?
  • dwg、dxf文件多行文字转单行文字
  • NLP自然语言处理之文本分类项目实战TextCNN
  • LabVIEW中Request Deallocation 功能
  • 前端项目运行汇总
  • Kafka【十三】消费者消费消息的偏移量
  • 【Spring Boot】 SpringBoot自动装配-Condition
  • MySQL数据库的SQL注入漏洞解析
  • SpringDataJPA系列(7)Jackson注解在实体中应用
  • Python爬虫:通过js逆向获取某瓜视频的下载链接
  • OpenGL(二)-更详细版的三角形
  • Java项目——苍穹外卖(一)
  • TypeScript系列 :接口interfaces
  • BERN2(生物医学领域)命名实体识别与命名规范化工具
  • 机器学习(西瓜书)第 4 章 决策树