当前位置: 首页 > article >正文

华为PixArt-α:高质量、低成本的文生图模型,训练时长只有SD 1.5的10.8%

2024年3月11日由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队共同开发的PixArt-Σ是一款能够直接生成4K分辨率图像的扩散变换模(DiT)。PixArt-Σ相比其前作PixArt-α,在图像质量和文本提示对齐方面有了显著提升,展示了从“弱”到“强”的训练效率。

由于PixArt-Σ和PixArt-α有着很大的关联。所以在向大家介绍PixArt-Σ之前,先为大家介绍PixArt-α的相关工作。

文生图模型如DALLE2、Imagen和Stable Diffusion的发展,开启了逼真图像合成的新时代。这不仅对图片编辑、视频制作、3D素材创建等领域产生了深远影响,还为研究社区和企业提供了许多下游应用的机会。

现在训练一个媲美 MJ 的文生图模型,26K 美元就能实现了。

来自华为诺亚方舟实验室等研究机构的研究者联合提出了开创性的文本到图像(T2I)模型 PixArt-α, PixArt-α主打的是低训练成本。采用Meta之前提出的DiT架构,模型参数只有0.6B,它的训练时长只有SD 1.5的10.8%,而且只使用了25M数据进行训练。

相关链接

  • 项目主页:https://pixart-alpha.github.io/

  • 项目地址:https://github.com/PixArt-alpha/PixArt-alpha

  • 论文地址:https://arxiv.org/abs/2310.00426

在线Demo

  • Demo试用链接:https://github.com/PixArt-alpha/PixArt-alpha

效果展示

论文阅读

摘要

PIXART-α是一种基于transformer的T2I扩散模型,其图像生成质量与最先进的图像生成器(例如Imagen, SDXL,甚至Midjourney)相媲美,达到了接近商业应用标准。

此外,它支持分辨率高达1024px的高分辨率图像合成,训练成本低。为了实现这一目标,提出了三个核心设计:

  • (1)训练策略分解:我们设计了三个不同的训练步骤,分别优化像素依赖性、文本-图像对齐和图像美学质量;

  • (2)高效T2I变压器:在扩散变压器(Diffusion Transformer, DiT)中加入交叉关注模块,注入文本条件,简化计算密集型类条件分支;

  • (3)高信息量数据:我们强调概念密度在文本-图像对中的重要性,并利用大型视觉语言模型自动标记密集的伪标题,以辅助文本-图像对齐学习。

因此,PIXART-α的训练速度明显超过了现有的大规模tti模型。此外,与更大的SOTA模型RAPHAEL相比,训练成本仅为1%。大量的实验表明,PIXART-α在图像质量、艺术性和语义控制方面表现优异。

方法

相比于T2I的CO2排放与训练花费,PIXART-α实现了26,000美元的极低训练成本。与RAPHAEL相比,碳排放量和训练成本分别仅为1.1%和0.85%。

ControlNet

来自PIXART-α的ControlNet定制样本。使用参考图像生成相应的HED边缘图像,并将其作为PIXART-α ControlNet的控制信号。

DreamBooth

PIXART-α可以与Dreambooth结合使用。在给定少量图像和文本提示的情况下,PIXART-α可以生成高保真图像,表现出与环境的自然交互,精确修改物体颜色。

更多效果

写在最后,PixArt-α的相关知识就为大家介绍到这里,后续会给大家带来华为最新的PixArt-Σ的相关文章介绍,敬请期待!也欢迎大家点击下方卡片,关注“AIGC Studio”!​一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~


http://www.kler.cn/a/272618.html

相关文章:

  • 【RAG落地利器】向量数据库Qdrant使用教程
  • 【Linux系统】Ext系列磁盘文件系统二:引入文件系统(续篇)
  • HBASE学习(一)
  • 数据结构题目 课时6
  • Leetcode3097:或值至少为 K 的最短子数组 II
  • 职场沟通与行为
  • 隐私和安全是首要考虑?Zoho ToDo的任务管理工具适合您
  • Nginx的日志怎么看,在哪看,access.log日志内容详解
  • Webpack 学习笔记
  • 在Linux/Ubuntu/Debian中使用lsof和fuser查看/解除文件占用
  • 数字电子技术实验(七)
  • 卷径计算(卷径检测开关+博途PLC SCL源代码)
  • 电商数据技术前沿:探索未来的无限可能
  • 学习使用postman软件上传文件发起api接口请求
  • 5、【AI技术新纪元:Spring AI解码】Spring AI API介绍
  • React——react 的基本使用
  • 力扣hot100:34. 在排序数组中查找元素的第一个和最后一个位置(二分查找的理解)
  • 心灵治愈交流平台|基于springboot框架+ Mysql+Java+B/S结构的心灵治愈交流平台设计与实现(可运行源码+数据库+设计文档)
  • 【playbook】
  • 鸿蒙Harmony应用开发—ArkTS声明式开发(容器组件:EffectComponent)
  • 鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:Web)中篇
  • 算法刷题day32
  • mysql 索引(为什么选择B+ Tree?)
  • RocketMQ - 发送消息时Producer是如何选择MessageQueue去发送的?
  • 画图实战-Python实现某产品全年销量数据多种样式可视化
  • mac下Appuim环境安装