当前位置: 首页 > article >正文

[大语言模型] LINFUSION:1个GPU,1分钟,16K图像

1. 文章

2409.02097 (arxiv.org)icon-default.png?t=O83Ahttps://arxiv.org/pdf/2409.02097

LINFUSION: 1 GPU, 1 MINUTE, 16K IMAGE

摘要

本文介绍了一种新型的扩散模型LINFUSION,它能够在保持高分辨率图像生成性能的同时显著降低时间和内存复杂度。该模型采用了基于Transformer的UNet进行去噪,并且通过引入线性注意力机制替代了传统的自注意力操作,以解决高分辨率视觉内容生成中的挑战。研究者们从最近引入的具有线性复杂度的模型中获得灵感,提出了一种新的线性注意力范式,该范式可作为多种流行的线性令牌混合器的低秩近似。通过从预训练的StableDiffusion (SD)模型中初始化并进行知识蒸馏,LINFUSION在适度训练后即可达到或超过原始SD的性能,同时显著减少时间和内存复杂度。实验表明,LINFUSION能够生成高达16K分辨率的高分辨率图像,并且与预训练的SD组件(如ControlNet和IP-Adapter)高度兼容。

创新点

  1. 提出了一种新的线性注意力机制,作为传统自注意力方法的替代,以解决高分辨率图像生成中的时间和内存复杂度问题。
  2. 引入了注意力归一化和非因果推理两个关键特性,以增强高分辨率视觉生成性能。
  3. 通过知识蒸馏的方式,从预训练的StableDiffusion模型中初始化并优化LINFUSION,减少了训练成本并提高了与现有模型的兼容性。

算法模型

LINFUSION模型基于Stable Diffusion (SD),通过以下关键技术构建:
线性注意力机制:替代SD中的自注意力层,以线性复杂度处理空间令牌。
注意力归一化:确保不同输入规模下的总影响保持一致。
非因果推理:允许模型同时访问所有噪声空间令牌并基于整个输入生成去噪令牌。
知识蒸馏:从预训练的SD模型中转移知识,以优化LINFUSION模型。

实验效果

  • 生成速度和内存消耗:在8步去噪和单GPU情况下,与原始SD-v1.5相比,LINFUSION在不同分辨率下的生成速度更快,内存消耗更低。
  • 跨分辨率生成性能:在SD-v1.5、SD-v2.1和SD-XL上的实验表明,LINFUSION在零样本跨分辨率生成性能上令人满意,能够生成高达16K分辨率的图像。
  • 与预训练组件的兼容性:LINFUSION与SD的现有组件(如ControlNet和IP-Adapter)高度兼容,无需额外训练成本。


http://www.kler.cn/news/318058.html

相关文章:

  • 个人量化成功之路-----获取实时OHLC的数据
  • 设计模式六大原则:面向对象设计的核心
  • 不靠学历,不拼年资,怎么才能月入2W?
  • 电商安全新挑战:筑起数字防御长城,守护业务与数据安全
  • Java反射机制入门:解锁运行时类信息的秘密
  • 新闻文本分类识别系统Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+TensorFlow+Django网页界面
  • 面经3——中和农信
  • Redisson分布式锁分析,可重入、可续锁(看门狗)
  • html知识点框架
  • 成为谷歌开发者专家(GDE)的经历
  • LTE协议栈学习
  • 分布式计算技术是什么?在数据集成值得作用?
  • 记某学校小程序漏洞挖掘
  • Array.prototype.slice.call()
  • ARPGDemo第一阶段
  • 构建安全的Linux计算环境:最佳实践与策略
  • 第17周 第3章Servlet开发应用实践 --- 配置默认首页与通配符映射
  • 潮玩宇宙大逃杀宝石游戏搭建开发
  • 在Java中,有没有其他方式可以替代List<Map<String,Object>>来存储和处理数据?
  • Linux快速安装ClickHouse
  • 【leetcode练习·二叉树】用「遍历」思维解题 I
  • Flutter为Android添加签名并打包
  • 数值计算 --- 平方根倒数快速算法(上)
  • 虚拟机与物理机的文件共享
  • 【LLM学习之路】9月23日24日 第十、十一天 Attention代码解读
  • 将硬盘的GPT 转化为MBR格式
  • 如何完成等保的建设整改
  • Apache Doris 实践
  • MySQL的数据库课程设计的基本步骤和考虑因素
  • 大小端字节序 和 内存高低地址顺序