当前位置: 首页 > article >正文

【论文精读】Taming Transformers for High-Resolution Image Synthesis

1 论文背景

  1. 团队:海德堡大学图像处理实验室
  2. 时间:2020

2 动机

Transformer已经在自然语言处理上成功应用,但是在图像处理方面应用有限,图片最大只能处理64x64。主要限制在于:

  1. 序列长度和算力需求的平方成正比,对于高清图像(可以理解为HxW更长的序列),所需算力更高。
  2. 比CNN针对性更弱。has to learn all relationships while CNNs have been designed to exploit prior knowledge about strong local correlations within images.

CNN具有归纳偏置(https://zhuanlan.zhihu.com/p/537658409),主要是局部性和平移不变性,在这2个先验信息前提下,CNN学习速度更快,因此在小样本的图片处理任务中优于Transformer。

这篇论文就是将CNN和Transformer结合起来,将CNN的归纳偏置的性能和Transformer的表达能力相结合,用于高清的图片生成。

高清图片生成需要2个关键能力,并通过2个模型组合实现:

  1. 局部现实,猫是猫,狗是狗,locally realistic,依赖CNN
  2. 全局一致性,之前往左转,之后继续往左转,globally consistent,依赖Transformer

3 具体做法

采用VQVAE/VQGAN(向量量化变分自编码器)用CNN将图片进行特征提取,得到具有丰富上下文信息的(context-rich)codebook,并解码得到原始图像,保证中间的codebook包含了最有效的压缩信息(perceptually important local structure)。

之所以用codebook,是因为codebook是有限集合,能够减少枚举难度,降低描述难度。

由于采用VQ,因此用下标index即可代表某向量
然后用Transformer建模连续多张图片的index,并推理下一张的index,然后进行解码即可。

在使用VQGAN时

  1. 下采样层数不能太多,否则会导致重建能力下滑degradation of the reconstruction quality beyond a critical value of downsampling blocks m
  2. 下采样层数不能太少,否则感受野不够大,信息不够丰富For small receptive fields, or equivalently small f, the model cannot capture coherent structures.

http://www.kler.cn/a/533263.html

相关文章:

  • RTMP 和 WebRTC
  • PAT甲级1052、Linked LIst Sorting
  • Vue 图片引用方式详解:静态资源与动态路径访问
  • 渗透笔记2
  • list容器(详解)
  • grpc 和 http 的区别---二进制vsJSON编码
  • 【入门】如何使用DeepSeek批量创作短视频
  • git 指定ssh key
  • 【漫话机器学习系列】081.测量理论(Almost Everywhere)
  • 3D图形学与可视化大屏:如何让材质与光照进行交互。
  • C# 字符串与正则表达式介绍
  • 2.5学习
  • 阿里 Java 岗个人面经分享(技术三面 + 技术 HR 面):Java 基础 +Spring+JVM+ 并发编程 + 算法 + 缓存
  • 【学Rust写CAD】3 绝对坐标系详解
  • mini-lsm通关笔记Week2Day6
  • 电商项目-分布式事务(四)基于消息队列实现分布式事务
  • 【AI】DeepSeek R1本地化部署 Ollama + Chatbox 打造最强AI工具
  • php反序列化含CTF实战
  • Java三十天速成(java进阶篇)
  • 在uniapp中修改打包路径
  • Maven(Ⅲ)继承和聚合
  • 【Origin笔记-2】降水量变化趋势单位理解
  • Flink (十四) :Table API SQL (二) 流式概念
  • 使用DeepSeek的技巧笔记
  • 【怎么用系列】短视频戒除—2—(移动端)抖音等短视频定时关闭方法
  • 视觉控件怎么去做以及过程,怎么让系统自动到保存电脑?