【论文精读】Taming Transformers for High-Resolution Image Synthesis
1 论文背景
- 团队:海德堡大学图像处理实验室
- 时间:2020
2 动机
Transformer已经在自然语言处理上成功应用,但是在图像处理方面应用有限,图片最大只能处理64x64。主要限制在于:
- 序列长度和算力需求的平方成正比,对于高清图像(可以理解为HxW更长的序列),所需算力更高。
- 比CNN针对性更弱。has to learn all relationships while CNNs have been designed to exploit prior knowledge about strong local correlations within images.
CNN具有归纳偏置(https://zhuanlan.zhihu.com/p/537658409),主要是局部性和平移不变性,在这2个先验信息前提下,CNN学习速度更快,因此在小样本的图片处理任务中优于Transformer。
这篇论文就是将CNN和Transformer结合起来,将CNN的归纳偏置的性能和Transformer的表达能力相结合,用于高清的图片生成。
高清图片生成需要2个关键能力,并通过2个模型组合实现:
- 局部现实,猫是猫,狗是狗,locally realistic,依赖CNN
- 全局一致性,之前往左转,之后继续往左转,globally consistent,依赖Transformer
3 具体做法
采用VQVAE/VQGAN(向量量化变分自编码器)用CNN将图片进行特征提取,得到具有丰富上下文信息的(context-rich)codebook,并解码得到原始图像,保证中间的codebook包含了最有效的压缩信息(perceptually important local structure)。
之所以用codebook,是因为codebook是有限集合,能够减少枚举难度,降低描述难度。
由于采用VQ,因此用下标index即可代表某向量
然后用Transformer建模连续多张图片的index,并推理下一张的index,然后进行解码即可。
在使用VQGAN时
- 下采样层数不能太多,否则会导致重建能力下滑degradation of the reconstruction quality beyond a critical value of downsampling blocks m
- 下采样层数不能太少,否则感受野不够大,信息不够丰富For small receptive fields, or equivalently small f, the model cannot capture coherent structures.