当前位置：首页 > article >正文

Imagic: Text-Based Real Image Editing with Diffusion Models

article 2024/10/22 4:15:00

https://openaccess.thecvf.com/content/CVPR2023/papers/Kawar_Imagic_Text-Based_Real_Image_Editing_With_Diffusion_Models_CVPR_2023_paper.pdf
https://imagic-editing.github.io/

针对的是text based image editing问题，可以解决non rigid edit，即可以改变图片中object的posture；
模型仅需要原图以及编辑的text，不需要mask，也是在T2I diffusion model上实现的；
首先optimize text embedding，之后使用优化后的text embedding来微调整个模型，最后将优化之后的text embedding和目标text的embedding进行插值得到一个结合原图以及编辑prompt的embedding，然后进行生成得到想要的结果；

Text embedding optimization：首先获取到编辑后text的embedding $e_{tgt}$ ，之后只是训练embedding部分，冻结diffusion model主体，训练很少的步数，以使得优化之后的embedding $e_{opt}$ 没有发生很大的变化，便于第三步的插值操作；
Model fine-tuning：因为第一步只训练了很少的步数，所以生成的图片不能和原图完全一致，所以进行了全模型的训练(优化之后的embedding冻结)，此时使用的是 $e_{opt}$ ，但是在finetune后接的超分模型的时候使用的是 $e_{tgt}$ ；
Text embedding interpolation：进行 $e_{tgt},e_{opt}$ 之间的插值： $\overline{e} = \eta\cdot e_{tgt} + (1 - \eta)\cdot e_{opt}$ ，以这个作为最后的embedding来生成，后接的超分模型还是使用 $e_{tgt}$