当前位置：首页 > article >正文

Pulid:pure and lightning id customization via contrastive alignment

article 2024/11/23 18:15:21

1.introduction

基于微调的方案，对每个id进行定制需要花费数十分钟。另一项研究则放弃了对每个id进行微调，而是选择在一个庞大的肖像数据集上预训练一个id适配器。这些方法通常利用编码器例如clip来提取id特征，提取的特征随后以特定方式例如嵌入到cross attention集成到基础扩散模型中，挑战：1.理想的id只改变与id相关的方面，而不改变背景、照明、构图和风格。id嵌入之后会出现退化。id嵌入仍需要保留t2i模型的prompt遵循能力，这通常意味着能够通过提示改变id属性（年龄、性别、表情和发型）、方向和配饰（眼镜）。为了实现这些功能，目前的解决方案一般分为两种，第一类涉及增强编码器，ipadapter从早期的clip中提取特征转变为使用人脸识别backbone来提取更为抽象和相关的id信息，尽管可编辑性得到改善，但id的保真度仍然不够高，instantid在次基础上加入了额外的id&landmark controlnet以实现更有效的调节，牺牲了一些可编辑性和灵活性。2.缺乏保真度，gan时代的经验，提高id保真度的一个直接想法是在扩散训练中引入id loss，扩散模型需要迭代去噪

查看全文

http://www.kler.cn/a/406076.html