Pulid:pure and lightning id customization via contrastive alignment
1.introduction
基于微调的方案,对每个id进行定制需要花费数十分钟。另一项研究则放弃了对每个id进行微调,而是选择在一个庞大的肖像数据集上预训练一个id适配器。这些方法通常利用编码器例如clip来提取id特征,提取的特征随后以特定方式例如嵌入到cross attention集成到基础扩散模型中,挑战:1.理想的id只改变与id相关的方面,而不改变背景、照明、构图和风格。id嵌入之后会出现退化。id嵌入仍需要保留t2i模型的prompt遵循能力,这通常意味着能够通过提示改变id属性(年龄、性别、表情和发型)、方向和配饰(眼镜)。为了实现这些功能,目前的解决方案一般分为两种,第一类涉及增强编码器,ipadapter从早期的clip中提取特征转变为使用人脸识别backbone来提取更为抽象和相关的id信息,尽管可编辑性得到改善,但id的保真度仍然不够高,instantid在次基础上加入了额外的id&landmark controlnet以实现更有效的调节,牺牲了一些可编辑性和灵活性。2.缺乏保真度,gan时代的经验,提高id保真度的一个直接想法是在扩散训练中引入id loss,扩散模型需要迭代去噪