视频生成FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation
论文作者:Yunpeng Zhang,Qiang Wang,Fan Jiang,Yaqi Fan,Mu Xu,Yonggang Qi
作者单位:Alibaba Group;Beijing University of Posts and Telecommunications
论文链接:http://arxiv.org/abs/2502.13995v1
内容简介:
1)方向:文本到视频生成
2)应用:文本到视频生成
3)背景:近年来,基于大规模预训练视频扩散模型的调优-free方法在生成视频时显示了很好的效果和可扩展性,但在确保面部动态自然且身份保持不变方面仍然面临着显著挑战。
4)方法:本文提出了一种名为FantasyID的调优-free IPT2V框架。其关键创新包括引入3D面部几何先验来保证视频合成过程中面部结构的合理性;采用多视角面部增强策略捕捉多样化的2D面部外观特征,从而增加面部表情和头部姿势的动态变化;此外,研究还引入了可学习的层感知自适应机制,通过选择性地将融合的2D和3D特征注入到DiT层中,从而促进身份保持与运动动态的平衡建模。
5)结果:实验结果验证了该模型在面部动态生成与身份保持方面的优越性,相较于现有的调优-free IPT2V方法,FantasyID展示了更为优秀的性能。