当前位置：首页 > article >正文

视频生成FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation

article 2025/3/4 9:13:08

论文作者：Yunpeng Zhang,Qiang Wang,Fan Jiang,Yaqi Fan,Mu Xu,Yonggang Qi

作者单位：Alibaba Group;Beijing University of Posts and Telecommunications

论文链接：http://arxiv.org/abs/2502.13995v1

内容简介：

1）方向：文本到视频生成

2）应用：文本到视频生成

3）背景：近年来，基于大规模预训练视频扩散模型的调优-free方法在生成视频时显示了很好的效果和可扩展性，但在确保面部动态自然且身份保持不变方面仍然面临着显著挑战。

4）方法：本文提出了一种名为FantasyID的调优-free IPT2V框架。其关键创新包括引入3D面部几何先验来保证视频合成过程中面部结构的合理性；采用多视角面部增强策略捕捉多样化的2D面部外观特征，从而增加面部表情和头部姿势的动态变化；此外，研究还引入了可学习的层感知自适应机制，通过选择性地将融合的2D和3D特征注入到DiT层中，从而促进身份保持与运动动态的平衡建模。

5）结果：实验结果验证了该模型在面部动态生成与身份保持方面的优越性，相较于现有的调优-free IPT2V方法，FantasyID展示了更为优秀的性能。