当前位置: 首页 > article >正文

视频生成FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation

论文作者:Yunpeng Zhang,Qiang Wang,Fan Jiang,Yaqi Fan,Mu Xu,Yonggang Qi

作者单位:Alibaba Group;Beijing University of Posts and Telecommunications

论文链接:http://arxiv.org/abs/2502.13995v1

内容简介:

1)方向:文本到视频生成

2)应用:文本到视频生成

3)背景:近年来,基于大规模预训练视频扩散模型的调优-free方法在生成视频时显示了很好的效果和可扩展性,但在确保面部动态自然且身份保持不变方面仍然面临着显著挑战。

4)方法:本文提出了一种名为FantasyID的调优-free IPT2V框架。其关键创新包括引入3D面部几何先验来保证视频合成过程中面部结构的合理性;采用多视角面部增强策略捕捉多样化的2D面部外观特征,从而增加面部表情和头部姿势的动态变化;此外,研究还引入了可学习的层感知自适应机制,通过选择性地将融合的2D和3D特征注入到DiT层中,从而促进身份保持与运动动态的平衡建模。

5)结果:实验结果验证了该模型在面部动态生成与身份保持方面的优越性,相较于现有的调优-free IPT2V方法,FantasyID展示了更为优秀的性能。


http://www.kler.cn/a/569934.html

相关文章:

  • S8711A UXM5G 测试应用软件
  • 最新集装箱箱号识别技术,在物流行业中的应用场景,
  • 以1.7K深圳小区房价为例,浙大GIS实验室使用注意力机制挖掘地理情景特征,提升空间非平稳回归精度
  • CSS3中布局方式说明
  • 单片机学习规划
  • DeepSeek掘金——DeepSeek-R1图形界面Agent指南
  • JDK官网安装教程 Windows
  • SpringBoot原理-04.自动配置-原理分析-源码跟踪
  • 探秘基带算法:从原理到5G时代的通信变革【九】QPSK调制/解调
  • k8s内存不足问题
  • 轻量级日志管理系统promtail+loki+grafana部署流程
  • PHP简介
  • 浏览器多实例项目的隔离方案
  • 阿里云 对象存储服务
  • 亚马逊新品推广革命:如何用DeepBI的AI智能系统实现从0到爆单的跨越式增长?
  • Wireshark的OSPF报文抓包和分析(单区域ospf实验)
  • 1114棋盘问题acwing(深度优先搜索)
  • ollama查看模型日志
  • 【Vue CLI脚手架开发】——2.ref属性
  • Arcgis中添加脚本工具箱