畅游Diffusion数字人(9):Magic-Me: Identity-Specific Video Customized Diffusion
畅游Diffusion数字人(0):专栏文章导航
前言:在生成模型领域,针对特定身份(ID)创建内容已经引起了极大的兴趣。在文本到图像生成(T2I)领域,以主题驱动的内容生成已经取得了巨大的进展,使图像中的ID可控。然而,将其扩展到视频生成领域尚未得到很好的探索。今天分享的这个工作,提出了一个简单而有效的主题ID可控视频生成框架,称为Video Custom Diffusion(VCD)。
目录
贡献概述
动机
相关工作
主题驱动的文本到图像生成
文本到视频生成
视频编辑
图像动画
方法详解
3D高斯噪声先验
ID模块
人脸VCD和平铺VCD
实验
定性结果
实现细节
定量结果
消融研究
限制和未来工作
结论
贡献概述
通过指定由少数图像定义的主题ID,VCD加强了ID信息的提取,并在初始化阶段注入帧间相关性,以稳定地生成具有很大程度上保留身份的视频输出。为实现这一目标,提出了三个关键的新组件,对