当前位置：首页 > article >正文

畅游Diffusion数字人(9)：Magic-Me: Identity-Specific Video Customized Diffusion

article 2024/12/4 16:03:00

畅游Diffusion数字人(0)：专栏文章导航

前言：在生成模型领域，针对特定身份（ID）创建内容已经引起了极大的兴趣。在文本到图像生成（T2I）领域，以主题驱动的内容生成已经取得了巨大的进展，使图像中的ID可控。然而，将其扩展到视频生成领域尚未得到很好的探索。今天分享的这个工作，提出了一个简单而有效的主题ID可控视频生成框架，称为Video Custom Diffusion（VCD）。

目录

贡献概述

动机

相关工作

主题驱动的文本到图像生成

文本到视频生成

视频编辑

图像动画

方法详解

3D高斯噪声先验

ID模块

人脸VCD和平铺VCD

实验

定性结果

实现细节

定量结果

消融研究

限制和未来工作

结论

贡献概述

通过指定由少数图像定义的主题ID，VCD加强了ID信息的提取，并在初始化阶段注入帧间相关性，以稳定地生成具有很大程度上保留身份的视频输出。为实现这一目标，提出了三个关键的新组件，对

http://www.kler.cn/a/419742.html

相关文章：

【北京迅为】iTOP-4412全能版使用手册-第三十二章网络通信-TCP套字节

论文阅读——量子退火Experimental signature of programmable quantum annealing

Spire.PDF for .NET【页面设置】演示：旋转 PDF 中的页面

CTF-PWN glibc源码阅读[1]: 寻找libc中堆结构的定义(2.31-0ubuntu9.16)

wordpress网站首页底部栏显示网站备案信息

Figma入门-自动布局

sheng的学习笔记-【中】【吴恩达课后测验】Course 5 -序列模型 - 第二周测验 - 自然语言处理与词嵌入

【计网】自定义序列化反序列化(二) —— 实现网络版计算器【上】

匹配变量的类型

前端API自动化构建工具：讲述 FlyHttp 设计思想

微信小程序开发入门笔记一 2024/11/29

网页端五子棋对战（一）---websocket引入前后端交互的实现

LangGPT社区创始人云中江树：用热爱与坚持点燃实战营课堂

物理机上的Navicat连接不上centos7虚拟机中mysql的解决办法

C++_详解多态

Base64.cv：高效安全的在线Base64转换工具详解

高效集成：将聚水潭数据导入MySQL的实战案例

PostgreSQL17.x创建用户与授权命令

具身智能高校实训解决方案——从AI大模型+机器人到通用具身智能

Oracle DataGuard 主备正常切换 (Switchover)

《沉积与特提斯地质》

PD虚拟机启动Windows系统突然黑屏的解决方法

小程序-基于java+SpringBoot+Vue的养老院管理系统设计与实现

【datasheet】LTC4412 （2）

阿里重磅开源 Fluss: Flink Unified Streaming Storage

宠物领养网络：SpringBoot的实现之道