当前位置: 首页 > article >正文

trackgo 学习笔记

还没开源

        可控视频生成仍然是一项极具挑战性的任务。首要挑 战是精确控制,包括管理目标运动对象及其轨迹。现有 方法往往难以实现对这些元素的精确控制。例如, DragAnything(Wu 等人,2024 年)利用中心点和高斯 图引导目标对象沿着预定义的路径移动。然而,它无法 有效控制部分或细粒度物体的移动。另一种方法是 Boximator(Wang 等人,2024a),它利用边界框来决 定运动控制。它使用一个框来指定目标区域,框的运动 序列引导目标的运动。遗憾的是,边界框通常包含冗余 区域,这会干扰目标的运动,并破坏生成视频中背景的 连贯性。第二个挑战是效率。现有的工作通常会以大幅 增加模型参数数量的 方式来满足企业条件。例如, DragAny- thing 采 用 了 ControlNet ( Zhang 、 Rao 和 Agrawala,2023 年)的架构,而 DragNUWA(Yin 等 ,2023 年)则采用了重编码器,将引导信号映射到预 训练模型的潜在空间中。这些设计选择不可避免地导致 推理时间变慢,从而阻碍了这些模型在实际应用中的实 际部署。

 TrackGo 是一种用于生成可控视频的新 型框架,它利用用户输入来指导视频序列的生成。 TrackGo 使用用户提供的自由形式遮罩和箭头分别定 义目标区域和运动轨迹。这种方法包括两个阶段:点 轨迹生成和条件视频生成。在第一阶段,TrackGo 会自 动从用户定义的遮罩和箭头中提取点轨迹。这些轨迹 是视频生成的精确蓝图。在第二阶段,我们使用稳定 视频扩散模型(SVD)(Blattmann 等人,2023a)作 为基础模型,同时使用编码器对运动信息进行编码。 为了确保我们的模型能精确地进行引导,我们引入了 新颖的 TrackAdapter。该适配器可有效修改预训练视 频生成模型的现有时间自我注意层,以适应新的条件 ,从而增强模型对生成视频的控制。

    稳定视频扩散模型中最后一个时间自我注意层的注意 图可视化。注意图中的高亮区域与视频中的移动区域相对应


http://www.kler.cn/a/280827.html

相关文章:

  • Dubbo ZooKeeper Spring Boot整合
  • 阿里云Ubuntu系统安装/简单使用Kafka
  • 学习一下Appium 常用方法介绍
  • poi-tl 在一个word里写入另一个word,保持word内容无变化
  • 动手学深度学习(pytorch)学习记录19-参数管理[学习记录]
  • C# FTP 读取文件列表,大小,时间
  • 通过小程序进度条了解Linux下的多文件操作
  • 【数据结构入门】排序算法之插入排序与选择排序
  • python自动化脚本:让工作自动化起来
  • WPF判断窗口是否已经关闭
  • 买完服务器后,如何部署项目|如何通过宝塔部署项目
  • Java | Leetcode Java题解之第374题猜数字大小
  • 队头阻塞-介绍
  • Python网络编程:Web框架基础(Flask/Django)
  • FFmpeg的入门实践系列四(AVS)
  • python之字典(dict)
  • Vue表单元素绑定:v-model 指令
  • <Rust>egui学习之小部件(五):如何在窗口中添加图像部件?
  • 高空抛物目标检测
  • MATLAB绘图基础2:MATLAB数据结构