当前位置: 首页 > article >正文

论文笔记:通用世界模型WorldDreamer

整理了WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens 论文的阅读笔记

  • 背景
  • 模型
  • 实验

背景

在这里插入图片描述
  现有的世界模型仅限于游戏或驾驶等特定场景,限制了它们捕捉一般世界动态环境复杂性的能力。针对这一挑战,本文提出了WorldDreamer,这是一个开创性的世界模型,旨在培养对一般世界物理和运动的全面理解,这大大增强了视频生成的能力。 通过把视觉输入映射到离散标记并预测被屏蔽的标记,worlddream将世界建模框架为无监督的视觉序列建模挑战。在此过程中,结合了多模态提示来促进世界模型内的交互。实验表明,WorldDreamer 擅长生成不同场景的视频,包括自然场景和驾驶环境。

模型

  WorldDreamer的整体框架如图2所示。初始阶段包括使用视觉标记器将视觉信号(即图像和视频)编码为离散的标记。这些令牌在被STPT处理之前经过精心设计的屏蔽策略。同时,文本信号和动作信号分别编码到嵌入中,作为多模态提示。STPT 参与预测屏蔽视觉标记的关键任务,然后由视觉解码器对其进行解码,从而促进多个上下文中的视频生成和编辑。
在这里插入图片描述  为了训练 WorldDreamer,文中构建了 Visual-Text-Action 数据的三元组,其中训练监督仅涉及预测屏蔽的视觉标记,而无需任何额外的监督信号。WorldDreamer还支持没有文本或动作数据的训练,这不仅降低了数据收集的难度,而且使WorldDreamer能够学习无条件或单条件视频生成。在推理时,WorldDreamer可以完成各种视频生成和视频编辑任务:
  图像到视频,仅需要单个图像输入,并将剩余帧视为被屏蔽。WorldDreamer 还可以根据单个图像条件和文本条件预测未来帧。
  视频风格化,可以输入视频片段,并随机屏蔽某些像素。WorldDreamer 可以根据两种输入语言改变视频风格,例如创建秋季主题效果。
  文本到视频,提供语言输入允许 WorldDreamer 预测相应的视频,假设所有视觉标记都被屏蔽。
  视频修复,可以输入视频片段,并手动屏蔽感兴趣区域。WorldDreamer 可以根据输入语言和未屏蔽的视觉信号填充屏蔽部分。
  动作到视频,输入驾驶场景的初始帧以及未来的驾驶命令可以让 WorldDreamer 预测未来的帧。

实验

  文中进行了全面的视觉实验,展示了 Worlddreamer 在不同场景下实现视频生成和视频编辑的能力,以证明 WorldDreamer 对一般世界的一般视觉动态有了深刻的理解。
  图像到视频 WorldDreamer 擅长在各种场景中生成高保真图像到视频。如图 5 所示,根据初始图像输入,Worlddreamer 能够生成高质量的电影景观视频。
在这里插入图片描述
  文本到视频 图 6 展示了 WorldDreamer 在从跨各种风格范式的文本生成视频方面的出色熟练程度。
在这里插入图片描述  视频修复 如图 7 所示,WorldDreamer 展现出卓越的高质量视频修复能力。
在这里插入图片描述
  视频风格化 图 8 展示了 WorldDreamer 在提供高质量视频风格化方面表现出色。通过提供随机生成的视觉令牌蒙版和指示所需修改的风格提示,WorldDreamer 令人信服地转换原始视频,在风格化过程中实现真正逼真的结果。在这里插入图片描述  从动作到视频 WorldDreamer 展示了根据自动驾驶背景下的动作生成视频的能力。如图9所示,给定相同的初始帧和不同的驾驶动作,WorldDreamer可以根据不同的驾驶动作(例如控制汽车左转或右转)生成不同的未来视频。
在这里插入图片描述


http://www.kler.cn/news/366493.html

相关文章:

  • 使用FRP搭建内网穿透服务(新版toml配置文件,搭配反向代理方便内网网站访问)【使用frp搭建内网穿透】
  • 2024年全球 MoonBit 编程创新赛-零基础早鸟教程-使用wasm4八小时开发井子棋小游戏
  • STM32 从0开始系统学习 1
  • Flask-SQLAlchemy 组件
  • mfc之tab标签控件的使用--附TabSheet源码
  • 内网穿透:如何借助Cloudflare连接没有公网的电脑的远程桌面(RDP)
  • 标准版关于申请火山翻译的流程
  • Oracle锁表问题处理
  • python读取学术论文PDF文件内容
  • GCN+BiLSTM多特征输入时间序列预测(Pytorch)
  • Java基础第四天(实训学习整理资料(四)Java中的方法(函数))
  • How to install Node.js and NPM on CentOS
  • 运输层知识点汇总3
  • 【ArcGIS Pro实操第5期】全局及局部空间插值:GPI、LPI、IDW等
  • win7现在还能用吗_哪些配置的电脑还可以安装win7系统
  • 基于JSP实习管理系统【附源码】
  • 五,Linux基础环境搭建(CentOS7)- 安装Kafka
  • 【排序】4.插入排序(含优化)
  • TPLCM柔性屏自动化贴合应用
  • 算法打卡 Day43(动态规划)-背包问题 + 分割等和子集
  • 查看Chrome安装路
  • IDEA项目代码报红,但可以正常编译运行
  • #HarmonyOS:页面和自定义组件生命周期
  • 一站式AI自动化剪辑 内置多种功能 永久免费
  • UI自动化测试实战
  • 使用docker build自制flink镜像供k8s使用