Sora技术报告【官方版】
作为世界模拟器的视频生成模型
我们探索在视频数据上大规模训练生成模型。具体来说,我们在可变时长、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。我们利用一种在视频和图像潜在代码的时空块上运行的转换器架构。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有希望的道路。
本技术报告重点介绍 (1) 我们将所有类型的视觉数据转换为统一表示的方法,从而实现大规模生成模型的训练,以及 (2) 对 Sora 的功能和局限性进行定性评估。本报告不包含模型和实施细节。
之前的许多研究都使用各种方法对视频数据进行生成建模,包括循环网络、1、2、3生成对抗网络、4、5、6、7自回归变压器、8、9和扩散模型。10、11、12这些工作通常侧重于一小类视觉数据、较短的视频或固定大小的视频。Sora 是一种通用的视觉数据模型 -它可以生成跨越不同持续时间、宽高比和分辨率的视频和图像,甚至可以生成长达一分钟的高清视频。
将视觉数据转化为补丁
我们从大型语言模型中汲取灵感,这些模型通过在互联网规模的数据上进行训练获得了通才能力。13、14 LLM范式的成功在一定程度上得益于使用标记优雅地统一了各种文本模态——代码、数学和各种自然语言。在这项工作中,我们考虑了视觉数据的生成模型如何继承这些好处。LLM 有文本标记,而 Sora 有视觉补丁。补丁此前已被证明是视觉数据模型的有效表示。15、16、17、18我们发现补丁是一种高度可扩展且有效的表示,可用于在各种类型的视频和图像上训练生成模型。
从高层次上讲,我们首先将视频压缩到低维潜在空间,19然后将表示分解为时空块,从而将视频转换为块。
视频压缩网络
我们训练了一个降低视觉数据维度的网络。20该网络将原始视频作为输入,并输出在时间和空间上均经过压缩的潜在表示。Sora 接受训练,随后在此压缩的潜在空间内生成视频。我们还训练了一个相应的解码器模型,将生成的潜在映射回像素空间。
时空潜在斑块
给定一个压缩的输入视频,我们提取一系列时空补丁,作为转换器标记。此方案也适用于图像,因为图像只是具有单帧的视频。我们基于补丁的表示使 Sora 能够对具有不同分辨率、持续时间和宽高比的视频和图像进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。
用于视频生成的缩放变压器
Sora 是一个扩散模型21、22、23、24、25;给定输入的噪声块(以及文本提示等条件信息),它经过训练可以预测原始的“干净”块。重要的是,Sora 是一个扩散变压器。26 Transformers已在各种领域展示了卓越的扩展特性,包括语言建模、13、14计算机视觉、15、16、17、18和图像生成。27、28、29
在这项研究中,我们发现扩散变压器也能像视频模型一样有效地扩展。下面,我们展示了随着训练的进行,具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显着提高。
可变的持续时间、分辨率、宽高比
过去生成图像和视频的方法通常是将视频调整大小、裁剪或修剪为标准尺寸,例如 256x256 分辨率的 4 秒视频。我们发现,使用原始大小的数据进行训练可以带来多种好处。
采样灵活性
Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频进行采样。这样,Sora 就可以直接以原始纵横比为不同设备创建内容。它还让我们能够快速制作较小尺寸的内容原型,然后再以全分辨率生成内容 — 所有这些都使用同一个模型。
改进取景和构图
我们通过实证研究发现,以原始宽高比对视频进行训练可以改善构图和取景。我们将 Sora 与我们的一个模型版本进行了比较,该模型将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。用正方形裁剪训练的模型(左)有时会生成只能看到部分主体的视频。相比之下,Sora 的视频(右)的取景有所改善。
语言理解
训练文本转视频生成系统需要大量带有相应文本字幕的视频。我们将 DALL·E 3 30中引入的重新字幕技术应用于视频。我们首先训练一个高度描述性的字幕模型,然后使用它为训练集中的所有视频生成文本字幕。我们发现,对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。
与 DALL·E 3 类似,我们还利用 GPT 将简短的用户提示转换为较长的详细字幕,并发送给视频模型。这使 Sora 能够生成准确遵循用户提示的高质量视频。
使用图像和视频提示
上面和我们的着陆页中的所有结果都显示了文本到视频的示例。但 Sora 还可以通过其他输入进行提示,例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美循环的视频、为静态图像制作动画、向前或向后延长视频时间等。
为 DALL·E 图像制作动画
Sora 能够通过提供图像和提示作为输入来生成视频。下面我们展示了基于 DALL·E 2 31和 DALL·E 3 30图像生成的示例视频。
扩展生成的视频
Sora 还能够将视频向前或向后延伸。下面是三段从生成的视频片段开始向后延伸的视频。因此,这三段视频的开头各不相同,但结局却相同。
我们可以使用此方法将视频向前和向后延长以产生无缝的无限循环。
视频到视频编辑
扩散模型已经实现了多种根据文本提示编辑图像和视频的方法。下面我们将其中一种方法 SDEdit 32应用于 Sora。这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。
连接视频
我们还可以使用 Sora 在两个输入视频之间逐渐插入,在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的示例中,中间的视频插入到左侧和右侧的相应视频之间。
图像生成能力
Sora 还能够生成图像。我们通过在空间网格中排列高斯噪声块来实现这一点,时间范围为一帧。该模型可以生成不同大小的图像——分辨率最高可达 2048x2048。
新兴的模拟能力
我们发现,视频模型在大规模训练时会展现出许多有趣的新兴能力。这些能力使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现并不带有任何针对 3D、物体等的明确归纳偏差 — 它们纯粹是规模现象。
3D 一致性。Sora可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中一致移动。
长距离连贯性和物体持久性。视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。我们发现 Sora 通常(但并非总是)能够有效地模拟短距离和长距离依赖关系。例如,即使人物、动物和物体被遮挡或离开画面,我们的模型也可以保留它们。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持它们的外观。
与世界互动。Sora有时可以模拟一些简单的行为来影响世界的状态。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而保留下来,或者一个人可以吃汉堡并留下咬痕。
模拟数字世界。Sora还能够模拟人工过程——一个例子就是视频游戏。Sora 可以同时使用基本策略控制 Minecraft 中的玩家,同时以高保真度渲染世界及其动态。这些功能可以通过向 Sora 提供提及“Minecraft”的字幕来零样本激发。
这些能力表明,不断扩展视频模型是开发高性能物理和数字世界以及生活在其中的物体、动物和人类模拟器的一条有希望的道路。
讨论
作为一款模拟器,Sora 目前存在许多局限性。例如,它无法准确模拟许多基本交互的物理特性,例如玻璃破碎。其他交互,例如进食,并不总是能产生正确的物体状态变化。我们在着陆页 中列举了该模型的其他常见故障模式,例如在长时间样本中出现的不连贯性或物体的自发出现。
我们相信,Sora 今天所拥有的能力表明,不断扩展视频模型是开发物理和数字世界以及生活在其中的物体、动物和人类的强大模拟器的一条有希望的道路。
- 里程碑
- 发布
- 索拉
- 视频生成
参考
- 1
Srivastava、Nitish、Elman Mansimov 和 Ruslan Salakhudinov。“使用 lstms 进行视频表示的无监督学习。”国际机器学习会议。PMLR,2015 年。
- 2
Chiappa, Silvia 等人。“循环环境模拟器。”arXiv 预印本 arXiv:1704.02254 (2017)。
- 3
Ha, David 和 Jürgen Schmidhuber。“世界模型。”arXiv 预印本 arXiv:1803.10122 (2018)。
- 4
Vondrick, Carl、Hamed Pirsiavash 和 Antonio Torralba。“生成具有场景动态的视频。”神经信息处理系统进展 29 (2016)。
- 5
Tulyakov,Sergey 等人。“Mocogan:分解动作和内容以生成视频。”IEEE 计算机视觉和模式识别会议论文集。2018 年。
- 6
Clark, Aidan、Jeff Donahue 和 Karen Simonyan。“复杂数据集上的对抗性视频生成。”arXiv 预印本 arXiv:1907.06571 (2019)。
- 7
Brooks, Tim 等人。“生成动态场景的长视频。”神经信息处理系统进展 35 (2022):31769-31781。
- 8
Yan, Wilson 等人。“Videogpt:使用 vq-vae 和 transformers 生成视频。”arXiv 预印本 arXiv:2104.10157 (2021 年)。
- 9
吴晨飞等人。“Nüwa:用于神经视觉世界创造的视觉合成预训练。”欧洲计算机视觉会议。Cham:Springer Nature 瑞士,2022 年。
- 10
Ho, Jonathan 等人。“Imagen 视频:使用扩散模型生成高清视频。” arXiv 预印本 arXiv:2210.02303 (2022)。
- 11
Blattmann,Andreas 等人。“对齐您的潜伏信息:使用潜伏扩散模型进行高分辨率视频合成。”IEEE/CVF 计算机视觉和模式识别会议论文集。2023 年。
- 12
Gupta, Agrim 等人。“使用扩散模型生成逼真的视频。”arXiv 预印本 arXiv:2312.06662 (2023)。
- 十三
Vaswani, Ashish 等人。“注意力就是你所需要的一切。”神经信息处理系统进展30 (2017)。
- 14
Brown, Tom 等人。“语言模型是小样本学习者。” 《神经信息处理系统进展》第 33 卷 (2020) 期:1877-1901 页。
- 15
Dosovitskiy,Alexey 等人,“一张图片胜过 16x16 个单词:用于大规模图像识别的 Transformers。” arXiv 预印本 arXiv:2010.11929 (2020)。
- 16
Arnab, Anurag 等人。“Vivit:视频视觉转换器。” IEEE/CVF 国际计算机视觉会议论文集。2021 年。
- 17
何开明等人。“蒙版自动编码器是可扩展的视觉学习器。” IEEE/CVF 计算机视觉和模式识别会议论文集。2022 年。
- 18
Dehghani, Mostafa 等人。“Patch n'Pack:NaViT,适用于任何长宽比和分辨率的视觉转换器。” arXiv 预印本 arXiv:2307.06304 (2023)。
- 19
Rombach,Robin 等人。“使用潜在扩散模型进行高分辨率图像合成。” IEEE/CVF 计算机视觉和模式识别会议论文集。2022 年。
- 20
Kingma, Diederik P. 和 Max Welling。“自动编码变分贝叶斯。” arXiv 预印本 arXiv:1312.6114 (2013)。
- 21
Sohl-Dickstein,Jascha 等人。“利用非平衡热力学进行深度无监督学习。”国际机器学习会议。PMLR,2015 年。
- 22
Ho, Jonathan、Ajay Jain 和 Pieter Abbeel。“去噪扩散概率模型。”神经信息处理系统进展33 (2020):6840-6851。
- 23
Nichol、Alexander Quinn 和 Prafulla Dhariwal。“改进的去噪扩散概率模型。”国际机器学习会议。PMLR,2021 年。
- 24
Dhariwal、Prafulla 和 Alexander Quinn Nichol。“扩散模型在图像合成方面胜过 GAN。”神经信息处理系统的进展。2021 年。
- 二十五
Karras, Tero 等人。“阐明基于扩散的生成模型的设计空间。”神经信息处理系统进展35 (2022):26565-26577。
- 二十六
Peebles, William 和 Saining Xie。“带有变换器的可扩展扩散模型。” IEEE/CVF 国际计算机视觉会议论文集。2023 年。
- 二十七
Chen, Mark 等人。“通过像素进行生成预训练。”国际机器学习会议。PMLR,2020 年。
- 二十八
Ramesh, Aditya 等人。“零样本文本到图像生成”。国际机器学习会议。PMLR,2021 年。
- 二十九
Yu, Jiahui 等人。“缩放自回归模型以实现内容丰富的文本到图像生成。” arXiv 预印本 arXiv:2206.10789 2.3 (2022): 5。
- 三十
Betker,James 等人。“通过更好的标题改进图像生成。”计算机科学。https ://cdn.openai.com/papers/dall-e-3 (在新窗口中打开).pdf 2.3 (2023): 8
- 31
Ramesh, Aditya 等人。“使用剪辑潜在特征的分层文本条件图像生成。” arXiv 预印本 arXiv:2204.06125 1.2 (2022):3。
- 三十二
Meng, Chenlin 等人。“Sdedit:使用随机微分方程引导图像合成与编辑。” arXiv 预印本 arXiv:2108.01073 (2021)。
作者
蒂姆·布鲁克斯、 比尔·皮布尔斯、 康纳·霍姆斯、 威尔·德普 、郭宇飞、李静 、大卫 ·施努尔、 乔·泰勒、 特洛伊·卢曼、 埃里克·卢曼、 克拉伦斯·吴、 瑞奇·王、 阿迪亚·拉梅什引用
请引用 Brooks, Peebles, et al.,并使用以下 BibTeX 进行引用: https: //openai.com/bibtex/videoworldsimulators2024.bib
视频效果在这里:
Sora效果一览为快!(超多AI视频效果)-CSDN博客