OpenAI 生成视频模型 Sora 论文翻译

news/发布时间2024/5/14 13:54:30

系列文章目录


前言


视频生成模型作为世界模拟器

本技术报告的重点是 (1) 将所有类型的视觉数据转换为统一表示,以便对生成模型进行大规模训练的方法,以及 (2) 对索拉的能力和局限性的定性评估。 该报告不包括模型和实现细节。

许多先前的工作使用各种方法研究了视频数据的生成建模,包括循环网络,[1][2][3] 生成对抗网络,[4][5][6][7] 自回归变压器,[8][9] 和扩散模型。[10][11][12] 这些工作通常侧重于视觉数据的一个狭窄类别、较短的视频或固定尺寸的视频。Sora 是一种通用的视觉数据模型——它可以生成时长、纵横比和分辨率各异的视频和图像,最长达一分钟的高清视频。

将视觉数据转化为补丁

我们从通过在互联网规模的数据上训练获得泛用能力的大语言模型中汲取灵感。[ ^ 13][ ^ 14] 大型语言模型范式成功的一部分原因是,它使用了巧妙地统一了文本、代码、数学和各种自然语言等不同模态的标记。在这项工作中,我们将探讨视觉数据生成模型如何能够继承这些好处。虽然大型语言模型有文本标记,但索拉有视觉补丁。以前已经证明,补丁对于视觉数据模型是一种有效的表示方法。[ ^ 15][ ^ 16][ ^ 17][ ^ 18] 我们发现,补丁是训练用于不同类型视频和图像的生成模型的高度可扩展且有效的方法。

在高层次上,我们首先通过压缩视频到低维潜空间中[^19],然后分解表示为时空块来将视频转换为块。

视频压缩网络

我们训练了一个网络来降低视觉数据的维度。 [20X20] 这个网络接受原始视频作为输入,并输出一个压缩了时间和空间的潜在表示。 Soray 被训练在压缩潜在空间中生成视频。 我们还训练了一个相应的解码器模型,该模型将生成的潜在值映射回像素空间。

时空潜伏图块

给定一个压缩输入视频,我们提取一系列时空图块作为变压器标记。由于图像只是单帧视频,所以此方案也适用于图像。我们的基于图块的表示使索拉能够针对具有不同分辨率、持续时间和宽高比的视频和图像进行训练。在推理时,我们可以根据大小适当的网格来排列随机初始化的图块以控制生成视频的尺寸。

视频生成中的可扩展转换器

Sora 是一个扩散模型;给定输入噪声块(以及诸如文本提示之类的条件信息),它被训练为预测原始“干净”的块。重要的是,Sora 是一个扩散变压器。变压器在各种领域展示了显著的扩展性,包括语言建模、计算机视觉和图像生成。

在这项工作中,我们发现扩散转换器在 视频模型中也有效地进行缩放。 下面,我们将固定种子和输入的视频样本与训练进度进行比较。 随着计算量的增加,样本质量明显提高。

可变时长、分辨率、宽高比

过去的方法通常是将图像和视频调整大小、裁剪或修剪为标准尺寸——例如,分辨率设置为 256x256 的 4 秒长的视频。我们发现训练原始尺寸的数据有几个好处。

抽样灵活性

Sora 可以对宽屏 1920x1080p 视频、纵向 1080x1920 视频以及介于两者之间的任何视频进行取样。 这使得 Sora 能够在不同设备上直接生成原生宽高比的内容。 它还让我们能够在全分辨率渲染之前,使用相同的模型快速原型化低分辨率的内容。

改进了框架和构图

我们发现,在原始宽高比下训练视频可以提高构图和框架。 我们将索拉模型与一个版本进行比较,该版本会将所有用于训练的视频裁剪为正方形,这是在训练生成模型时常见的做法。 在正方形裁剪(左)上训练的模型有时会生成只有部分主体可见的视频。相比之下,来自索拉的视频(右)具有更好的框架。

语言理解

训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们在视频上应用了 DALL-E 3 中介绍的重新打标签技术。我们首先训练了一个高度描述性的标题模型,然后使用它为训练集中的所有视频生成文本标题。我们发现,在高度描述性的视频标题上进行训练可以提高文本保真度以及视频的整体质量。

与 DALL-E 3 类似,我们还使用 GPT 将短用户提示转换为更长、更详细的字幕,然后发送给视频模型。 这使得索拉能够生成高质量的视频,准确地遵循用户的提示。

在愉快地散步中度过时光

用图片和视频提示

上面所有结果和我们的登录页面都展示了 文本到视频 的示例。 但是,Sora 还可以接受其他输入,比如现有图像或视频。 这种能力使 Sora 能够执行各种图像和视频编辑任务——制作循环视频、让静态图片动起来、延长视频时间等。

动画DALL-E图像

Sora 可以通过输入图像和提示来生成视频。下面我们将展示基于 DALL-E 2 [^31] 和 DALL-E 3 [^30] 图像生成的示例视频。

一只戴着贝雷帽和黑色高领毛衣的柴犬。

怪物插图。 以扁平设计风格描绘了多种多样的怪物家庭。 这个群体包括一只毛茸茸的棕色怪兽、一只光滑的黑色怪兽,带有天线、一只长满斑点的绿色怪兽和一只微小的斑点怪兽,它们都生活在充满趣味性的环境中。

一张写有“SORA”的现实风格云彩的照片。

在一个华丽的历史大厅里,一股巨大的海浪峰峦叠嶂地冲向岸边。两位冲浪者抓住时机,在巨浪上熟练地驾驭着。

生成视频的延长

Sora 还可以向前或向后扩展视频。以下是四个从生成的视频片段开始,时间都向后推移的视频。因此,这四段视频中的每一部都有不同的开头,但最终都会走向相同的结局。

我们可以用这种方法在前、后两个方向上扩展视频,以产生一个无缝的无限循环。

视频到视频编辑

扩散模型使我们能够使用文本提示编辑图像和视频的方法变得丰富。在下面,我们将其中一种方法应用于 Soras ,即 SDEdit [ ^ 32 ] 。 这种技术使 Soras 能够零样本转换输入视频的风格和环境。

连接视频

我们还可以使用索拉 在两个输入视频之间进行渐进插值,创建完全不同的主题和场景构成之间的视频无缝过渡。在下面的例子中,居中的视频 插值于左侧和右侧的对应视频。

图像生成能力

Sora 还可以生成图像。我们通过在时域上具有一个帧长的空间网格中排列高斯噪声来实现这一点。该模型可以生成不同分辨率大小的图像——高达 2048x2048 分辨率。

特写镜头中一位女性在秋天,极端细节,浅景深

充满生机的珊瑚礁,五彩斑斓的鱼儿和海洋生物

以苹果树下的年轻老虎为主题的数字艺术,采用油画风格呈现,并包含华丽的细节。

一个有舒适小屋和北极光展示的雪景村庄,高清细节,逼真的DSLR相机,50毫米f / 1.2。

新兴模拟能力

我们发现,当 视频模型 在大范围内进行训练时,它们会表现出许多有趣的涌现性能力。 这些能力使索拉能够模拟物理世界中的人、动物和环境的一些方面。这些属性没有明确的 三维、物体 等归纳偏见——它们纯粹是规模现象。

三维一致。索拉可以生成具有动态相机运动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中保持一致地移动。

长程连贯性和物体永存性。 生成视频系统面临的一个重大挑战是在采样长视频时保持时间一致性。 我们发现,Sora 往往能够有效地捕获短期和长期依赖关系——尽管并非总是如此。 例如,即使人物、动物或物体被遮挡或离开画面,我们的模型也能持久地跟踪它们。 同样,它可以在单个样本中为同一角色生成多个镜头,并在视频中保持其外观。

与世界互动。索拉有时可以简单地模拟影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而保留下来,或者一个人可以吃汉堡并留下咬痕。

模拟数字世界。索拉还可以模拟人工过程——例如,电子游戏。索拉可以同时根据基本策略控制我的世界中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过提示索拉“我的世界”标题来零样本诱导。

这些能力表明,视频模型的持续扩展是开发高度模拟物理世界、数字世界及其内部生物体、动物和人类等对象的有希望的方法。

讨论

Sora 目前作为模拟器存在许多局限性。例如,它无法准确模拟许多基本交互的物理,比如玻璃破碎。其他交互,如吃食物,并不总是导致正确的对象状态更改。我们在主页上列举了模型的其他常见故障模式——例如长时间样本中出现的不连贯或物体自发出现——在我们的着陆页中。

我们相信索拉今天所展示的能力,证明了对视频模型的持续扩展是走向能够模拟物理世界和数字世界的潜在途径。以及生活在其中的物体、动物和人类。

参考文献

  1. Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." International conference on machine learning. PMLR, 2015.↩︎

  2. Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).↩︎

  3. Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).↩︎

  4. Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. "Generating videos with scene dynamics." Advances in neural information processing systems 29 (2016).↩︎

  5. Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.↩︎

  6. Clark, Aidan, Jeff Donahue, and Karen Simonyan. "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).↩︎

  7. Brooks, Tim, et al. "Generating long videos of dynamic scenes." Advances in Neural Information Processing Systems 35 (2022): 31769-31781.↩︎

  8. Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).↩︎

  9. Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.↩︎

  10. Ho, Jonathan, et al. "Imagen video: High definition video generation with diffusion models." arXiv preprint arXiv:2210.02303 (2022).↩︎

  11. Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.↩︎

  12. Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).↩︎

  13. Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).↩︎↩︎

  14. Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.↩︎↩︎

  15. Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).↩︎↩︎

  16. Arnab, Anurag, et al. "Vivit: A video vision transformer." Proceedings of the IEEE/CVF international conference on computer vision. 2021.↩︎↩︎

  17. He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎↩︎

  18. Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution." arXiv preprint arXiv:2307.06304 (2023).↩︎↩︎

  19. Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎

  20. Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).↩︎

  21. Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." International conference on machine learning. PMLR, 2015.↩︎

  22. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020): 6840-6851.↩︎

  23. Nichol, Alexander Quinn, and Prafulla Dhariwal. "Improved denoising diffusion probabilistic models." International Conference on Machine Learning. PMLR, 2021.↩︎

  24. Dhariwal, Prafulla, and Alexander Quinn Nichol. "Diffusion Models Beat GANs on Image Synthesis." Advances in Neural Information Processing Systems. 2021.↩︎

  25. Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models." Advances in Neural Information Processing Systems 35 (2022): 26565-26577.↩︎

  26. Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.↩︎

  27. Chen, Mark, et al. "Generative pretraining from pixels." International conference on machine learning. PMLR, 2020.↩︎

  28. Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.↩︎

  29. Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation." arXiv preprint arXiv:2206.10789 2.3 (2022): 5.↩︎

  30. Betker, James, et al. "Improving image generation with better captions." Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8↩︎↩︎

  31. Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents." arXiv preprint arXiv:2204.06125 1.2 (2022): 3.↩︎

  32. Meng, Chenlin, et al. "Sdedit: Guided image synthesis and editing with stochastic differential equations." arXiv preprint arXiv:2108.01073 (2021).↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.bcls.cn/deMn/1086.shtml

如若内容造成侵权/违法违规/事实不符,请联系编程老四网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

【JavaEE】网络原理: UDP协议和TCP协议的相关内容

目录 1. 应用层 2. 传输层 2.1 端口号 2.2 UDP协议 2.3 TCP协议 1.确认应答 2.超时重传 3.连接管理 三次握手 四次挥手 状态转换 4.滑动窗口 5.流量控制 6.拥塞控制 7.延迟应答 8.捎带应答 9.面向字节流 粘包问题 10.异常情况 网络通信中, 协议是一个非常重…

75.SpringMVC的拦截器和过滤器有什么区别?执行顺序?

75.SpringMVC的拦截器和过滤器有什么区别?执行顺序? 区别 拦截器不依赖与servlet容器,过滤器依赖与servlet容器。拦截器只能对action请求(DispatcherServlet 映射的请求)起作用,而过滤器则可以对几乎所有的请求起作用。拦截器可…

比特币原生 L2 解决方案 Merlin Chain梅林链科普(bitget wallet)

什么是梅林链? Merlin Chain 是由 Bitmap Tech(以前称为 Recursiverse)背后的团队开发的比特币第 2 层解决方案。 Merlin Chain 专注于利用比特币的独特属性,旨在释放其未开发的潜力。从技术上来说,梅林链集成了零知识…

【数学建模入门】

数学建模入门 数学建模需要的学科知识怎么学习数学模型如何读好一篇优秀论文数学建模赛题常见类别数学建模常见问题数学建模组队和分工数学建模准备工作 数学建模需要的学科知识 怎么学习数学模型 💦推荐阅读书籍: 《数学建模算法与应用》,…

AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀

目录 引言 1. Python在股票市场分析中的应用 2. 投资组合优化 3. 风险管理与预测 时间序列分析 机器学习在风险预测中的应用 大数据分析与风险建模 总结 ⭐️ 好书推荐 【内容简介】 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默…

【嵌入式】CAN总线

1 简介 CAN 是控制器局域网络 (Controller Area Network) 的简称,它是由研发和生产汽车电子产品著称的德国 BOSCH 公司开发的,并最终成为国际标准(ISO11519),是国际上应用最广泛的现场总线之一。 CAN 总线协议已经成为汽车计算机控制系统和嵌入式工业控制局域网的标准总线…

专业140+总分420+浙江大学842信号系统与数字电路考研经验电子信息与通信,真题,大纲,参考书。

今年考研已经结束,初试专业课842信号系统与数字电路140,总分420,很幸运实现了自己的目标,被浙大录取,这在高考是想都不敢想的学校,在考研时实现了,所以大家也要有信心,通过自己努力实…

LeetCode42.接雨水(单调栈)

题目 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 : 输入:height [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释:上面是由数组 [0,1,0,2,1,0,1,3,2,…

解线性方程组(一)——克拉默法则求解(C++)

克拉默法则 解线性方程组最基础的方法就是使用克拉默法则,需要注意的是,该方程组必须是线性方程组。 假设有方程组如下: { a 11 x 1 a 12 x 2 ⋯ a 1 n x n b 1 a 21 x 1 a 22 x 2 ⋯ a 2 n x n b 2 ⋯ ⋯ ⋯ a n 1 x 1 a n 2 x 2…

阿赵UE学习笔记——15、灯光的移动性概念和构建光照信息

阿赵UE学习笔记目录   大家好,我是阿赵。   继续学习虚幻引擎,这次来学习一下UE里面灯光的移动性概念和构建光照信息。 1、灯光移动性 打开一个带有灯光的场景 在大纲面板里面找到其中一个灯光: 会发现灯光的细节面板里面,…

Java设计模式-结构型-适配器模式

Java设计模式-结构型-适配器模式 一、概述 ​ 与电源适配器相似,在适配器模式中引入了一个被称为适配器(Adapter)的包装类,而它所包装的对象称为适配者(Adaptee),即被适配的类。适配器的实现就是把客户类的请求转化为对适配者的相应接口的调…

《Solidity 简易速速上手小册》第2章:搭建 Solidity 开发环境(2024 最新版)

文章目录 2.1 安装和配置 Solidity2.1.1 基础知识解析安装 Solidity 编译器配置开发环境熟悉命令行工具 2.1.2 重点案例:配置本地开发环境案例 Demo:配置本地 Solidity 环境案例代码:HelloWorld.sol 2.1.3 拓展案例 1:设置 Remix …

OpenHarmony—UIAbility组件间交互(设备内)

UIAbility是系统调度的最小单元。在设备内的功能模块之间跳转时,会涉及到启动特定的UIAbility,该UIAbility可以是应用内的其他UIAbility,也可以是其他应用的UIAbility(例如启动三方支付UIAbility)。 本章节将从如下场…

PDF合并工具

简单的PDF合并工具 简述 为了帮助同事做报销,就临时用 Python 使用 PDF 库打包了一个PDF文件合并工具,这个虽然对于很多程序员来说都是很简单的事情,但是对于一些不是很了解计算机技术的人确实是一个很尴尬的功能。 很多 PDF 编辑软件的这个…

《汇编语言》- 读书笔记 - 实验 10 编写子程序

《汇编语言》- 读书笔记 - 实验 10 编写子程序 1. 显示字符串问题子程序描述 show_str提示结果演示 2. 解决除法溢出的问题问题子程序描述 divdw提示结果演示 3. 数值显示问题子程序描述 dtoc提示结果演示 在这次实验中,我们将要编写3个子程序,通过它们来…

【MySQL】多表关系的基本学习

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​💫个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-3oES1ZdkKIklfKzq {font-family:"trebuchet ms",verdana,arial,sans-serif;font-siz…

【GO语言卵细胞级别教程】05.项目创建和函数讲解

感谢!点点赞和评论呀!我将继续更新 目录: 感谢!点点赞和评论呀!我将继续更新0.创建项目1.函数的引入2.注意事项3.详细介绍3.1 形参介绍 4.导入包4.1 基本知识4.2 注意事项 5.init函数6.匿名函数 0.创建项目 创建目录 …

以太坊 Dencun 升级与潜在机会

撰文:Biteye 核心贡献者 Fishery Isla 文章来源Techub News专栏作者,搜Tehub News下载查看更多Web3资讯。 以太坊网络升级 Dencun 测试网版本在 2024 年 1 月 17 日上线了 Goerli 测试网,1 月 30 日成功上线了 Sepolia 测试网,D…

拼夕夕 拼多多关键词恢复供应,欢迎骚扰

API接口(Application Programming Interface)是一种定义了软件组件之间交互的规范。它允许不同的软件系统之间进行通信和数据交换,使得开发者可以利用已有的功能和服务来构建自己的应用程序。 API接口可以分为不同的类型,包括Web…

[计算机网络]---UDP协议

前言 作者:小蜗牛向前冲 名言:我可以接受失败,但我不能接受放弃 如果觉的博主的文章还不错的话,还请点赞,收藏,关注👀支持博主。如果发现有问题的地方欢迎❀大家在评论区指正 目录 一、端口号…
推荐文章