言出“视频”随--语言即现实，Sora扩展视频生成模型

我们探索了在视频数据上大规模训练生成模型。具体来说，我们在可变持续时间、分辨率和纵横比的视频和图像上联合训练文本条件扩散模型。我们利用一种 transformer 架构，该架构在视频和图像潜在代码的时空补丁上运行。

我们最大的型号 Sora 能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

Sora已经通过大量的数据，能够理解物理世界的运动规律，学会了关于3D几何形状和一致性的知识，通过运动、反射等方式，创建了一个包含物理规则、与真实世界接近的虚拟世界。

“通过简短的文本提示或一张静态图片，Sora能够生成持续一分钟左右的1080P高清视频，涵盖多个角色、不同类型的动作和背景细节等，几乎达到了电影级别的逼真场景。”

“技术创新的这一巨大飞跃，预示着AI在未来人类生活的各个方面都将发挥更加重要的作用。”

Sora将会为世界带来哪些改变？
01 一段文字就能生成短片，视频内容将会大规模爆发，原有的岗位结构将会发生变化，例如摄影师、剪辑将不再存在，编剧可以直接生成电影；
02 讲故事的能力会越来越重要；
03 如果你不会讲故事，那么从古书、小说中爬取故事的能力也会很重要，人类历史上的大量文字内容，将会以视频内容的形式再现；
04 Sora生成的内容，将会最先在短视频领域爆火。因为这个行业对技术的要求低，且Sora可以相对低成本地产出大量具备猎奇性的内容；
05 特效行业的诸多镜头可以直接使用AI生成；
06 以后拍戏不需要这么多演员了；
07游戏、动画行业的制作成本将会被大大降低，建模过程可以直接省略了；
08 以后自己写剧本、自己生成视频，再加上人机交互的机器，《头号玩家》的剧情会加速到来；
09 人人都有机会成为AI导演；
10 Sora将会加速数字人、自动驾驶、智慧成本、元宇宙等行业的发展，降低了数字资产的成本；
11 AI视频赛道将会迎来新的竞争点。此前被众人看好的Pika、Runway需要重新思考发展方向；
12 当视频被生成以后，世界是真实的可能性越来越微乎其微。继电话、数字人诈骗后，新的诈骗手段也会层出不穷；
13 客观来看，Sora的视频现在还存在着不连贯帧数、卡帧、断帧等问题，准确性不足等问题，但这些都会随着技术的进步而解决。

资讯来源： https://openai.com/research/video-generation-models-as-world-simulators

言出“视频”随--语言即现实，Sora扩展视频生成模型

添加新评论

最新文章

最近回复

分类

归档

其它