我们探索了在视频数据上大规模训练生成模型。具体来说,我们在可变持续时间、分辨率和纵横比的视频和图像上联合训练文本条件扩散模型。我们利用一种 transformer 架构,该架构在视频和图像潜在代码的时空补丁上运行。

我们最大的型号 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

Sora已经通过大量的数据,能够理解物理世界的运动规律,学会了关于3D几何形状和一致性的知识,通过运动、反射等方式,创建了一个包含物理规则、与真实世界接近的虚拟世界。

“通过简短的文本提示或一张静态图片,Sora能够生成持续一分钟左右的1080P高清视频,涵盖多个角色、不同类型的动作和背景细节等,几乎达到了电影级别的逼真场景。”

“技术创新的这一巨大飞跃,预示着AI在未来人类生活的各个方面都将发挥更加重要的作用。”

Sora将会为世界带来哪些改变?
01 一段文字就能生成短片,视频内容将会大规模爆发,原有的岗位结构将会发生变化,例如摄影师、剪辑将不再存在,编剧可以直接生成电影;
02 讲故事的能力会越来越重要;
03 如果你不会讲故事,那么从古书、小说中爬取故事的能力也会很重要,人类历史上的大量文字内容,将会以视频内容的形式再现;
04 Sora生成的内容,将会最先在短视频领域爆火。因为这个行业对技术的要求低,且Sora可以相对低成本地产出大量具备猎奇性的内容;
05 特效行业的诸多镜头可以直接使用AI生成;
06 以后拍戏不需要这么多演员了;
07游戏、动画行业的制作成本将会被大大降低,建模过程可以直接省略了;
08 以后自己写剧本、自己生成视频,再加上人机交互的机器,《头号玩家》的剧情会加速到来;
09 人人都有机会成为AI导演;
10 Sora将会加速数字人、自动驾驶、智慧成本、元宇宙等行业的发展,降低了数字资产的成本;
11 AI视频赛道将会迎来新的竞争点。此前被众人看好的Pika、Runway需要重新思考发展方向;
12 当视频被生成以后,世界是真实的可能性越来越微乎其微。继电话、数字人诈骗后,新的诈骗手段也会层出不穷;
13 客观来看,Sora的视频现在还存在着不连贯帧数、卡帧、断帧等问题,准确性不足等问题,但这些都会随着技术的进步而解决。

资讯来源: https://openai.com/research/video-generation-models-as-world-simulators

标签: sora, 视频, openai, 高清视频, 视频素材

添加新评论