标签 openai 下的文章

言出“视频”随--语言即现实，Sora扩展视频生成模型

我们探索了在视频数据上大规模训练生成模型。具体来说，我们在可变持续时间、分辨率和纵横比的视频和图像上联合训练文本条件扩散模型。我们利用一种 transformer 架构，该架构在视频和图像潜在代码的时空补丁上运行。