言出“视频”随--语言即现实,Sora扩展视频生成模型 作者: cs16.cn 时间: 2024-02-17 分类: 业界杂谈 评论 我们探索了在视频数据上大规模训练生成模型。具体来说,我们在可变持续时间、分辨率和纵横比的视频和图像上联合训练文本条件扩散模型。我们利用一种 transformer 架构,该架构在视频和图像潜在代码的时空补丁上运行。- 阅读剩余部分 -