佛说,色即是空,空即是色。
Open AI将他们训练的目前最大的模型取名为“Sora”(日语“天空”),就像是给普通人开启创建虚拟世界的一支“神笔”。
关于Sora模型的研究论文链接🔗
Sora的基本功能
- 通过一张静态图片和提示词就可以生成视频。
- 可以向前或向后扩展视频,以产生无缝的无限循环。
- 进行视频到视频的编辑,Sora作为扩撒模型实现了多种从文本提示中编辑图像和视频的方法,能够零镜头转换输入视频的风格和环境。
- 可以连接视频,在具有完全不同主题和场景构图的视频之间创建无缝过渡。
- 可以生成图片,分辨率高达 2048x2048。
Sora领先于其他视频生成模型的能力
- 3D一致性。 Sora可以生成具有动态相机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。
- 远距离相干性和物体持久性。 Sora可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,从而在整个视频中保持它们的外观。
- 与世界互动。 Sora有时可以以简单的方式模拟影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
- 模拟数字世界。 Sora还能够模拟人工过程,例如视频游戏。Sora 可以同时通过基本策略控制 Minecraft 中的玩家,同时还可以高保真地渲染世界及其动态。
Sora的局限性
Sora 目前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理特性,比如玻璃破碎。其他交互,如吃食物,并不总是能产生物体状态的正确变化。例如在长时间样本中出现的不连贯性或物体的自发出现。
Sora今天所拥有的能力表明,视频模型的持续扩展是一条有前途的道路,可以开发物理和数字世界以及生活在其中的物体、动物和人的模拟器。