佛说,色即是空,空即是色。

Open AI将他们训练的目前最大的模型取名为“Sora”(日语“天空”),就像是给普通人开启创建虚拟世界的一支“神笔”。

关于Sora模型的研究论文链接🔗

Sora的基本功能

  1. 通过一张静态图片和提示词就可以生成视频。
  2. 可以向前或向后扩展视频,以产生无缝的无限循环。
  3. 进行视频到视频的编辑,Sora作为扩撒模型实现了多种从文本提示中编辑图像和视频的方法,能够零镜头转换输入视频的风格和环境。
  4. 可以连接视频,在具有完全不同主题和场景构图的视频之间创建无缝过渡。
  5. 可以生成图片,分辨率高达 2048x2048。

Sora领先于其他视频生成模型的能力

  1. 3D一致性。 Sora可以生成具有动态相机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。
  2. 远距离相干性和物体持久性。 Sora可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,从而在整个视频中保持它们的外观。
  3. 与世界互动。 Sora有时可以以简单的方式模拟影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
  4. 模拟数字世界。 Sora还能够模拟人工过程,例如视频游戏。Sora 可以同时通过基本策略控制 Minecraft 中的玩家,同时还可以高保真地渲染世界及其动态。

Sora的局限性

Sora 目前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理特性,比如玻璃破碎。其他交互,如吃食物,并不总是能产生物体状态的正确变化。例如在长时间样本中出现的不连贯性或物体的自发出现。

Sora今天所拥有的能力表明,视频模型的持续扩展是一条有前途的道路,可以开发物理和数字世界以及生活在其中的物体、动物和人的模拟器。