Sora动力短片制作者解释AI生成视频的优势和局限性

OpenAI的视频生成工具Sora在二月份以流畅、逼真的视频让AI社区大为吃惊,似乎领先竞争对手很多年。但精心策划的首次亮相留下了许多细节,这些细节由一位获得早期访问权限并使用Sora创作短片的电影制作者填补了。

Shy Kids是一支位于多伦多的数字制作团队,被OpenAI选中作为为OpenAI促销目的制作短片的少数几个团队之一,尽管他们在创作《风头》时获得了相当大的创作自由度。在一次接受视觉特效新闻媒体fxguide采访时,后期制作艺术家帕特里克·塞德伯格描述了“实际使用Sora”是他工作的一部分。

对于多数人来说,最重要的收获可能就是:尽管OpenAI在强调这些短片时让读者认为它们多多少少是由Sora完整呈现的,但事实是这些都是专业制作,完整包括丰富的分镜头设计、剪辑、色彩校正以及后期工作,如描边和视觉特效。正如苹果说“使用iPhone拍摄”,但没有展示摄影棚设置、专业照明和事后调色等,Sora的帖子也只谈论人们可以做什么,而不是他们实际是如何做到的。

塞德伯格的采访非常有趣,而且很少涉及技术问题,所以如果你对此感兴趣,可以前往fxguide阅读。但以下一些关于使用Sora的有趣片段告诉我们,尽管它令人印象深刻,但这个模型可能并非我们所想象的巨大飞跃。

控制依然是最令人渴望的,并且目前也是最难以捉摸的东西。 … 我们能够做到的最接近的方式只是在我们的提示中超级详细地描述。解释人物服装,以及气球的类型,是我们绕过一致性的方式,因为从镜头到镜头/一代到一代,目前还没有完全控制一致性的功能集。

换句话说,像传统电影制作中那样简单的事情,比如选择人物服装的颜色,需要在生成系统中进行复杂的变通和检查,因为每个镜头都是独立创建的。这显然有可能改变,但目前显然要麻烦得多。

Sora的输出还必须进行观察,以查找不需要的元素:塞德伯格描述了这个模型通常会为主角头部的气球生成一张脸,或者在前面垂下一根细绳。如果他们无法让提示排除这些元素,那么这些元素就必须在后期进行移除,这是一个耗时的过程。

人物或摄像机的精确定时和移动实际上并不是可能的:“在实际生成中,这些不同动作发生的时间有一点控制,但并不精确 … 这种方法有点靠感觉,”塞德伯格说。

例如,定时一个像挥手这样的手势是一个非常近似的、建议驱动的过程,不像手动动画。而像抬头拍摄人物身体这样的镜头可能或多或少并非制片人所期望的 — 所以在这种情况下,团队渲染了一个纵向构图的镜头,然后在后期进行了剪裁移动。生成的片段也经常以慢动作呈现,没有特别的原因。

从Sora生成的一段镜头的实际效果和在短片中的呈现方式的示例。图片来源:Shy Kids

事实上,在传统电影制作中使用的日常语言,如“向右扫”或“跟踪镜头”在一般情况下并不一致,塞德伯格说,这让团队感到相当惊讶。

“那些研究人员在接触艺术家开始使用这个工具之前,其实并没有像电影制作者一样思考,”他说。

因此,该团队进行了数百次生成,每次10到20秒,最终只使用了少数几个。塞德伯格估计比为300:1 — 但当然,我们可能会对一个普通拍摄比率感到惊讶。

该团队实际上制作了一个幕后视频,解释了他们遇到的一些问题,如果你感兴趣的话可以查看。就像许多与AI相关的内容一样,评论对整个尝试非常批判 — 虽然并不像我们最近看到的那个批评AI辅助广告的评论那样恶毒。

最后一个有趣的细节与版权有关:如果你让Sora生成一个“星球大战”片段,它会拒绝。并且,如果你试图用“在复古未来飞船上的穿着长袍的男子,手持激光剑”绕过它,它也会拒绝,因为通过某种机制它会识别出你试图做的事情。它也拒绝做一个“阿伦诺夫斯基式的镜头”或者“希区柯克变焦”。

一方面,这是很合理的。但这也引发了一个问题:如果Sora知道这些是什么,那是否意味着该模型是在这些内容上进行过训练,以更好地识别侵权行为?OpenAI保守其训练数据,以至于令人发笑,就像首席技术官米拉·穆拉蒂与乔安娜·斯特恩的采访一样,它几乎肯定永远不会向我们透露。

至于Sora及其在电影制作中的应用,显然是一个强大而有用的工具,但它的位置并不在于“从头开始创作电影”。尚未到那一步。就像另一个恶棍曾经著名地说的:“那会在以后。”