语言就是现实：20个预言剖析OpenAI的Sora|界面新闻

文 | 娱乐资本论付梦珍

凌晨，OpenAI 介绍了其在 AI 视频领域的新技术进展：我们打造了一种名为Sora的文本到视频模型。Sora能够生成长达一分钟的视频，同时保持视觉质量和对用户提示的遵循。

简单来说，Sora可以根据简单的提示和静态图像，生成包含多个角色的视频画面。此外，Sora还可以自己“脑补”、“扩展”现有视频片段。

用词语总结Sora，那就是：“60s超长长度”“单视频多角度镜头”“充满情感的角色”“高度拟真的细节”和“世界模型”。

这项技术一经发布，立刻引爆大众，令无数人发出感叹：

“OpenAI第三个大招——向所有影视公司抛出二向箔”

“彻底端掉视频行业饭碗！OpenAI首个AI视频模型炸裂登场”

“60秒一镜到底惊人，世界模型真来了？”

“太炸了！OpenAI深夜发布，文字直接生成视频！网友：我要失业了”

OpenAI 在官方网站特别指出，所有的视频都是由 Sora 直接生成的，没有做过后期调整。

OpenAI指出，Sora与 GPT 模型类似，也使用了diffusion transformer架构，是一种扩散型变换器模型。OpenAI将视频和图像的数据表示为patch，类似GPT中的token。技术上，Sora生成的视频中，主体可以在三维视频中进行连续运动。

当无数人都在等待OpenAI 公测的时候，Sam Altman已经自己玩嗨了。

他发推疯狂安利的同时，还亲自下场为网友生成视频：你们随意来prompt，我一一输出。

这时，Sam Altman的身份是剪辑师？摄影师？演员？还是导演？

去年，娱乐资本论在采访AI创业者时，有人提出AI视频将在今年迎来大爆发，前途不可限量。

没想到，时间来得如此之快。

那么，Sora将会为世界带来哪些改变？

01 一段文字就能生成短片，视频内容将会大规模爆发，原有的岗位结构将会发生变化，例如摄影师、剪辑将不再存在，编剧可以直接生成电影；

02 讲故事的能力会越来越重要；

03 如果你不会讲故事，那么从古书、小说中爬取故事的能力也会很重要，人类历史上的大量文字内容，将会以视频内容的形式再现；

04 Sora生成的内容，将会最先在短视频领域爆火。因为这个行业对技术的要求低，且Sora可以相对低成本地产出大量具备猎奇性的内容；

05 特效行业的诸多镜头可以直接使用AI生成；

06 以后拍戏不需要这么多演员了；

07 游戏、动画行业的制作成本将会被大大降低，建模过程可以直接省略了；

08 以后自己写剧本、自己生成视频，再加上人机交互的机器，《头号玩家》的剧情会加速到来；

09 人人都有机会成为AI导演；

10 Sora将会加速数字人、自动驾驶、智慧成本、元宇宙等行业的发展，降低了数字资产的成本；

11 AI视频赛道将会迎来新的竞争点。此前被众人看好的Pika、Runway需要重新思考发展方向；

12 当视频被生成以后，世界是真实的可能性越来越微乎其微。继电话、数字人诈骗后，新的诈骗手段也会层出不穷；

13 客观来看，Sora的视频现在还存在着不连贯帧数、卡帧、断帧等问题，准确性不足等问题，但这些都会随着技术的进步而解决。

VOL.1 世界模型意味着什么？

维特根斯坦在《逻辑哲学论》里说，句子是实在的图像语言，意思是句子、语言可以影射世界的真实状态，语言就是我们的世界模型。

而现在，Sora已经通过大量的数据，能够理解物理世界的运动规律，学会了关于3D几何形状和一致性的知识，通过运动、反射等方式，创建了一个包含物理规则、与真实世界接近的虚拟世界。

某种程度上来说，Sora已经可以像人一样，对世界有了全面准确地认知。

例如，Sora在生成“色彩缤纷的鱼类和海洋生物充斥的，由纸艺精心构建的珊瑚礁世界”为主题的视频中，可以自己通过运镜拍摄，展现内容。

项目研究员Bill Peebles指出，“视频中实际上发生了多次镜头转换——这些镜头并非后期拼接而成，而是模型一气呵成地生成的。我们并没有特别指令它这么做，它却能自动完成。”

VOL.2 Sora的成果

提示词：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

一镜到底的60秒视频里，主体人物和背景都十分稳定，且全景、特写、镜头推拉摇移都有，有着复杂的摄影机运动。细节上水中的倒影也在变化。主体人物走动的时候，背景的招牌也在不断发生变化。有氛围，风格绚丽，堪比电影大片的质感。以后导演做创投的时候可以直接用AI生成短片，无需花高价拍摄了。

提示词：一个美丽的剪影动画展示了一只狼对着月亮嚎叫，感到孤独，直到它找到狼群。

整个视频通过蓝色的背影和狼的剪影，极好地展现出了狼的孤独，剧情上从一匹狼到多匹狼过渡自然，镜头语言上全景和中景、特写交替切换。Sora不仅懂拍摄，还可以识别人类的情绪。

提示词：与中国龙一起庆祝中国农历新年的视频。

龙的形象十分真实且符合节日氛围，人群也很有春节的氛围。

提示词：一位24岁女子在魔法时刻站在马拉喀什，眨眼的特写镜头，70毫米拍摄的电影胶片，景深，生动的色彩，电影。

视频中，人物的皮肤细节、睫毛都是十分逼真，和真人实拍几乎没有差别。

VOL.3 结语

Sora技术报告详细内容可以看技术文档：

https://openai.com/research/video-generation-models-as-world-simulators

OpenAI也宣布，将在今天晚些时候，更新技术论文。不过根据Openai之前的发布风格，当真正有用的东西出来的时候，他们只会公开有限的东西，就像GPT4本身到现在也没有发布详细的技术参数。

或许，当Sora最终跟大家见面，就是在GPT5和ChatGPT相结合发布的时候。先不用说那时会有多炸裂的改进，就算跟现在Pika或Gen-2相近的视频生成功能，可以在ChatGPT不额外花钱使用，那也将会给用户带来很大的改变。