OpenAI突然上线的Sora，到底意味着什么？|人工智能|sora|真实世界|openai

分享至

12月10日。凌晨2点。有人呼声正酣，有人还在加班。

此时，一段20分钟的直播，瞬间让静谧的夜晚沸腾了起来。

什么直播？OpenAI发布会。

今年2月，Sora首次发布的时候，我写了，和你做了一点简单的介绍。

这一次，鸽了快一年的，OpenAI的文生视频工具Sora，终于开放注册了。

从测试阶段，到使用阶段。Sora，不再是少数人的小众玩具。

你只需要给一段文字，或者给一张图片，就能直接生成一段20秒的1080p视频。

而且，它和人工智能对话聊天机器人ChatGPT共用一个会员体系。你可以选择充积分单独使用，但如果你开了ChatGPT的会员，也能免费用上Sora。

我给你先看几个视频，感受一下。

（Sora官网视频）

怎么样？

人脸上的褶皱、神态，拍摄的角度，都非常有电影感。小狗跨过窗台，那种试探路稳不稳的犹豫，都被考虑到了视频里。工地上许多人走来走去，好几个动线，好几个拍摄角度，也依然丝滑。

但是，不需要摄影师，不需要分镜师，不需要动画师，也不需要导演。

这在过去简直无法想象，但是现在，它逐渐照进了现实。

对生成的视频不满意，也没关系，你可以继续修改。修改的方式也很细致。你想从第几秒开始接着前面重新再生成、你想添加或者删减什么细节要素......

只需要你一句话，就能让它再给你生成好几个版本，直到你满意为止。

所以，昨天发布会结束没多久，官网就被涌来的人给弄瘫痪了。奥特曼只好暂停了注册通道。

是的。相信你的朋友圈，这两天也被这件事刷屏了。但你可能依然疑惑：

Sora到底厉害在哪儿？为什么能让我们如此激动？对于OpenAI，乃至人工智能的整体发展来说，Sora到底意味着什么？

有没有人可以用我能听明白的方式，跟我讲讲？

于是，我跑去请教了LangGPT的联合创始人甲木老师，也阅读了很多资料。

Sora测试的这10个月，国产文生视频AI软件也如雨后春笋一般冒出。先跑出来的可灵，紧跟其后的即梦、海螺、vidu，还有开源的混元和智谱，都在做文生视频。不断迭代，不断升级。

所以这一次，比起2月，我有了更多的体感。

其实，在凌晨的发布会上，奥特曼就提到过3个要点。我也把它总结成了3个关键词。理解了这3个关键词，你或许就能理解这件事的来龙去脉了。

共同协作。信息载体。世界模型。

我们一个个来说。

先说，共同协作。

大部分传统视频制作软件，主要充当着“素材工具”、“制作工具”。虽然有了工具，但你可能依然需要许多角色的人，大家一起分工协作，一起使用这些工具，才能最终产出视频。

但如果，这个“许多角色的人”，就是AI呢？

效率，会疯狂提升。

如果AI能帮你联网搜索，给你分点罗列，它就能帮你完成“素材搜集”。如果AI能直接给你成品，你拿着成品，你的工作就从“从零创作”变成了“修改草稿”。

这就是协作。你和它一起，直接对结果负责。

而这回，AI连“修改”都帮你干了。这下，你可能连视频制作的技术都不需要一一掌握了。

比如，remix，重新混合。

你输入一句话，Sora给你生成了一个5秒的视频。你觉得背景很好，但是想把视频里的房子，换成中世纪风格的。你就可以继续在下面打字：请把图中的房子换成中世纪风格。然后点击再次生成，就能局部修改视频。

（OpenAI Sora Tutorials OpenAI官方示例教程）

比如，re-cut，重新剪辑。

你觉得前2秒很好，但是后3秒很荒唐。你可以从第2秒剪开，让Sora基于前面的2秒，重新再给你混合生成后面的视频。一句话的事。

（OpenAI Sora Tutorials OpenAI官方示例教程）

比如，blend，混合。

你生成了两个视频，一个蝴蝶振翅，一个花朵盛开。你想让这两个视频丝滑连接起来，就可以用blend功能，一键衔接。

（OpenAI Sora Tutorials OpenAI官方示例教程）

比如，loop，无限循环。

一直奔跑的羊群、不断翻涌的浪花，就可以用loop来生成。

（OpenAI Sora Tutorials OpenAI官方示例教程）

还有一个特别炫酷的，storyboard，故事板功能。

你在板上输入描述文字作为提示词，就能生成一块故事板。这一块故事板，就对应一个生成的视频。你可以在视频的时间轴上放置故事板。你放在哪一秒，就从哪一秒开始演绎你编辑的故事视频。你还可以在故事板上，上传一张图。基于你的图，会生成第二块故事板。第二块故事板上，根据你的图，Sora会根据理解自动写成一段文字。

接着，你就可以通过继续修改文字，不断生成新视频。

过去，是你有了灵感再去做视频。从你的头脑里的“灵光一闪”，落实到视频成品，要经过漫长的制作周期。你得先把“灵光”变成更具体的信息，拆解成一步又一步，然后去拍摄、剪辑、调色，才有成品。

而现在，根据你模糊的需求，就能生成视频。这让灵感从你脑子里走向现实的时间，大大缩短了。

一个个成品，直接呈现在你面前。甚至，能反哺你的灵感。

生成的视频，有时甚至比你还要更懂你的想法。因为它是快速的，具体的。

现在，你就能理解，为什么Sora作为一个视频制作工具，它并不是铺满了图层、色彩、聚焦等等复杂菜单。而是，简洁无比的4个选择。你能快速进行基础设置。

1）画面比例。横屏、竖屏或者正方形。2）分辨率。480p、720p还是1080p。3）时长。5s、10s、15s还是20s。4）一次生成几个视频。用来对比选择。

这大大降低了视频制作的使用门槛。

它是你的半个同事，能“试着理解”你说的话。

今天的文生视频AI软件，已经不仅仅是“人在使用工具”，而是“人和AI在协作”。

可是，它们为什么“突然”就能“理解”了呢？

这就要说到第二个关键词，信息载体。

现在，你想做一个产品宣传视频。你可能会打开一个白板，开始构思脚本。如果你有设计伙伴，你可能会把你的需求告诉他，让他帮你一起设计。设计完后，再和做视频的伙伴协作，最后才能产出一个视频。

但是，这一切想要顺利，都得建立在，你每次清楚知道自己需要什么的情况下。

你跟设计师讲，“我想要一个漂亮的视频，穿搭要对比鲜明”。然后等啊等，等他把成品给你，你却发现和你的想法完全不同。你觉得，鲜绿色和亮红色放一起怎么能算“漂亮”呢？设计师却说，这是这个季节很流行的搭配啊，你不是说要“对比鲜明”吗？

反反复复，好不容易敲定了设计，你又去等视频伙伴。再来一轮修改循环。

当最后的视频出来，依然不是你想要的效果。

然而，已经来不及修改了。你很难受，你的设计伙伴和视频伙伴也都很委屈。

但如果，你根据模模糊糊的想法，先生成一系列的视频，再选一个符合你想象的成品小样拿去给视频伙伴看呢？

沟通成本，就大大减少了。

因为视频能够传递的信息，比文字更丰富、更直观。

你拿视频给同事，同事可以更精准地“学习”到你的想法。那，如果你不断拿视频投喂AI呢？AI是不是也能够，更精准地“学习”现实世界？

这就要靠第三个关键词，世界模型。

2月Sora出来的时候，有三个亮点：一次性生成60s高清视频、多角度镜头无缝连接，以及，世界模型。而到了12月，三个亮点都还在，但是生成视频的长度，反而从最多60s，变成了最多20s。

为什么看上去，反而“倒退”了？解释这种“倒退”的，是Sora的后缀，Turbo，“加速”的意思。

虽然一次生成的视频时间短了，但是生成的速度，变快了。

一方面，是因为多角度无缝衔接，细分成了前面写到的Remix、Blend、Loop、Storyboard等更细致的修改功能。另一方面，是因为世界模型。

什么是世界模型？

你可以先简单想象一下：计算机所在的世界，和我们所生活的世界，是两个不同的世界。而世界模型，就是让计算机从它的窗口盯着我们的世界，使劲地看，使劲地学。

而你要做的，就是不断给它投喂营养，让它不断记忆，然后不断预测。

ChatGPT的诞生，验证了这样的“养育”方式，在文字方面，是可行的。

投喂了很多很多文字资料后，你对计算机输入“我”，它就会生成下一个字，可能是“我要”，可能是“我想”，可能是“我是”。

它会根据你的描述，不断迭代怎么预测下一个字，更符合你想要的样子。

而Sora的诞生，则是再次验证了“养育”方式的可行性。或者说，对“真实世界”的学习能力的可行性。

所以，OpenAI突然上线的Sora，为什么能让我们如此激动？

不仅仅是因为它能生成更像样的视频了。更是因为，它更懂这个世界了。

原来当你不断投喂营养，计算机这个小孩，真的可以开始“长大成人”，开始“理解”你，理解这个世界，能处理更复杂的问题了。

你不断给它真实世界的信息，它就开始有“智能”了。

文字，是信息，但是有些模糊。图片，是信息，似乎比文字更好懂一点。视频，也是信息，而且是无比丰富的信息。

它最接近真实世界。因为我们在世界里，都是“会动”的。

计算机你看，那个人类吃汉堡的时候，一口咬下去，剩下的汉堡不是整块的了。看到这段的时候，计算机你先记下来。下一次，你又看到另一个人类吃包子，他张开嘴，咬包子的时候，你试试预测一下，会是什么场景？

“包子穿嘴而过。”错了错了，你再想想？“牙齿碰到的地方会下沉。”对了对了，很接近了，然后呢？“接着会出现一圈齿痕，而咬掉的部分包子，会在嘴里消失不见。”

投喂，再投喂。记忆，再记忆。然后，预测，再预测。

（Sora制作完视频，可以分享到社区）

最终，越来越“逼真”，越来越“智能”。

当然，这类文生视频、图生视频的AI工具，今天还有很多很多的瑕疵。

比如金毛跳到半空屁股变成了头，头变成了屁股。比如偶尔还会出现人物肢体变形、物体突然消失。又比如，因为成本太高，一次生成的视频时间在缩短。

但是GPT的出现，以及Sora的出现，都在一次次验证计算机能够按照人类的学习规律进行学习：先记忆，后预测。

“记忆”越是多，“预测”，就越是有机会更准确。

这也是为什么，未来，来得越来越快了。

GPT-1在2018年发布，用了5年时间，迭代到GPT-3.5才亮相，被众人所知。而从GPT-3.5亮相，到Sora春节第一次发布，只用了1年多。再到现在的Sora Turbo开展公众注册，则是10个月。而且，按照奥特曼的说法，这还只是视频版GPT-1，还是一个初级版本。

那么，我们呢？在“未来”面前，我们该怎么办？

这次的发布会，我想奥特曼真正想表达的，是呼吁你我去和AI协作。然后，尽早找到自己的正确节奏。

开发大模型很昂贵。迭代大模型需要很复杂的技术。但是，普普通通的你和我，都会有和AI相处的节奏。

细分，是机会。比如专门做数字人口型。组合，是机会。比如制作AI创意视频。

关键的是，你的节奏是什么？

OpenAI官方的教学视频里面，有一句让我印象特别深刻。

Find the right pace for your story.（为你的故事找到正确的节奏。）

正确的节奏下，AI从来都不是在替代，而是在共同协作，是在弥补信息不对称，是在让新旧世界重构。

祝你，找到你的节奏。

共勉。

*个人观点，仅供参考。 *头图来自于sora官网

参考资料

主笔/ 木言声编辑/ 二蔓版面/ 黄静

这是刘润公众号的第2454篇原创文章

责任编辑：郭鹏_NO4657

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.