网易首页 > 网易号 > 正文 申请入驻

Sora到底发布不发布,这事可能并不重要了

0
分享至


作者 | 玄宁
邮箱 | wangzhaoyang@pingwest.com

1

Sora是未来的一个碎片

不管你愿不愿意承认,大模型已经进入了更缓慢迭代的节奏。

从“Scaling Law已经撞墙”,到“OpenAI的下一代GPT遇到瓶颈”,再到“Google和Anthropic们的新模型无法再表现出明显的提高”,尽管Sam Altman依然用打哑谜的形式喊着“There is no wall”,但所有人都能感到墙就立在那里,AI们都已经站在了墙的面前。

这对习惯了每天醒来就看到一个模型大更新的人们来说,注定显得乏味了,于是不少人又开始期待Sora——这个OpenAI一直没发出来的模型,能奇迹般的立刻发布,然后拯救一切。

而消息也适时的出现:最新的流言是,Sora将在本周正式上线。包括Runway的联合创始人兼CEO在内的行业人士也“散布”了一下这个流言。

这是个有意思的现象,每当行业沉寂,人们就期待“Sora该出来了”。似乎它能凭一己之力把“大模型又颠覆世界”的事业给续上。

而最近百度创始人李彦宏也被问到了关于Sora的问题,他被问的理由有些不同——因为他是最早明确表示不会“复刻”一个Sora的人之一。


而他的回答也很有意思:

“Sora本质上是在任意场景下的视频生成能力。这件事情有没有意义呢?非常有意义,与此同时又非常难。你想想它的本质是什么呢?本质是可以做到基本可以预测未来。我们今天看到这么一个画面,你可以预测到下一个10秒,这个画面变成什么样子。无人驾驶是一个特殊场景的视频生成,我现在开到这儿了,那我下一秒怎么开,会看到什么样的景象,如果你都能解决的话,那无人驾驶不用做了,都可以靠那东西,可以做出来。”

“预测未来。”——这是个很有科幻色彩的说法,这意味着他其实比很多人更重视Sora的技术意义——就算再喜欢把AGI放在嘴边的人也没几个从“预测未来”的角度来形容它。但同时,这也意味着这种终极能力是今天尚无法触碰到的。

“正因为是这么大的一件事儿,所以我觉得它需要很长很长时间才能够做出来。”

也就是说,它更像一个遥远未来在今天的简单demo——它确实让人向往,但真的要实现,需要的工作还要很多很多年。

现实也正是如此。

进一步放到今天的现实环境,李彦宏认为,“如果真的能够做到任意场景下视频生成,那可能要很长时间,而且成本很高”。

市场研究机构Factorial Funds发布过一个报告,估算了Sora的成本。根据这份报告,Sora至少需要在 4200~10500 块英伟达 H100 GPU 上训练 1 个月。而如果Sora得到大范围应用,为了满足需求,需要约72万张Nvidia H100 GPU,如果按照每片英伟达 H100 AI 加速卡3万美元成本计算,72万片需要216亿美元。

另外,从落地场景来看,今天已经发布了类似Sora的、或者表示已经超过Sora的各类视频生成产品,在效果上也依然挣扎于“抽卡”,在商业化上也依然在继续寻找足够让收支变得合理的场景。恐怕Sora来了也要遇到同样的问题。

1

应用驱动,会通往更大可能

所以,今天再去看Sora,它发布不发布可能都没有那么重要了。

在展示了一些精挑细选的样片,借此炸场然后不停跳票后,一切都让它看起来更像是提前展示给大家的关于未来的一些碎片。这也让今天行业更加冷静下来后,可以用一个更现实的角度来看Sora。

其实很多人“崇拜”Sora,是被当时OpenAI那句“Sora是世界的模拟器”所打动,认为它是自成一派的新东西。但事实上,回到真实世界里,Sora是OpenAI内部一个小团队做的一次尝试,它用了OpenAI一小部分内部资源(相比其他公司,这部分资源依然可观)孵化的项目。这其实是OpenAI典型的技术创新方式——它的不同团队会基于OpenAI已有的基础模型比如GPT系列、图像模型比如Dalle-3等所积累下来的“要素化”的能力,来组建新的模型和产品,当这个产品成功后,再把它像模块化一样积攒下来,供更多的未来项目所用(比如GPT-4o系列等)。所以它并不是自成一派的彻底的新品种。

这个事实自然在当初一声声“震撼”和“颠覆”声中被忽视了。但今天冷静下来看,除了复刻它,Sora对于AI公司们来说还有更重要的启发,就是一家真正严肃对待AI,以更长期的耐心去做技术的公司,是会有基于技术判断的属于自己的技术拼图的。Sora这样单一的吸睛产品背后,其实更重要的是判断哪些是自己技术路线上最重要的板块,并在技术战略上做取舍。

好在,有这个意识的科技公司正在变得越来越多,其中百度也算是态度最鲜明的之一。

用李彦宏的话来总结,百度的AI技术路线和相关决策都从一件事出发——应用驱动。

“(百度的底层思考)就是应用驱动。这个和美国很多公司做法很不一样,美国很多公司一直都是梦想说我要做颠覆性的技术,我要多少年之内做成什么什么样子。我更多希望尽早接触场景及接触应用,看在这个过程当中,到底遇到了什么问题,把这些问题带回来,我们综合一下,看大家遇到的最多的问题,就是我们优先解决的问题。”

当明白了应用驱动是百度所有战略的起点,李彦宏在战略上放弃Sora类产品的决定就更好理解了。而其他的技术投入方向也会跟着这个原则来确定。

从应用驱动出发,百度的技术方向会围绕让应用更好落地展开,而这个过程里有两个巨大挑战,一个是交互,一个是智能。

在交互上,今天的模型需要更好的人与产品、以及产品与物理世界的交互,单纯的语言模型无法满足这样的需求,需要多模态的能力。

“外界有一种误解就是百度不做Sora,就等于是百度不做多模态。我们非常非常看好多模态,我们也在多模态上有非常长期的多年投入,在真正有应用场景的地方,我们的多模态能力是非常强的。”李彦宏在最近的对话里说。

这是百度一直投入的重要方向。Sora的出现让人们意识到语言之外的视觉模态的重要性,但它远远并非“多模态”的全部。人工智能中的多模态指数据或信息的各种表现形式。除了文本,图像和视频,还包括音频模态、传感器数据(温度、湿度、触觉信息)、代码、数学公式等等。

而在智能上,百度的做法如李彦宏所说——“事实上,我很多的研发资源还是投在了外界看来基础的能力或者理想主义者看重的东西。我们在做,我们不断地在这方面加大投入、付出努力。我只是觉得,没有必要把这些只有极少数人才能够听得懂或者说才会appreciate的东西到处去讲。我需要倒出去讲的是,更多的人,几千万人,几亿人确确实实能够用得到的东西。”从“让几亿人可以用到”的实际出发,被幻觉所扰乱的智能不是真的智能。这是李彦宏希望百度去解决的问题。

于是二者结合,百度推出了iRAG技术(检索增强的文生图技术 iRAG,image based RAG)。它是多模态和降低幻觉两个重点技术方向的融合。它将搜索与文心大模型联合优化,将百度搜索的亿级图片资源跟强大的基础模型能力相结合。李彦宏在最近的世界大会上,展示了它让生成的图片更真实、准确的例子。这样的效果,能够大幅降低影视、漫画,连续画本等场景里AI生成图片的成本。


如典型的百度风格那样,这些多模态底层能力也在第一时间开始寻找那些更清晰的落地场景。数字人是重要的方向之一。

“我们今天讲的多模态,实际上是解决另外一类型的问题。比如数字人,不是纯语言模型,你生成的文字要用语音表达出来,语音表达的时候口型要能对得上,手势应该做什么,我如果转头了,侧面的图像能不能跟正面保持一致等等,看起来都是一个比较简单的事情,但是你仍然需要解决。靠任意场景下生成视频的东西,不一定能把这事儿解决得很好。如果真的能够做到任意场景下视频生成,也许能够解决。那可能要很长时间,而且成本很高。”李彦宏说。数字人是一个全面考验多模态能力的场景,同时也是一个要求更务实方案的真实商业化需求。

“我用简单的方法,就能够做到,那我为什么不呢?先把这些事儿解决了,让这个应用能够跑起来,这是我们的思路。”

据了解,其从2019年起就开始布局数字人领域,在语音克隆、唇形同步、表情动作捕捉等一系列关键技术上有多年积累。今天,百度“曦灵”数字人、“慧播星”数字人已广泛应用于新闻播报、直播电商等场景。

在百度世界大会上,李彦宏也展示了被他称为“角色智能体”的多个数字人案例。这些数字人已经可以做到效果自然、动作幅度更大,在一些场景的转化率已经超过了真人。

“我们非常相信,真人与虚拟人的交互,将创造巨大的产业价值和社会价值。这里的虚拟人,可能就是现实生活中的一位名师的数字分身,也可能是一位名医、王牌律师和金牌销售的数字分身,而你从来没有像现在这样离他们如此之近。”李彦宏说。

当然,除了iRAG和数字人,作为多模态大模型最大的落地场景之一,自动驾驶也是百度多模态能力的重要体现。

2024年7月,百度对外发布了全球首个支持L4级别无人驾驶业务的大模型Autonomous Driving Foundation Model(ADFM),这也是萝卜快跑的核心技术。ADFM包括感知大模型和规划大模型,两者通过联合训练,从原始数据捕捉到油门和转向输出,形成端到端的自动驾驶系统。


这款大模型结合硬件产品与安全架构,通过多重安全冗余与管理策略,确保了车辆的稳定与可靠。Apollo ADFM的引入,标志着自动驾驶技术的安全性与泛化性达到了前所未有的高度,其性能超越了人类驾驶员十倍以上,成功覆盖城市级全域复杂场景。

1

空谈AGI,不如让真实的应用来给行业信心

所有重要的技术似乎都逃不开曲折前进的周期,而身处其中的人冷暖自知。今天在AI产业里蔓延着的普遍情绪是,泡沫正在慢慢破裂,人们已经无法通过听一些人空谈AGI来获得对未来的信心。

怎么办?

当人们从“颠覆性技术”的预期中醒来,建构信心的方式就需要改变。大模型带来的技术革新依然是巨大的,所以换个角度来看,这个底层技术迭代的“瓶颈期”同时也是各行各业“喘口气”沉下来理解技术在应用上真正机会的“窗口期”。接下来的信心也将来源于此。

认定AI落地和进步需要应用驱动的百度,也在通过实际的成果尝试给行业分享更明确的预期。在百度世界大会上,李彦宏在演讲过程中在大屏上展示了文心智能体平台的TOP100智能体。这些应用的分发量、平均对话轮次、用户喜爱度等指标都令人印象深刻,涵盖了多个行业,包括智能客服、内容创作、数据分析等多个领域。

这些都是在实际解决问题,能让人看到实在用处的AI应用。相比于不少人天天讨论的“超级应用”,这些千行百业的应用大规模出现,可能是“超级应用”的另一种路线。

此次,目前,百度智能云已经在能源、电力、制造、金融、交通、政务、互联网、教育、电商等数十个行业、几百个场景中落地大模型应用。百度智能云千帆大模型平台已经帮助客户精调了3.3万个模型、开发了77万个企业应用、文心大模型日均调用量超过15亿次。


有人曾比喻,今天的大模型技术,事实上到了这样一个阶段——巨龙已经被造出,接下来就看谁能更好驾驭它。百度的应用驱动,就是要给各行各业的人们提供更好地驾驭巨龙的可能。

而在这个应用百花齐放的过程里,技术的周期会继续前进。今天AI撞上的墙,很大程度来自于数据的枯竭,而像是iRAG这样的技术,与今天越来越长尾的应用相结合,其实会在更多真实的物理世界的场景里产生新的行业落地数据,它们在模型的推理阶段被收集,再反哺回模型的训练阶段。应用的繁荣最终会促进模型能力的下一次进化。

也许有一天一个 “预测未来”级别的Sora会真正出现,而今天竭尽全力把AI技术转化为各种落地应用的公司,可能反而会在这个接地气的探索中,更早触碰到通往未来的可能。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德云社王九龙大婚!舅舅郭德纲缺席于谦证婚,共35桌座次很讲究

德云社王九龙大婚!舅舅郭德纲缺席于谦证婚,共35桌座次很讲究

裕丰娱间说
2024-11-18 22:57:12
泽连斯基说战争将提前结束!俄军进入库拉霍沃,红军城失守在即

泽连斯基说战争将提前结束!俄军进入库拉霍沃,红军城失守在即

王朝风云
2024-11-17 10:24:34
济宁坠楼女孩后续,14岁已死亡,坠落画面曝光,家人崩溃警方回应

济宁坠楼女孩后续,14岁已死亡,坠落画面曝光,家人崩溃警方回应

小盖纪实
2024-11-18 09:14:19
想不到11月还没结束,国家一级演员王劲松,就给影视圈演员敲警钟

想不到11月还没结束,国家一级演员王劲松,就给影视圈演员敲警钟

华人星光
2024-11-18 14:28:40
拜登之子将于下个月被判刑!白宫重申:若被定罪,总统不会赦免他

拜登之子将于下个月被判刑!白宫重申:若被定罪,总统不会赦免他

现代小青青慕慕
2024-11-19 07:13:17
CCTV直播调整!国足时间提前,赢球≠冠军,夺冠至少需要5-0

CCTV直播调整!国足时间提前,赢球≠冠军,夺冠至少需要5-0

体育就你秀
2024-11-18 17:47:55
上海一栋价值2120万独栋别墅3466万拍卖成交遭悔拍,损失149万

上海一栋价值2120万独栋别墅3466万拍卖成交遭悔拍,损失149万

天天话事
2024-11-19 09:33:32
18强赛乱套!亚洲第12绝杀了,冲向世界杯,国足剩5场:抢8分出线

18强赛乱套!亚洲第12绝杀了,冲向世界杯,国足剩5场:抢8分出线

侃球熊弟
2024-11-19 06:09:02
昨夜,济南上空出现,有人拍到了

昨夜,济南上空出现,有人拍到了

爱济南新闻客户端
2024-11-19 09:41:24
6连胜!瓦格纳32+8,布克14中5,杜兰特真沮丧,比尔换哈登就好了

6连胜!瓦格纳32+8,布克14中5,杜兰特真沮丧,比尔换哈登就好了

巴叔GO聊体育
2024-11-19 13:24:13
霍金去萝莉岛的内幕!

霍金去萝莉岛的内幕!

八卦疯叔
2024-11-19 10:00:40
突发:「葵司」退役!确认引退!

突发:「葵司」退役!确认引退!

Supreme情报网
2024-11-19 12:19:56
电池容量大了iPhone快一倍,今年国产手机咋突然悟了?

电池容量大了iPhone快一倍,今年国产手机咋突然悟了?

差评XPIN
2024-11-19 00:05:06
“苦瓜相”的5位女演员,五官漂亮却演啥都是晦涩

“苦瓜相”的5位女演员,五官漂亮却演啥都是晦涩

柴叔带你看电影
2024-11-17 23:47:56
1996年,安徽滁州,18岁的刘涛在南京担任文艺兵

1996年,安徽滁州,18岁的刘涛在南京担任文艺兵

视点历史
2024-10-14 22:16:11
圆明园4只黑天鹅“遇难”,真凶抓住了!留下的蛋将人工孵化

圆明园4只黑天鹅“遇难”,真凶抓住了!留下的蛋将人工孵化

极目新闻
2024-11-18 22:45:59
巴西第一夫人:去你X的,马斯克

巴西第一夫人:去你X的,马斯克

观察者网
2024-11-18 09:38:24
意外!崔康熙已接连拒绝两位巴西金靴锋霸冬窗来鲁能,引发热议

意外!崔康熙已接连拒绝两位巴西金靴锋霸冬窗来鲁能,引发热议

我就爱说足球
2024-11-19 12:22:43
苏州马拉松一男一女将给选手的免费零食打包“负重”奔跑?主办方回应

苏州马拉松一男一女将给选手的免费零食打包“负重”奔跑?主办方回应

极目新闻
2024-11-19 07:56:44
大陆特别点名赖清德后,赖清德加速处理2件事,美国要不满了?

大陆特别点名赖清德后,赖清德加速处理2件事,美国要不满了?

DS北风
2024-11-19 11:16:10
2024-11-19 13:42:44
硅星人
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
1724文章数 10301关注度
往期回顾 全部

科技要闻

如果马云和孙正义的相遇晚了半年

头条要闻

苏州马拉松现多名疑似"薅羊毛"参赛者 称明年还来进货

头条要闻

苏州马拉松现多名疑似"薅羊毛"参赛者 称明年还来进货

体育要闻

15胜0负的骑士,真的在模仿勇士

娱乐要闻

没做错事的黄晓明为什么公开道歉

财经要闻

年底可能会“突击花钱”近1万亿

汽车要闻

后排够大 智能化提升 全新探岳L是你的菜么?

态度原创

游戏
家居
教育
亲子
健康

《白荆回廊》韩服更改图标 因手势过于敏感

家居要闻

纯白极简 现代简约

教育要闻

为什么很多孩子中考成绩好,高中却跟不上?班主任:早就注定了

亲子要闻

双胞胎宝宝一个双眼皮大眼睛,另一个单眼皮眼睛还没有人家双眼皮宽。

花18万治疗阿尔茨海默病,值不值?

无障碍浏览 进入关怀版