网易首页 > 网易号 > 正文 申请入驻

智源研究院验证AGI新路线,发布原生多模态世界模型

0
分享至

界面新闻记者 | 伍洋宇
界面新闻编辑 | 宋佳楠

在近期的大模型领域,已经很久没有公司高调谈论对AGI(通用人工智能)的理想。而智源研究院的一个新动作,将这个终极目标重新拉回到聚光灯下。

10月21日,智源研究院发布原生多模态世界模型Emu3,称该模型实现了视频、图像、文本三种模态的统一理解与生成。

在图像生成任务中,Emu3的人类评估得分高于Stable Diffusion的两个版本SD-1.5与SDXL。针对视觉语言理解任务,Emu3的12项基准测试的平均得分略高于微软研究院联合多所高校研发的多模态大模型LlaVA-1.6。视频生成任务方面,Emu3的VBench基准测试得分略高于OpenSora 1.2。从语言能力角度看,它的水平大概处于GPT-3.5。

这是国内大模型领域第一次对上述命题作答,意味着世界模型路径下的AGI进程向前迈进了一小步。

AGI素来有路线之争。在已经显现的争论中,一派观点相信,只有语言智能才能实现,另一派则认为,这绕不开多模态的理解与生成统一。在此之后,行业可以达到世界模型,并进一步抵达AGI。

世界模型是一种能够对环境或世界的状态进行表征,并预测状态之间转移的模型。它使智能体(Agent)能够在模拟环境中进行学习,并将学到的策略迁移到真实世界中,从而提高学习效率并减少风险,这对视频生成、自动驾驶以及智能体的发展至关重要。

这条路径得到不少企业、机构以及知名学者的支持。图灵奖得主、Meta首席AI科学家杨立昆(Yann Lecun)曾在演讲中多次表示对世界模型潜力的关注,并预言世界模型将会成为新一代智能系统的基础。

而作为世界模型的前提,多模态大模型的理解与生成统一是一道重要技术门槛。

据智源研究院院长王仲远介绍,多模态大模型此前的主流技术架构处于发散状态,例如生成任务以扩散模型(例如Stable Diffusion)为主,理解任务以组合式方法(例如大语言模型+CLIP视觉编码器)为主。

在这些路线中,“原生”多模态大模型并没有被建立,仍是以语言模型为核心,将视觉等信号映射到语言模型上。而如果要让一个模型进入物理世界,完成感知、理解、推理与生成等任务,过于复杂的模型架构会降低其可靠性。

因此,理解与生成统一的原生多模态大模型,成为业界和学界共同探索的一道命题,智源研究院也是赶考人之一。

据王仲远介绍,Emu3实现多模态理解与生成统一的核心技术范式是“基于下一个token预测”,本质是将图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer。

王仲远指出,“基于下一个token预测”被认为是AGI的通路之一,但还没有在多模态任务中被证明过。Emu3证明了下一个token预测能在多模态任务中有高性能的表现,有机会将其基础设施建设收敛到一条技术路线上。

在大语言模型的预训练阶段,Scaling Law(规模法则)已经处在是否失效的争论中,但就多模态大模型的性能提升而言,王仲远认为还是一个“远没有打开”的状态。事实上,后者依旧基本上遵循Scaling Law,效果随着数据量和参数量的扩大而提升。

多模态大模型的下一步与大语言模型类似,将不断挑战千亿参数乃至万亿参数。并且,当前的多模态大模型也是稠密模型(Dense Model),它同样可以在下一阶段转向MoE(Mixture of Experts/混合专家模型)架构,以获得更快的理解与生成速度。

“所有在大语言模型上可能发生的路径发展趋势,在多模态大模型上都可以进一步得到验证。”不过王仲远预估,在可见的未来,Scaling Up的瓶颈可能会率先出现在算力上。

尽管AGI路径还没有形成共识,但智源研究院的选择已经很明确。王仲远对界面新闻记者表示,团队在语言模型上的投入将仅限于“解决共性问题”的部分,其余的研究资源将集中向多模态大模型进行倾斜。

至于为什么决定走上多模态理解与生成统一的路径,王仲远认为,智源的出发点还是在于定位“原始创新”,因为对现状不满足,所以必须要做下一代的探索。

虽已押注在当前道路,王仲远并不认可技术路线已经出现分水岭,“从产业界的资源投入上来看是可以看到的,但从技术研究路线上来说,永远都有争议。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普刚走不到3天,美贸易代表扬言:查到这个,会对中国行动

特朗普刚走不到3天,美贸易代表扬言:查到这个,会对中国行动

去山野间追风
2026-05-18 19:27:34
解放台湾,难上加难?中国解放台湾,到底存在哪些困难和阻碍?

解放台湾,难上加难?中国解放台湾,到底存在哪些困难和阻碍?

静夜史君
2026-05-11 23:59:39
地主恶霸刘文彩:子孙众多,后代回来祭拜,光饭菜就准备了200席

地主恶霸刘文彩:子孙众多,后代回来祭拜,光饭菜就准备了200席

阿器谈史
2026-05-11 15:43:13
《纽约时报》:美国可能正在准备抓捕卡斯特罗

《纽约时报》:美国可能正在准备抓捕卡斯特罗

桂系007
2026-05-17 23:58:01
连输两场彻底认怂!雅马哈天才车手:不是我不行,是中国赛车太强

连输两场彻底认怂!雅马哈天才车手:不是我不行,是中国赛车太强

行者聊官
2026-05-18 17:28:04
特朗普访华后高市早苗与其通话,外交部:日方应尽早回到睦邻友好和平发展的正道

特朗普访华后高市早苗与其通话,外交部:日方应尽早回到睦邻友好和平发展的正道

澎湃新闻
2026-05-18 15:34:26
5月18日 上海队传来3大消息 李秋平出谋划策 主队或面临连带 卢伟

5月18日 上海队传来3大消息 李秋平出谋划策 主队或面临连带 卢伟

奥字侃剧
2026-05-18 15:14:43
被辞退的保洁阿姨爆猛料:酒店提供的免费矿泉水,竟有这么多套路

被辞退的保洁阿姨爆猛料:酒店提供的免费矿泉水,竟有这么多套路

今朝牛马
2026-05-13 21:04:49
5月下旬,贵人悄然入局,事业迎来关键转机的三个星座,抓住风口

5月下旬,贵人悄然入局,事业迎来关键转机的三个星座,抓住风口

小晴星座说
2026-05-18 21:09:37
只有造假,才能“杰青”

只有造假,才能“杰青”

必记本
2026-05-16 09:42:33
有专家说出实话:现在低价卖掉房子的人,未来都将后悔?太真实

有专家说出实话:现在低价卖掉房子的人,未来都将后悔?太真实

蜉蝣说
2026-05-18 18:32:53
邱泽许玮甯公园遛娃,身上绑着腰凳将儿子举高高,一家三口超幸福

邱泽许玮甯公园遛娃,身上绑着腰凳将儿子举高高,一家三口超幸福

黔乡小姊妹
2026-05-18 08:18:28
52岁刘恺威中年失业,与女友分手,每天雷打不动接送孩子上学!

52岁刘恺威中年失业,与女友分手,每天雷打不动接送孩子上学!

玖宇维
2026-05-16 14:47:08
特朗普离京后,中方公布:500架波音梦碎,美方大单直接打骨折

特朗普离京后,中方公布:500架波音梦碎,美方大单直接打骨折

阿凫爱吐槽
2026-05-18 03:22:12
朝鲜修宪,金正恩绝不当第二个马杜罗,更不会当第二个哈梅内伊

朝鲜修宪,金正恩绝不当第二个马杜罗,更不会当第二个哈梅内伊

娱乐小可爱蛙
2026-05-18 15:50:06
看懂印度的危机,就懂了莫迪的绝境:印度为他的豪赌赔上了国运

看懂印度的危机,就懂了莫迪的绝境:印度为他的豪赌赔上了国运

夜里看海
2026-05-18 17:48:23
零跑正式拿下两大车企工厂!

零跑正式拿下两大车企工厂!

电动知家
2026-05-18 08:25:59
打破魔咒!哈登生涯至今首次客场抢七取胜

打破魔咒!哈登生涯至今首次客场抢七取胜

北青网-北京青年报
2026-05-18 21:12:44
吴石案最后潜伏者,隐姓埋名四十二载,晚年终平安归乡

吴石案最后潜伏者,隐姓埋名四十二载,晚年终平安归乡

磊子讲史
2026-03-27 17:12:08
萧旭岑事件获进展,马英九董事会将扩员,通告力挺赵少康有深意!

萧旭岑事件获进展,马英九董事会将扩员,通告力挺赵少康有深意!

不甜的李子
2026-05-18 18:48:19
2026-05-18 21:39:00
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1086897文章数 1334601关注度
往期回顾 全部

科技要闻

同一公司,有人奖金是6年工资,我却只有半年

头条要闻

河南商丘现自建"狼堡"成打卡点 村民称房主姓杨

头条要闻

河南商丘现自建"狼堡"成打卡点 村民称房主姓杨

体育要闻

58顺位的保罗,最强第三中锋

娱乐要闻

票房会破14亿!口碑第一电影出现了

财经要闻

中国芯片,怎么突然不便宜了?

汽车要闻

二排座椅能躺能转/三排座椅能收纳 零跑D99座舱玩法多样

态度原创

家居
本地
艺术
公开课
军事航空

家居要闻

观山隐秀 心灵沉淀

本地新闻

用苏绣的方式,打开江西婺源

艺术要闻

这才是帝王书法“尖子生“,水平完胜宋徽宗

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

莫斯科遭一年多来最大规模无人机袭击 3死18伤

无障碍浏览 进入关怀版