网易首页 > 网易号 > 正文 申请入驻

西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」

0
分享至

新智元报道

编辑:LRS

【新智元导读】DALL·E 3让我们看到了生成+理解的大语言模型的魔力。就在其发布的同一天,国内的一个新工作引起了社区的关注:DreamLLM。DreamLLM实现了协同学习的多模态理解和生成的大一统,能端到端进行生成和理解,这是否有望成为未来「DALL·E 4」的技术路线?

想象一下,如果AI已经能够帮助你完成一个图文并茂的文档,而不是仅有文字部分的内容,你会拿来干什么?

例如,问问自己假期想去的旅游城市是什么样的?

或者聊聊自己喜欢的电影?

或者,你只需要你的大语言模型用图片给你展示一些你想象中的画面?(文生图)

an astronaut riding a horse in a photorealistic style/in the style of Pop Art/as a charcoal sketch/as a golden relief.

一位宇航员骑着一匹马的真实照片/波普艺术风格画(Pop Art)/炭笔素描/金色浮雕。

robots meditating in a vipassana retreat.

机器人在观禅闭关中冥想。

Downtown Istanbul/Austin/Beijing/LA at sunrise. detailed ink wash.

日出时的伊斯坦布尔/奥斯汀/北京/洛杉矶。详细的水墨画。

Oil-on-canvas painting of a blue night sky with roiling energy. A fuzzy and bright yellow crescent moon shining at the top. Below the exploding yellow stars and radiating swirls of blue, a distant village sits quietly on the right. Connecting earth and sky is a flame-like cypress tree with curling and swaying branches on the left. A church spire rises as a beacon over rolling blue hills.

油画作品,描绘了一个蓝色夜空中翻滚的能量。顶部有一轮模糊而明亮的黄色新月在闪耀。在爆炸的黄色星星和辐射着蓝色涡旋下方,一个遥远的村庄静静地坐落在右侧。连接大地和天空的是一棵像火焰般的柏树,在左侧卷曲摇摆着枝干。教堂尖塔高耸于起伏的蓝山之上,像一个灯塔。

这些结果来自于国内研究人员的最新研究DreamLLM,全新的多模态生成理解统一大模型。能生成能理解,图文并茂的内容也可以生成了!

论文地址:https://arxiv.org/abs/2309.11499

项目地址:https://dreamllm.github.io/

GitHub:https://github.com/RunpeiDong/DreamLLM

诸如DALL·E 3、Midjourney此类文生图模型,是否能对多模态大语言模型的理解起到帮助呢?在这篇论文中,研究人员提出了「协同多模态生成和理解」,即生成能够帮助理解,理解也能帮助生成。

正如费曼在1988年去世之前写在他的办公室黑板上的名言:「What I cannot create, I do not understand」。

这句话的含义是说,如果你不能创造一个东西,那么你就无法真正理解它。

费曼相信,真正的理解源于能够从头构建或重建某事物的能力。这是他的科学哲学的一个核心部分,也是他作为一位教师和科学家的教学方法的基础。

技术介绍

DreamLLM的模型作为一个多模态大语言模型,包含一个大语言模型逻辑核心、多模态输入编码器和数据生成解码器,其设计思想主要遵循两大原则:

生成一切

与生成中间图像语义表示(如CLIP嵌入)的现有工作不同,在训练过程中,DreamLLM不仅将所有模态的原始数据作为输入,而且以真正端到端的方式将其作为输出。其中的挑战在于使多模态大语言模型能够学习图像后验而不损害其理解能力。

为了解决这个问题,作者引入了可学习嵌入集合「dream queries」,这些嵌入封装了由多模态大语言模型编码的语义信息。这种方法避免了改变多模态大语言模型的输出空间。

然后,原始图像通过基于这些语义作为生成条件的Stable Diffusion扩散图像生成解码器进行解码生成。

通过预训练Stable Diffusion充当得分函数(「score function」),直接在像素空间中对图像后验进行建模,并借助得分蒸馏实现直接采样。

图文交错文档的生成式预训练(Interleaved-GPT, I-GPT)

DreamLLM经过训练,可以使用互联网上图文交错的多模态语料库进行生成式预训练,既编码又解码交错的图文多模态输入。

与现有方法中将多模态输入进行编码不同,解码交错的多模态输出具有挑战性,因为它涉及复杂的交错布局结构和对图像的长期上下文要求。

作者使用一个独特的标记来处理交错布局学习,该标记预测了图像在文本中的位置。利用DreamLLM大语言模型的因果关系特性,所有内容都是根据任意长度的历史多模态上下文生成的。

这种交错生成预训练(I-GPT)固有地形成了文档中图像和文本的所有联合、边际和条件分布,并导致了一种学习协同作用,在创造中促进使DreamLLM的理解,反之亦然。

下面这张图可以直观的看出DreamLLM和现有图文多模态大模型的差异:

(a)类似于CLIP的模型一般使用双塔结构明确对齐图文语义表示。

(b)类似于Flamingo/多模态大语言模型将图文表示编码至统一的流形空间。然而,这些模型缺乏完全自回归性能力,因为它们只输出语言。

(c)另一类工作将视觉输出与CLIP表示进行对齐,但此对齐发生在一个中间语义空间而不是原始数据空间。由于固有的模态差距,CLIP语义主要关注「共享模态知识」,往往忽视了可能增强多模态理解的「特定模态知识」。

另外,根据信息瓶颈理论,CLIP学习的图文「不变性」(invariance知识)目标会导致大量信息的丢失。

对齐CLIP也会导致像Emu这样的模型生成原始图像需要进行第二阶段扩散图像生成模型的微调,这些模型也无法生成原始的图文并茂的文档。

(d)相比较而言,DreamLLM以统一自回归方式生成原始语言和图像输入,实现了图文信号的完全自回归建模,因此天然支持图文并茂的文档生成。

实验结果

DreamLLM在多项零样本多模态图文理解和生成任务上取得先进的效果。

零样本多模态理解(文+图-> 文)

零样本文生图(文->图)

零样本in-context(上下文)图像编辑

零样本subject-driven(主体驱动)图像生成

零样本物体组合生成(文+图->图)

多模态上下文理解是多模态大语言模型的一个关键新兴能力。

虽然在上下文视觉问答方面已经取得了重大进展,但在上下文图像生成方面仍相对不足。DreamLLM的多模态上下文条件图像合成能力如上图所示,为该领域提供了有希望的见解。

然而,零样本上下文图像编辑、主题驱动的图像生成和组合式生成等任务中仍存在显著挑战,特别是没有像DreamBooth中的下游微调或Prompt2Prompt中的注意力修改技术。

尽管存在这些障碍,DreamLLM根据提供的图像上下文生成图像的能力。这种能力表明DreamLLM在保持主题、身份和语义上下文方面具有潜在的前景,从而为解决这些复杂任务铺平了一条新路。

多模态对话样例(文+图->文+图)

艺术和生活:

动物:

文字:

人文:

对比GPT-4

结论与讨论

DreamLLM首次实现了大语言模型LLM的具有协同促进作用的多模态内容创作和理解的学习,充分探索了多模态理解和生成的协同效应。

通过在多模态原始数据空间采样进行完全的自回归建模,在大量极易获取的互联网图文混排数据上训练,激发出诸如图文交互对话、图文并茂文档的自由生成、文生图、零样本subject-driven image generation等多模态理解和生成任务。

对比DALL·E 3的ChatGPT和生成的组合系统方案,DreamLLM迈向了更进一步的端到端学习,展现出未来可能超越DALL·E 3的巨大潜力。

当然,我们离人类水平的智能还有很长的距离。对于生成模型存在偏见、安全性和滥用问题也引起了关注,但是像DreamLLM这样的框架为未来更具能力和合作性的AI助手指明了方向。

该项工作对关键点是在图像和文本中共同训练生成能力可以带来更出色的理解力和创造力。

随着AI不断跨越多种形式,找到感知、推理和创作之间的协同效应将开辟前进之路。

这种多模态生成模型对我们与人工智能系统的互动方式可能具有革命性的影响。

想象一下,你可以要求个人助理不仅描述一个概念,还可以生成或编辑一张图片来说明它,或者通过描述而不是关键词在互联网上搜索媒体内容,实现视觉和语言的流畅共同理解和生成是迈向更自然、直观的人机交互的基石。

参考资料:

https://dreamllm.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
U17中国vs澳大利亚:帅惟浩搭档赵松源,何思凡、万项、邝兆镭首发

U17中国vs澳大利亚:帅惟浩搭档赵松源,何思凡、万项、邝兆镭首发

懂球帝
2026-05-20 01:31:38
1990年德国统一代价:割让19万平方公里领土永不收复,割肉求生

1990年德国统一代价:割让19万平方公里领土永不收复,割肉求生

掠影后有感
2026-05-18 11:35:54
5月16日,中方动手了,大批舰艇掩护“向阳红33”号靠近铁线礁!

5月16日,中方动手了,大批舰艇掩护“向阳红33”号靠近铁线礁!

安安说
2026-05-19 13:23:37
回国后才敢说!中国人习以为常的事,外国人却无法理解

回国后才敢说!中国人习以为常的事,外国人却无法理解

老特有话说
2026-05-19 16:46:36
以色列至今都不敢相信,一场战争竟然打掉了自己一个多世纪的国运

以色列至今都不敢相信,一场战争竟然打掉了自己一个多世纪的国运

一网打尽全球焦点
2026-05-19 17:29:36
马刺0-1落后!福克斯缺阵西决首战,文班亚马单挑卫冕冠军雷霆

马刺0-1落后!福克斯缺阵西决首战,文班亚马单挑卫冕冠军雷霆

慢享生活集
2026-05-20 02:23:27
“订单排到2027年”!除了芯片,它也爆火!全球资本涌入

“订单排到2027年”!除了芯片,它也爆火!全球资本涌入

环球网资讯
2026-05-19 19:45:56
郭昊文4年顶薪加盟辽篮?虽然小刘总手握3顶薪,但不太可能引进他

郭昊文4年顶薪加盟辽篮?虽然小刘总手握3顶薪,但不太可能引进他

君马体育
2026-05-20 00:02:33
淞沪会战放在全球战场,属于什么水平?答案超乎你想象

淞沪会战放在全球战场,属于什么水平?答案超乎你想象

何氽简史
2026-05-18 22:17:11
江苏一学院已正式更名为大学

江苏一学院已正式更名为大学

掌上常熟
2026-05-19 23:39:41
突然动手!菲律宾参议院“红袍”开庭,莎拉·杜特尔特遭弹劾

突然动手!菲律宾参议院“红袍”开庭,莎拉·杜特尔特遭弹劾

菁菁子衿
2026-05-19 11:20:35
警惕:上了年纪再过性生活,最怕这2点!保护男性精气,做好4点

警惕:上了年纪再过性生活,最怕这2点!保护男性精气,做好4点

医学科普汇
2026-05-18 17:45:05
新加坡蚊子去哪了?全球搞不定的事,一个热带小国却用50年做到了

新加坡蚊子去哪了?全球搞不定的事,一个热带小国却用50年做到了

狸猫之一的动物圈
2026-05-18 09:55:25
16岁139天,道曼超越福登成为英超历史最年轻冠军球员

16岁139天,道曼超越福登成为英超历史最年轻冠军球员

懂球帝
2026-05-20 04:50:15
北京男篮大将膝盖伤病严重,深圳大将赛季报销,徐昕办理出国手续

北京男篮大将膝盖伤病严重,深圳大将赛季报销,徐昕办理出国手续

中国篮坛快讯
2026-05-19 15:31:02
微塑料致癌又添新证据!从进入身体到助长肿瘤,仅4步

微塑料致癌又添新证据!从进入身体到助长肿瘤,仅4步

人民日报健康客户端
2026-05-18 20:37:19
歌手2026官宣,首发阵容正式曝光,我难掩激动,期待的都来了!

歌手2026官宣,首发阵容正式曝光,我难掩激动,期待的都来了!

娱乐圈笔娱君
2026-05-18 16:24:35
金特尔:维拉是更被看好的一方,但决赛一切皆有可能

金特尔:维拉是更被看好的一方,但决赛一切皆有可能

懂球帝
2026-05-20 05:01:11
官方:南安普顿被取消升级附加赛资格,米德尔斯堡递补

官方:南安普顿被取消升级附加赛资格,米德尔斯堡递补

懂球帝
2026-05-20 02:13:42
特朗普:我很震惊黄仁勋竟然没有私人飞机,临时来华是因为他没提前申请

特朗普:我很震惊黄仁勋竟然没有私人飞机,临时来华是因为他没提前申请

西虹市闲话
2026-05-18 18:21:07
2026-05-20 05:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15254文章数 66877关注度
往期回顾 全部

科技要闻

马斯克败诉,法院判他起诉OpenAI太晚了

头条要闻

媒体:特朗普为何抛涉台"四不"说法 鲁比奥解释清楚了

头条要闻

媒体:特朗普为何抛涉台"四不"说法 鲁比奥解释清楚了

体育要闻

文班亚马:没拿到MVP,就证明自己是MVP

娱乐要闻

姚晨删博难平众怒,为什么她还能蹦哒

财经要闻

洁丽雅硬刚豪门内斗传言

汽车要闻

焕新极氪009上市41.38万起 齐家版让MPV回归家庭

态度原创

游戏
房产
健康
亲子
军事航空

PS严重安全漏洞!大量账号被盗 索尼官方依旧沉默

房产要闻

7516元/㎡,161套一次全甩!海口住宅最低价出现了!

专家揭秘干细胞回输的安全风险

亲子要闻

小汽车吃冰淇淋 #大型挖掘机挖土玩具

军事要闻

特朗普暂缓打击伊朗 称系应中东三国请求

无障碍浏览 进入关怀版