网易首页 > 网易号 > 正文 申请入驻

复旦等发布AnyGPT:任意模态输入输出,图像、文本、语音都支持

0
分享至

机器之心报道

机器之心编辑部

最近,OpenAI 的视频生成模型 Sora 爆火,生成式 AI 模型在多模态方面的能力再次引起广泛关注。

现实世界本质上是多模态的,生物体通过不同的渠道感知和交换信息,包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知能力,主要涉及多模态编码器与语言模型的集成,从而使其能够跨各种模态处理信息,并利用 LLM 的文本处理能力来产生连贯的响应。

然而,该策略仅限于文本生成,不包含多模态输出。一些开创性工作通过在语言模型中实现多模态理解和生成取得了重大进展,但这些模型仅包含单一的非文本模态,例如图像或音频。

为了解决上述问题,复旦大学邱锡鹏团队联合 Multimodal Art Projection(MAP)、上海人工智能实验室的研究者提出了一种名为 AnyGPT 的多模态语言模型,该模型能够以任意的模态组合来理解和推理各种模态的内容。具体来说,AnyGPT 可以理解文本、语音、图像、音乐等多种模态交织的指令,并能熟练地选择合适的多模态组合进行响应。

例如给出一段语音 prompt,AnyGPT 能够生成语音、图像、音乐形式的综合响应:



给出文本 + 图像形式的 prompt,AnyGPT 能够按照 prompt 要求生成音乐:





  • 论文地址:https://arxiv.org/pdf/2402.12226.pdf
  • 项目主页:https://junzhan2000.github.io/AnyGPT.github.io/

方法简介

AnyGPT 利用离散表征来统一处理各种模态,包括语音、文本、图像和音乐。

为了完成任意模态到任意模态的生成任务,该研究提出了一个可以统一训练的综合框架。如下图 1 所示,该框架由三个主要组件组成,包括:

  • 多模态 tokenizer
  • 作为主干网络的多模态语言模型
  • 多模态 de-tokenizer



其中,tokenizer 将连续的非文本模态转换为离散的 token,随后将其排列成多模态交错序列。然后,语言模型使用下一个 token 预测训练目标进行训练。在推理过程中,多模态 token 被相关的 de-tokenizer 解码回其原始表征。为了丰富生成的质量,可以部署多模态增强模块来对生成的结果进行后处理,包括语音克隆或图像超分辨率等应用。

AnyGPT 可以稳定地训练,无需对当前的大型语言模型(LLM)架构或训练范式进行任何改变。相反,它完全依赖于数据级预处理,使得新模态无缝集成到 LLM 中,类似于添加新语言。

这项研究的一个关键挑战是缺乏多模态交错指令跟踪数据。为了完成多模态对齐预训练,研究团队利用生成模型合成了第一个大规模「任意对任意」多模态指令数据集 ——AnyInstruct-108k。它由 108k 多轮对话样本组成,这些对话错综复杂地交织着各种模态,从而使模型能够处理多模态输入和输出的任意组合。





这些数据通常需要大量比特才能准确表征,从而导致序列较长,这对语言模型的要求特别高,因为计算复杂度随着序列长度呈指数级增加。为了解决这个问题,该研究采用了两阶段的高保真生成框架,包括语义信息建模和感知信息建模。首先,语言模型的任务是生成在语义层面经过融合和对齐的内容。然后,非自回归模型在感知层面将多模态语义 token 转换为高保真多模态内容,在性能和效率之间取得平衡。





实验

实验结果表明,AnyGPT 能够完成任意模态对任意模态的对话任务,同时在所有模态中实现与专用模型相当的性能,证明离散表征可以有效且方便地统一语言模型中的多种模态。

该研究评估了预训练基础 AnyGPT 的基本功能,涵盖所有模态的多模态理解和生成任务。该评估旨在测试预训练过程中不同模态之间的一致性,具体来说是测试了每种模态的 text-to-X 和 X-to-text 任务,其中 X 分别是图像、音乐和语音。

为了模拟真实场景,所有评估均以零样本模式进行。这意味着 AnyGPT 在评估过程中不会对下游训练样本进行微调或预训练。这种具有挑战性的评估设置要求模型泛化到未知的测试分布。

评估结果表明,AnyGPT 作为一种通用的多模态语言模型,在各种多模态理解和生成任务上取得了令人称赞的性能。

图像

该研究评估了 AnyGPT 在图像描述任务上的图像理解能力,结果如表 2 所示。

文本到图像生成任务的结果如表 3 所示。



语音

该研究通过计算 LibriSpeech 数据集的测试子集上的词错误率 (WER) 来评估 AnyGPT 在自动语音识别 (ASR) 任务上的性能,并使用 Wav2vec 2.0 和 Whisper Large V2 作为基线,评估结果如表 5 所示。





音乐

该研究在 MusicCaps 基准上评估了 AnyGPT 在音乐理解和生成任务方面的表现,采用 CLAP_score 分数作为客观指标,衡量生成的音乐和文本描述之间的相似度,评估结果如表 6 所示。



感兴趣的读者可以阅读论文原文,了解更多研究内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么说,张钧甯王传君《默杀》里的这场性暗示戏,一定要保留

为什么说,张钧甯王传君《默杀》里的这场性暗示戏,一定要保留

贾文彬的史书
2024-07-06 17:59:09
美国专家大胆预测,中国未来会发生三件大事儿,那是哪三件大事呢

美国专家大胆预测,中国未来会发生三件大事儿,那是哪三件大事呢

普陀动物世界
2024-07-07 13:11:10
63岁刘德华在上海开唱了!演唱会全场最幸福的莫过于这个伴舞了!

63岁刘德华在上海开唱了!演唱会全场最幸福的莫过于这个伴舞了!

小娱乐悠悠
2024-07-07 14:10:34
浙江首封录取通知书送达,签收人是女生,网友:还以为是浙江大学

浙江首封录取通知书送达,签收人是女生,网友:还以为是浙江大学

飞鱼的说说
2024-07-07 12:32:10
扎卡:现在我终于能说了,我带着肌肉撕裂的伤在踢,没法长传远射

扎卡:现在我终于能说了,我带着肌肉撕裂的伤在踢,没法长传远射

直播吧
2024-07-07 04:00:50
阿里走了,望京急了

阿里走了,望京急了

互联网早读课
2024-07-07 08:06:43
从明年开始,个人存款超过30万以上的家庭,或将面对“三大麻烦”

从明年开始,个人存款超过30万以上的家庭,或将面对“三大麻烦”

兰子记
2024-07-07 15:40:35
00后大学生崩溃吐槽毕业即失业,宿舍6个人5个无业1个继承家产

00后大学生崩溃吐槽毕业即失业,宿舍6个人5个无业1个继承家产

壹月情感
2024-07-05 14:57:27
“酱油大王”跌落神坛?代工厂停产、三年连亏、一家三口成老赖!

“酱油大王”跌落神坛?代工厂停产、三年连亏、一家三口成老赖!

农村阿祖
2024-07-05 21:58:52
三峡大坝有可能报废?淤泥堆积超18亿吨,究竟该如何治理?

三峡大坝有可能报废?淤泥堆积超18亿吨,究竟该如何治理?

娱乐的硬糖吖
2024-06-21 19:58:59
果然,数学天才少女姜萍被打假了!!

果然,数学天才少女姜萍被打假了!!

读史
2024-06-25 07:00:07
0元!碧桂园再曝大消息!

0元!碧桂园再曝大消息!

正商参阅
2024-07-05 19:00:23
平型关大捷其实是险胜,看完伤亡,毛主席:这样的仗,不能再打了

平型关大捷其实是险胜,看完伤亡,毛主席:这样的仗,不能再打了

文史旺旺旺
2024-06-20 18:44:19
特斯拉车友分享提车瞬间:价格都是其次,情绪价值直接拉满

特斯拉车友分享提车瞬间:价格都是其次,情绪价值直接拉满

特空间
2024-07-06 11:08:39
录取通知书上的“编号”是高考排名吗?过来人才知道,考生要注意

录取通知书上的“编号”是高考排名吗?过来人才知道,考生要注意

奇闻趣史录
2024-07-04 18:10:02
广东中堂:一工厂发生火灾,过火面积约300平方米

广东中堂:一工厂发生火灾,过火面积约300平方米

界面新闻
2024-07-07 13:53:24
女生会接受一个性能力不好的男朋友吗?评论区的回答惊呆上万读者

女生会接受一个性能力不好的男朋友吗?评论区的回答惊呆上万读者

社会潜伏者
2024-05-13 01:15:15
被U型锁砸头的李建利现状:蔡洋没赔一分钱,十年康复欠医院158万

被U型锁砸头的李建利现状:蔡洋没赔一分钱,十年康复欠医院158万

简读视觉
2024-07-04 23:20:02
突然发现马斯克的学习方法真的很棒,有点遗憾,没有早点看到!

突然发现马斯克的学习方法真的很棒,有点遗憾,没有早点看到!

优米MaMa
2024-07-04 16:44:04
A股突发重磅利好,比降印花税还激动,我要告诉你真心话

A股突发重磅利好,比降印花税还激动,我要告诉你真心话

一丛深色花儿
2024-07-07 11:04:25
2024-07-07 18:50:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9149文章数 141951关注度
往期回顾 全部

科技要闻

临时加关税 欧版"元PLUS"成本涨近8000欧元

头条要闻

媒体:斯塔默会更强调英国自身利益 这对中国是好消息

头条要闻

媒体:斯塔默会更强调英国自身利益 这对中国是好消息

体育要闻

转发这篇索斯盖特,你也能运气爆棚!

娱乐要闻

49岁林志玲在日本带娃被偶遇

财经要闻

齐创阶段新高 一线城市楼市又可以了?

汽车要闻

18.98万起 宝马新电动MINI COOPER上市

态度原创

艺术
手机
健康
数码
公开课

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

手机要闻

iOS Epic Games 应用商店在欧盟上线遇阻,苹果不满其按钮设计

人类为何至今无法攻克渐冻症?

数码要闻

HELLO GANSS FLX3 三模游戏鼠标开启预售:PAW3395、55g,99 元起

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版