网易首页 > 网易号 > 正文 申请入驻

科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力

0
分享至

“同行们认为我们用大模型把音乐理解和生成结合在一起的想法比较新颖,论文也是多模态大模型领域的先期工作之一。

并且,除了大模型本身,我们提出的针对模型训练的数据集制作流程和整理的数据集,对学术界也具有较大价值。”腾讯 ARC Lab 研究员表示。


图丨刘山松(来源:)

近期,他所在的腾讯 ARC Lab 团队与新加坡国立大学 助理教授课题组联合开发了一种多模态音乐理解与生成大模型 M2Ugen,能够满足用户对音乐理解和生成的需求,填补了多模态大模型在音乐领域的空白。

具体来说,该模型不仅可以理解音乐,还能在此基础上生成音乐。

前者指的是不但能对输入的音乐文件进行描述性的注解,而且可以回答用户与输入音乐文件相关的问题,比如音乐中包含哪些乐器等。

后者指的是不仅可以根据用户指令生成音乐,比如生成一段吉他弹奏的音乐,还能根据用户输入的图像或视频生成音乐。


图丨通过 M2Ugen 大模型进行多模态音乐理解和生成(来源:arXiv)

近日,相关论文以《M 2 Ugen :借助大型语言模型的力量进行多模态音乐理解和生成》()为题在预印本平台 arXiv 上发表[1]。

和新加坡国立大学阿廷·萨克克尔·侯赛因()是第一作者,和 、腾讯 ARC Lab 担任共同通讯作者。

图丨相关论文(来源:arXiv)

当前,大语言模型领域正在蓬勃发展。该领域的从业者或利用它强大的推理能力,理解文本、图像等模态;或通过它理解人类意图,并生成图像、音乐等用户需要的内容。

然而,过去大多数基于大语言模型的研究仍然侧重于理解层面,只有少量将理解和生成结合起来的相关研究。

但具体到实际应用场景,用户对于理解和生成的需求往往是交织存在的。

例如,每到年末,许多员工都需要制作年终总结 PPT。如果想借助大语言模型完成这项工作,那么它不仅要具有理解能力,以便用户从中获得符合用户想法的 PPT 模版风格,还要拥有生成文字和插图的能力。

因此,理解和生成能力有必要被融合到同一款模型中。

就该成果而言,该团队为何选择将音乐作为研究的切入点?

据介绍,他在读博期间就从事音频研究,对音乐有着较为浓厚的兴趣。工作以后又发现许多用户都有配乐的实际需求。

“比如,视频制作者要想快速积累粉丝,就要制作出一个爆款视频引流。其中,选择合适的配乐非常重要。

不过,音乐对艺术鉴赏水平有一定要求,那些普通用户在选择时往往面临困难。此时就需要有一个能够帮助他们选择合适配乐,并提高创作效率的小助手。”表示。

另外,值得一提的是,该成果也是该课题组在前序研究 MU-LLaMA[2]基础上的延续。据了解,后者主要集中于单一的音乐理解任务,而 M2Ugen 则是在音乐理解的基础上,增加由多模态信息引导的音乐生成能力,让模型不仅仅可以理解音乐,也能够创作音乐。

“我们在 2023 年 9 月完成 MU-LLaMA 的投稿后,就开始了对 M2Ugen 的研究。”表示。

在调研和确定研究现状和研究目标之后,研究人员先选用 MERT、ViT 和 ViViT 这三个特征处理器,来分别处理音乐、图像和视频输入。

接着,将编码器的输出引入所选用的 LLaMA2 开源大模型,让其能够理解、处理多模态的输入,进而为下游任务做决策。

然后,再将理解和生成任务巧妙地结合在同一个大模型中。

最后,通过探索 AudioLDM 2 和 MusicGen 两款模型的使用,让模型得以具备生成音乐的能力。

在完成模型架构设计的基础上,他们搜集了目前市场上可以找到的所有开放版权音乐,并利用 MU-LLaMA 和一些视觉基础模型来生成文本/图像/视频到音乐的多模态数据集,从而助力 M2Ugen 模型的训练。

需要说明的是,拥有更多优质的开放数据,是发展生成式 AI 的关键。

“如果未来我们能够与更多专业机构合作,得到更多高质量的音乐训练数据,并解决版权和标注数据质量的问题,就能完成对该模型性能和表现的更进一步迭代。” 表示。

在后续研究中,他们将继续迭代优化模型性能,提升模型泛化性,以更好地适应国内用户的需求。

参考资料:

1.S., Liu, A., Hussain.et al. M2Ugen: Multi-modal Music Understanding and Generation with the Power of Large Language Models. arXiv:2311.11255. https://doi.org/10.48550/arXiv.2311.11255

2. S., Liu, A., Hussain.et al. Music Understanding LLaMA:Advancing Text-To-Music Generation with Question Answering And Captioning. arXiv:2308.11276v1. https://arxiv.org/abs/2308.11276

运营/排版:何晨龙

01/

02/

03/

04/

05/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一天三四次!56岁大妈患上肛门癌,丈夫痛哭道:根本不知道有害

一天三四次!56岁大妈患上肛门癌,丈夫痛哭道:根本不知道有害

奇妙的本草
2024-09-27 19:00:03
打蛇不打头!很多人都不懂,野外遇到蛇千万别打头

打蛇不打头!很多人都不懂,野外遇到蛇千万别打头

西方寻史
2024-09-28 18:53:57
前脚炸烂真主党,后脚千里奔袭胡塞,看以色列打出个新世界

前脚炸烂真主党,后脚千里奔袭胡塞,看以色列打出个新世界

近距离
2024-09-30 10:02:10
交易戈贝尔!再见唐斯!NBA最疯狂球队诞生,华子没有退路

交易戈贝尔!再见唐斯!NBA最疯狂球队诞生,华子没有退路

世界体育圈
2024-09-29 11:42:55
哪些歌词一听就知道作词人文化水平不高?网友:我说寒山别哭…

哪些歌词一听就知道作词人文化水平不高?网友:我说寒山别哭…

阿康四岁啦
2024-09-29 12:36:39
看了袁弘的42岁生日宴,才明白张歆艺,为何离开宠她8年的王志飞

看了袁弘的42岁生日宴,才明白张歆艺,为何离开宠她8年的王志飞

我是娱乐哥
2024-09-28 10:48:23
中国科技大学教授杨子江:现在特斯拉自动驾驶已经比人开车更安全!自动驾驶里程数特斯拉远超其它车企总和

中国科技大学教授杨子江:现在特斯拉自动驾驶已经比人开车更安全!自动驾驶里程数特斯拉远超其它车企总和

和讯网
2024-09-29 11:07:57
后劲太大,《黑神话》通关之后痿了,玩其他游戏都不香了

后劲太大,《黑神话》通关之后痿了,玩其他游戏都不香了

街机时代
2024-09-30 10:23:02
郑钦文VS波多罗斯卡,开球时间敲定,央视独宠她,晋级奖金有多少

郑钦文VS波多罗斯卡,开球时间敲定,央视独宠她,晋级奖金有多少

体育大学僧
2024-09-29 13:24:26
“严重异常排队”!网易故意的?关于暴雪游戏回归的最新回应……

“严重异常排队”!网易故意的?关于暴雪游戏回归的最新回应……

证券时报e公司
2024-09-30 12:36:26
大陆终于“摊牌”?解放军就收台时间交底,国务院宣布一重大决定

大陆终于“摊牌”?解放军就收台时间交底,国务院宣布一重大决定

精英出鞘官方
2024-09-26 21:00:17
惨烈!突然倒塌!事发北京一小区!

惨烈!突然倒塌!事发北京一小区!

美丽大北京
2024-09-29 14:59:39
三峡工程钉子户张秉爱:1992年全村搬迁她不走,如今过得怎么样?

三峡工程钉子户张秉爱:1992年全村搬迁她不走,如今过得怎么样?

农村教育光哥
2024-09-29 10:50:49
拆开了这台38万公里的纯电车之后,油车车主沉默了...

拆开了这台38万公里的纯电车之后,油车车主沉默了...

老郭机械局
2024-09-29 19:34:52
中国两代主战坦克同时亮相北非沙漠!与美国M1坦克比拼,一点不怂

中国两代主战坦克同时亮相北非沙漠!与美国M1坦克比拼,一点不怂

虹摄库尔斯克
2024-09-28 20:35:38
刚刚明确:暴雨,大暴雨!“山陀儿”连升7级成为超强台风!路径又调整!

刚刚明确:暴雨,大暴雨!“山陀儿”连升7级成为超强台风!路径又调整!

FM93浙江交通之声
2024-09-30 10:07:54
我国新型涡轴发动机研制成功,直9获新生,弥补大批战舰反潜不足

我国新型涡轴发动机研制成功,直9获新生,弥补大批战舰反潜不足

笑谈历史阿晡
2024-09-28 11:44:29
有些正史,让人不寒而栗

有些正史,让人不寒而栗

最爱历史
2024-09-28 21:01:42
三亚一空姐被农村小伙子追求,嫁给他半年后,才知丈夫真实身份

三亚一空姐被农村小伙子追求,嫁给他半年后,才知丈夫真实身份

五元讲堂
2024-09-30 09:54:07
内部兵变,全城被包围!只有死路一条,突围失败几百人纷纷投降

内部兵变,全城被包围!只有死路一条,突围失败几百人纷纷投降

美人茶话会
2024-09-30 11:09:07
2024-09-30 13:08:49
DeepTech深科技
DeepTech深科技
麻省理工科技评论独家合作
14278文章数 512758关注度
往期回顾 全部

科技要闻

六大车企围殴特斯拉Model Y 自己先打起来

头条要闻

女子称儿子在夏令营遭体罚致横纹肌溶解:等于残疾了

头条要闻

女子称儿子在夏令营遭体罚致横纹肌溶解:等于残疾了

体育要闻

布云朝克特:男网又多了一只鹰

娱乐要闻

王楚然,悄无声息中成了年度大赢家

财经要闻

创业板指涨超11% 两市成交超1.66万亿

汽车要闻

焕新上市 全新凯迪拉克XT5售26.59万起

态度原创

家居
亲子
手机
房产
健康

家居要闻

琴瑟和鸣 中式庭院风

亲子要闻

高情商的儿子,被儿子教育一顿!

手机要闻

杨幂巴黎时装周手持华为Mate XT三折叠拍照:八角星钻比iPhone更吸睛

房产要闻

史诗级利好来了!三亚一天卖地28亿!中旅、城投纷纷下场!

花18万治疗阿尔茨海默病,值不值?

无障碍浏览 进入关怀版