网易首页 > 网易号 > 正文 申请入驻

谷歌创新框架:从非结构化数据,实现多模态学习

0
分享至

看、听、说的多模态已成为主流大模型的重要功能之一。但在数据爆炸时代,大模型学习文本类的结构化数据相对还好一些,但要去学习视频、音频、图片等非结构化数据非常困难。

目前,从结构化和非结构化数据实现多模态学习,会随着模态数量、输入大小和数据异构性的增加,深度神经网络会变过拟合和泛化效果不佳。

尤其是当在规模有限的数据集上训练时,这一状况就越发明显,例如,经常表现出非平稳行为的时间序列数据。因此,谷歌提出了创新框架LANISTR来解决这些难题。

论文地址:https://arxiv.org/pdf/2305.16556



LANISTR是一个基于注意力机制的框架,其核心思想是在单模态和多模态层面上应用基于掩码的训练。

还特别引入了一种新的基于相似度的多模态掩码损失,使其能够从存在缺失模态的大型多模态数据中学习跨模态之间的关系。

多模态融合编码器

现实数据经常以复合形式存在,单一模态的数据往往不足以捕捉事件的全貌。例如,在医疗诊断中,临床报告和MRI扫描图像才能展现患者状况的全面视图;而在电子商务中,商品描述与销售历史(时间序列)相结合才能更好地预测市场需求。

因此,一个好用的多模态大模型,必须具备将这些分散信息源综合的能力。为了实现这一目标,LANISTR采用了基于Transformer架构的交叉注意力机制。



多模态融合编码器可将来自各模态的嵌入向量首先被串联起来,然后通过一系列的Transformer层进行处理

在这些层中,交叉注意力机制发挥了重要作用,允许模型在不同的模态表示之间自由“询问”和“回答”,使每个模态的特征都能关注其他模态的特征,并根据它们的相关性和重要性进行加权整合。

这一流程与人脑思考有些类似,可根据上下文和情境在不同感官信号间切换注意力,从而实现信息的高效整合。

4种编码器介绍

LANISTR中的多模态融合编码器一共由文本、图像、表格和时间序列4种编码器组成,每种模态都有其独特的表达方式和信息结构。这种机制不仅增强了对单个模态特征的理解,还促进了模态间的交互学习,从而对整个场景有了更加全面的认识。



文本编码器:基于Transformer架构主要处理文本数据。通过掩码语言方法进行预训练,随机掩盖文本中的部分词汇,让模型学习预测这些被掩盖词的能力。这种机制促使模型理解词语间的依赖关系和语境含义,从而提取出丰富的语言特征。

图像编码器:采用Vision Transformer架构用于处理视觉数据。可将图像分割成多个小块,并将这些块视为序列输入到Transformer中,通过自注意力机制学习图像的高层次特征,还会使用掩码图像建模方法,通过重建被掩码的像素或特征来训练,以提取图像的视觉特征。



表格编码器:使用了定制的神经网络结构,针对分类特征的嵌入层来编码每一列数据的特征。考虑到表格数据的稀疏性和多样性,了集成特征选择或降维技术,以聚焦于最有信息量的特征。

时间序列编码器:由于大模型需要捕捉随时间变化的动态模式,时间序列编码器使用了循环神经网络方法,长短时记忆网络和门控循环单元。通过对序列进行建模提取出时间序列的模式和趋势,为后续的多模态融合准备数据。

研究人员在两个数据集上测试了LANISTR的性能,在MIMIC-IV数据集上,当仅使用0.1%的有标签数据进行微调时,模型的AUROC相比最先进的方法提高了6.6%。

在亚马逊产品评论数据集中,仅使用0.01%的有标签数据,模型的准确率提升了14%。值得一提的是,这些改进是在高达35.7%和99.8%的样本存在模态缺失的情况下完成的,这更加证明了LANISTR的多模态学习能力。

本文素材来源LANISTR论文,如有侵权请联系删除



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上梁不正下梁歪!地铁风波老人女儿拒承认错误,老了可以为所欲为

上梁不正下梁歪!地铁风波老人女儿拒承认错误,老了可以为所欲为

亿通电子游戏
2024-07-02 11:44:47
中国正在面临世界性难题:年轻人不再相信股市了

中国正在面临世界性难题:年轻人不再相信股市了

芒果的爱pMgf
2024-07-02 11:42:56
王一新,被逮捕

王一新,被逮捕

环球时报新闻
2024-07-02 12:00:48
为啥如今火箭升空无人问津,反腐也失去兴趣?我们宽容过了头吗?

为啥如今火箭升空无人问津,反腐也失去兴趣?我们宽容过了头吗?

森罗万象视频
2024-07-01 10:00:13
女主任得罪局长被免职,有一天,做市长的舅舅来局里找她

女主任得罪局长被免职,有一天,做市长的舅舅来局里找她

乔生桂
2024-06-16 16:46:54
天价转会新疆,郭艾伦归来,库珀出局?离队曝光,辽宁外援大洗牌

天价转会新疆,郭艾伦归来,库珀出局?离队曝光,辽宁外援大洗牌

九霄云者
2024-07-02 11:00:22
暴雨后武汉一路面局部塌陷!应急部门紧急回应

暴雨后武汉一路面局部塌陷!应急部门紧急回应

鲁中晨报
2024-07-02 13:03:13
韩声援菲律宾,不许改变南海现状,不到72小时,中方宣布对韩征税

韩声援菲律宾,不许改变南海现状,不到72小时,中方宣布对韩征税

史纪文谭
2024-06-30 15:43:36
心疼!张志杰去世:疑似生前疲惫,有人预言去世,林丹曝行业内幕

心疼!张志杰去世:疑似生前疲惫,有人预言去世,林丹曝行业内幕

小淇言说
2024-07-02 13:47:17
144小时免签之后,美国动手了,阻扰视频传播,调高中国风险等级

144小时免签之后,美国动手了,阻扰视频传播,调高中国风险等级

怪口历史的K先生
2024-07-01 12:41:49
上海市政府发布一组人事任免信息

上海市政府发布一组人事任免信息

界面新闻
2024-07-02 14:28:39
终于!正式停止下载!网友:时代的眼泪……

终于!正式停止下载!网友:时代的眼泪……

中国基金报
2024-07-01 00:16:52
37岁李敏镐发福变双下巴,脸部变得圆润,差点没认出来

37岁李敏镐发福变双下巴,脸部变得圆润,差点没认出来

素素娱乐
2024-07-02 09:28:48
晚节不保!老艺术家阎维文:身穿7000元一件的卫衣,开辅导班圈钱

晚节不保!老艺术家阎维文:身穿7000元一件的卫衣,开辅导班圈钱

蜉蝣说
2024-07-01 23:09:55
网传百度江苏常州代理停业解散!离职补偿0.25n,员工感叹心寒…

网传百度江苏常州代理停业解散!离职补偿0.25n,员工感叹心寒…

火山诗话
2024-07-02 05:17:46
高管菲律宾被害:出差细节曝光,消失的第三人和美女经销商是关键

高管菲律宾被害:出差细节曝光,消失的第三人和美女经销商是关键

吭哧有力
2024-07-02 09:55:47
王岐山:在中国谁最有远见?

王岐山:在中国谁最有远见?

霹雳炮
2024-06-29 23:03:01
罐车卸完煤制油直接装运食用大豆油

罐车卸完煤制油直接装运食用大豆油

星星之火亦可燎原
2024-07-02 11:35:14
言承旭为68岁陈美凤庆生,关系暧昧12年未缺席,女方眼睛都看直了

言承旭为68岁陈美凤庆生,关系暧昧12年未缺席,女方眼睛都看直了

开开森森
2024-07-02 12:22:44
韩媒:韩对华出口降幅创近40年之最

韩媒:韩对华出口降幅创近40年之最

参考消息
2024-07-02 11:01:07
2024-07-02 15:08:49
AIGC开放社区
AIGC开放社区
AIGC开放社区是专注于AIGC(生成式人工智能)领域的开放性社区
341文章数 51关注度
往期回顾 全部

科技要闻

旧车比新车贵,比亚迪断了二手车贩子活路

头条要闻

媒体:若特朗普获胜会继续对抗中国 但可能走向极端

头条要闻

媒体:若特朗普获胜会继续对抗中国 但可能走向极端

体育要闻

曾因失误被嘲讽 今夜他是葡萄牙的超级英雄

娱乐要闻

未火先塌?流量的路子不好走啊

财经要闻

酒鬼酒甜蜜素风波后再迎人事变动

汽车要闻

长城NOA系统勇闯重庆 魏建军:挑战智驾上限

态度原创

旅游
数码
手机
游戏
公开课

旅游要闻

官宣!黄鹤楼公园等55家武汉旅游景区今起免预约!

数码要闻

蓝戟A770显卡艾尔登法环黄金树幽影联名版评测

手机要闻

realme 真我 13 Pro / 小米 Redmi Note 14 Pro 系列手机草图曝光

PSN网络目前因故障无法使用 官方发文致歉

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版