网易首页 > 网易号 > 正文 申请入驻

浅谈中文多模态的预训练模型

0
分享至

近年来,基于多模态数据的语义理解与认知探索成为了人工智能领域的一个重要研究热点,旨在使计算机拥有针对多种模态数据的表示、计算与推理能力。实际上,人类的认知是基于多模态信息产生的,比如人可以同时利用视觉和听觉信息理解说话者的情感,可以通过视觉信息补全文本中的缺失信息等。多模态数据建模是使模型模仿人类处理多模态信息的方式,将不同模态信息进行融合,学习不同模态信息之间的关联,从而可以融合视觉、听觉和自然语言信息,进行数据语义的综合理解。多模态预训练模型是学术界内一种流行的通用技术范式,能够利用互联网上大量无标注的多模态数据设计自监督的学习任务,从而进行模型的学习,达到对数据的语义理解。
目前,多模态预训练模型已经能够在多个下游的多模态数据挖掘任务(如以文搜图等)中取得比专门针对这些任务设计的监督模型更佳的效果。然而,如何设计好的自监督学习任务,使多模态预训练模型在广泛的下游任务上的效果得到整体提升,以及如何充分利用大量无标注多模态数据的内在语义模式,都需要进一步探索。此外,基于中文的多模态预训练模型更是鲜有研究,已有的预训练模型还无法直接应用于中文语境。
多模态预训练模型的概念和近期研究工作
大规模预训练模型始于文本领域,已经成为自然语言处理中的一种通用模型范式。它可以利用海量的无标注文本数据进行预训练,使模型进行自监督学习,从而在多种自然语言处理任务上取得显著的性能提升(如BERT、GPTP等)。随着单模态预训练模型的逐渐成熟,例如自然语言处理中的GPT-3与计算机视觉中的MoCoe、SimCLR,多模态预训练模型也逐渐步人研究人员的视野。多模态预训练,亦称跨模态预训练模型,研究联合使用多个模态(如视觉、文本、声音等)的无标注数据进行模型预训练,旨在提升各种多模态下游任务(如跨模态检索)的性能。自2019年起,基于单模态预训练模型的逐步成熟以及强大的学习能力,若干具有代表性的多模态预训练模型被提出。
目前较为通用的研究工作基本针对图像-文本(简称图文)的跨模态预训练模型。其他模态的研究(如图像-视频或视频-音频)大多基于图文跟模态预训练的算法。在图文跨模态预训练模型中,儿个早期的模型架构都是基于Transformer的双向编码器表征模型(Bidirectional Encoder Representations from Transformers,BERT)的思路,将图像输人与文本输人连接在一起。一种是单流模型,视觉信息与语言信息在模型一开始就进行拼接融合,由于多层的Transformer的框架图和多层的塔结构相似,也称作单塔模型;另一种是双流模型(或双塔模型),视觉信息与语言信息先分别经过两个独立的特征提取器,然后再拼接在一起,使用Transformer等结构进行双模态共同特征学习。较早的(2019年)工作除单、双流输人的差别外,模型结构都比较相似,主要差别在于预训练任务与输人特征。近期的相关工作在结构和预训练任务上做了较大幅度的改动,探索不同预训练任务对预训练模型的影响,如UNITERT。


多模态预训练模型的能力
一般来说,预训练模型能力的评测不是针对预训练(自监督)任务上的表现,而是针对下游任务上的表现。具体来讲,预训练模型经过大量无标注数据的训练后,可以通过微调将模型适配到一个具体的下游任务,例如文字检索图像、图像生成文字、视频配字幕等。如果预训练模型在没有经过这个具体的下游任务训练的情况下仍然取得较好的结果,甚至超过某些针对这些下游任务专门设计的普通模型的结果,则认为该预训练模型具有一定的通用学习和理解能力。
面临的挑战
目前,多模态预训练模型面临的研究挑战主要集中在两个方面:(1)如何设计好的预训练任务,使预训练模型在广泛的下游任务上取得的效果都得到提升;(2)如何利用好互联网上大量无标注数据。此外,互联网上的数据与研究中的数据还存在分布不均匀的情况,例如,现有的大量多模态预训练模型往往会采用如下强假设:对于输人的数据,图像与文本之间存在较强的语义相关性,然而实际的互联网中并不经常存在这种数据。特别地,中文语境下的多模态预训练模型更是鲜有研究,既缺少预训练数据集,也缺少对适合的预训练任务和下游评测任务的关注,需要我国研究人员重视。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
辽宁男女一夜情,“男子尺寸过大导致女子死亡”事件,真相曝光~

辽宁男女一夜情,“男子尺寸过大导致女子死亡”事件,真相曝光~

书画艺术收藏
2025-03-15 19:15:05
超2500万辆!“电鸡围城”,为什么只有广州苦不堪言?

超2500万辆!“电鸡围城”,为什么只有广州苦不堪言?

毒sir财经
2025-04-22 20:02:53
最新战报!3-5到7-7,希金斯暂平奥康纳,斯佳辉被资格赛选手追平

最新战报!3-5到7-7,希金斯暂平奥康纳,斯佳辉被资格赛选手追平

刘姚尧的文字城堡
2025-04-22 05:07:08
看了雍正批复年希尧的奏折原件,原来皇帝批奏折这么简单!真涨见识了!

看了雍正批复年希尧的奏折原件,原来皇帝批奏折这么简单!真涨见识了!

书画博学
2025-03-13 16:45:41
10-7!丁俊晖时隔五年,首次打进世锦赛16强,国手创20年新高!

10-7!丁俊晖时隔五年,首次打进世锦赛16强,国手创20年新高!

金木原创
2025-04-23 00:35:08
泽连斯基出手!冻结中企在乌资产,我国外交部4字回应

泽连斯基出手!冻结中企在乌资产,我国外交部4字回应

再遇历史
2025-04-21 17:57:00
NBA中国常规赛球衣销量:詹姆斯库里东契奇前3 湖人球队榜第1

NBA中国常规赛球衣销量:詹姆斯库里东契奇前3 湖人球队榜第1

直播吧
2025-04-22 20:28:13
场均28分11板11助,NBA联盟第一人成假摔帝!这么打很难赢得尊重

场均28分11板11助,NBA联盟第一人成假摔帝!这么打很难赢得尊重

老梁体育漫谈
2025-04-23 00:05:52
刚刚,71岁董明珠获连任,再干3年!

刚刚,71岁董明珠获连任,再干3年!

每日经济新闻
2025-04-22 19:09:06
沈梦辰现在长这样了?一下子竟然没认出来,脸部变得有点饱满

沈梦辰现在长这样了?一下子竟然没认出来,脸部变得有点饱满

陈意小可爱
2025-04-21 13:44:48
刘嘉玲替闺蜜出气?活动全程对张柏芝黑脸,不停翻白眼还刻意远离

刘嘉玲替闺蜜出气?活动全程对张柏芝黑脸,不停翻白眼还刻意远离

游古史
2025-04-22 08:46:16
镜报:受惠于降落伞规则,曼联等队将瓜分5100万镑奖金

镜报:受惠于降落伞规则,曼联等队将瓜分5100万镑奖金

雷速体育
2025-04-22 18:43:53
爱拼会赢  勇毅前行(走市场 看韧性 强信心)

爱拼会赢  勇毅前行(走市场 看韧性 强信心)

人民网
2025-04-22 06:21:16
马筱梅带小玥儿逛商场,全身名牌比后妈还贵、戴手链打扮超洋气!

马筱梅带小玥儿逛商场,全身名牌比后妈还贵、戴手链打扮超洋气!

小噎论事
2025-04-23 00:14:29
3-5到9-7!希金斯夺赛点,斯佳辉半程领先资格赛选手,丁俊晖6-3

3-5到9-7!希金斯夺赛点,斯佳辉半程领先资格赛选手,丁俊晖6-3

刘姚尧的文字城堡
2025-04-22 05:35:49
英媒:普京首度暗示愿与泽连斯基会谈

英媒:普京首度暗示愿与泽连斯基会谈

环球网资讯
2025-04-22 22:34:36
站在安全位置的正义,不算是正义

站在安全位置的正义,不算是正义

溪畔老吴
2025-03-20 15:25:16
人活到多大岁数才最好?其实,不是80岁、90岁,而是这个年龄

人活到多大岁数才最好?其实,不是80岁、90岁,而是这个年龄

爆炸营养彭鑫蕊
2025-04-22 16:36:57
山东大爷20年吃掉14吨糖,每天吃4斤,检查后医生却说:继续吃

山东大爷20年吃掉14吨糖,每天吃4斤,检查后医生却说:继续吃

坦然风云
2025-04-22 00:06:20
郭汝瑰起义后才知,自己最信任的参谋长,竟然是军统

郭汝瑰起义后才知,自己最信任的参谋长,竟然是军统

霹雳炮
2025-04-22 23:54:40
2025-04-23 02:48:49
我是天边飘过一朵云
我是天边飘过一朵云
科技改变未来,未来生活更美好
903文章数 895关注度
往期回顾 全部

科技要闻

美团骑手亲述:京东外卖单子佣金高却难抢

头条要闻

越南总理定调与美关税谈判后 越南股市一度闪崩后反转

体育要闻

当今足坛最疯的门将,能有多离谱?

娱乐要闻

大s儿女回京!张兰气场全开汪小菲谈养老

财经要闻

宜宾银行与五粮液集团频繁关联交易

汽车要闻

捷途山海T2加长版/山海L9等 捷途新车展前亮相

态度原创

教育
家居
数码
艺术
公开课

教育要闻

一道几何题难倒全班同学,尖子生也没做出来,班主任表示很无奈

家居要闻

动静结合 休闲娱乐并存

数码要闻

酷开发布超级智能体:品牌升级 加速AI普惠

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?