网易首页 > 网易号 > 正文 申请入驻

浅谈中文多模态的预训练模型

0
分享至

近年来,基于多模态数据的语义理解与认知探索成为了人工智能领域的一个重要研究热点,旨在使计算机拥有针对多种模态数据的表示、计算与推理能力。实际上,人类的认知是基于多模态信息产生的,比如人可以同时利用视觉和听觉信息理解说话者的情感,可以通过视觉信息补全文本中的缺失信息等。多模态数据建模是使模型模仿人类处理多模态信息的方式,将不同模态信息进行融合,学习不同模态信息之间的关联,从而可以融合视觉、听觉和自然语言信息,进行数据语义的综合理解。多模态预训练模型是学术界内一种流行的通用技术范式,能够利用互联网上大量无标注的多模态数据设计自监督的学习任务,从而进行模型的学习,达到对数据的语义理解。
目前,多模态预训练模型已经能够在多个下游的多模态数据挖掘任务(如以文搜图等)中取得比专门针对这些任务设计的监督模型更佳的效果。然而,如何设计好的自监督学习任务,使多模态预训练模型在广泛的下游任务上的效果得到整体提升,以及如何充分利用大量无标注多模态数据的内在语义模式,都需要进一步探索。此外,基于中文的多模态预训练模型更是鲜有研究,已有的预训练模型还无法直接应用于中文语境。
多模态预训练模型的概念和近期研究工作
大规模预训练模型始于文本领域,已经成为自然语言处理中的一种通用模型范式。它可以利用海量的无标注文本数据进行预训练,使模型进行自监督学习,从而在多种自然语言处理任务上取得显著的性能提升(如BERT、GPTP等)。随着单模态预训练模型的逐渐成熟,例如自然语言处理中的GPT-3与计算机视觉中的MoCoe、SimCLR,多模态预训练模型也逐渐步人研究人员的视野。多模态预训练,亦称跨模态预训练模型,研究联合使用多个模态(如视觉、文本、声音等)的无标注数据进行模型预训练,旨在提升各种多模态下游任务(如跨模态检索)的性能。自2019年起,基于单模态预训练模型的逐步成熟以及强大的学习能力,若干具有代表性的多模态预训练模型被提出。
目前较为通用的研究工作基本针对图像-文本(简称图文)的跨模态预训练模型。其他模态的研究(如图像-视频或视频-音频)大多基于图文跟模态预训练的算法。在图文跨模态预训练模型中,儿个早期的模型架构都是基于Transformer的双向编码器表征模型(Bidirectional Encoder Representations from Transformers,BERT)的思路,将图像输人与文本输人连接在一起。一种是单流模型,视觉信息与语言信息在模型一开始就进行拼接融合,由于多层的Transformer的框架图和多层的塔结构相似,也称作单塔模型;另一种是双流模型(或双塔模型),视觉信息与语言信息先分别经过两个独立的特征提取器,然后再拼接在一起,使用Transformer等结构进行双模态共同特征学习。较早的(2019年)工作除单、双流输人的差别外,模型结构都比较相似,主要差别在于预训练任务与输人特征。近期的相关工作在结构和预训练任务上做了较大幅度的改动,探索不同预训练任务对预训练模型的影响,如UNITERT。


多模态预训练模型的能力
一般来说,预训练模型能力的评测不是针对预训练(自监督)任务上的表现,而是针对下游任务上的表现。具体来讲,预训练模型经过大量无标注数据的训练后,可以通过微调将模型适配到一个具体的下游任务,例如文字检索图像、图像生成文字、视频配字幕等。如果预训练模型在没有经过这个具体的下游任务训练的情况下仍然取得较好的结果,甚至超过某些针对这些下游任务专门设计的普通模型的结果,则认为该预训练模型具有一定的通用学习和理解能力。
面临的挑战
目前,多模态预训练模型面临的研究挑战主要集中在两个方面:(1)如何设计好的预训练任务,使预训练模型在广泛的下游任务上取得的效果都得到提升;(2)如何利用好互联网上大量无标注数据。此外,互联网上的数据与研究中的数据还存在分布不均匀的情况,例如,现有的大量多模态预训练模型往往会采用如下强假设:对于输人的数据,图像与文本之间存在较强的语义相关性,然而实际的互联网中并不经常存在这种数据。特别地,中文语境下的多模态预训练模型更是鲜有研究,既缺少预训练数据集,也缺少对适合的预训练任务和下游评测任务的关注,需要我国研究人员重视。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奥运冠军吐槽深圳“电鸡”神出鬼没,深圳网友感谢“嘴替”

奥运冠军吐槽深圳“电鸡”神出鬼没,深圳网友感谢“嘴替”

南方都市报
2024-11-26 17:15:22
日本变脸速度真强悍,前脚刚求到中国免签,后脚就对中国定下规矩

日本变脸速度真强悍,前脚刚求到中国免签,后脚就对中国定下规矩

现代小青青慕慕
2024-11-27 07:22:02
前途无量!2大天才新星一战成名:又1位足坛名宿之子涌现!

前途无量!2大天才新星一战成名:又1位足坛名宿之子涌现!

邱泽云
2024-11-26 22:39:07
十大形式主义,哪一种让你深受其害?基层员工有苦难言

十大形式主义,哪一种让你深受其害?基层员工有苦难言

笑熬浆糊111
2024-11-27 00:05:26
刚刚,突然拉升!20CM涨停

刚刚,突然拉升!20CM涨停

中国基金报
2024-11-27 12:36:24
大家有没有发现,原本红遍大江南北的演员“黄渤”基本消失了?

大家有没有发现,原本红遍大江南北的演员“黄渤”基本消失了?

人情皆文史
2024-11-22 01:21:52
“尊界”首次亮相!余承东:首款车型开启预定,售价100万元至150万元!曾称远超迈巴赫、劳斯莱斯

“尊界”首次亮相!余承东:首款车型开启预定,售价100万元至150万元!曾称远超迈巴赫、劳斯莱斯

每日经济新闻
2024-11-26 17:59:15
寒潮来袭多地出现降雪,上海晴冷继续升级,周四早晨市区最低3℃,郊区仅1℃,之后开始升温

寒潮来袭多地出现降雪,上海晴冷继续升级,周四早晨市区最低3℃,郊区仅1℃,之后开始升温

东方网
2024-11-27 11:19:08
22.98万起,智界新S7发布!余承东:亏钱的定价,用100万的标准造二三十万的车

22.98万起,智界新S7发布!余承东:亏钱的定价,用100万的标准造二三十万的车

每日经济新闻
2024-11-26 18:07:23
3岁闺女凭「金句」走红,吸粉600万:2分钟治好了我的精神内耗

3岁闺女凭「金句」走红,吸粉600万:2分钟治好了我的精神内耗

解说阿洎
2024-11-26 17:31:14
CCTV5直播!辽宁男篮VS江苏,新外援上演首秀,杨鸣拒绝爆冷

CCTV5直播!辽宁男篮VS江苏,新外援上演首秀,杨鸣拒绝爆冷

体坛瞎白话
2024-11-27 10:33:23
最新世界排名:张安达重返top10,丁俊晖下降一位!贺国强跃升6位

最新世界排名:张安达重返top10,丁俊晖下降一位!贺国强跃升6位

求球不落谛
2024-11-27 09:10:59
被挂上热搜的的“1米糖葫芦”,暴露专坑中国年轻人的新型骗局

被挂上热搜的的“1米糖葫芦”,暴露专坑中国年轻人的新型骗局

小椰子专栏
2024-11-26 13:56:02
拒绝向中国求助,同时开工两艘新航母,美至今疑惑技术究竟从哪来

拒绝向中国求助,同时开工两艘新航母,美至今疑惑技术究竟从哪来

常高俊April工作室
2024-11-26 16:06:12
A股:请扶稳坐好,系好安全带!下午大盘将迎来大级别行情

A股:请扶稳坐好,系好安全带!下午大盘将迎来大级别行情

云姐财说
2024-11-27 11:58:57
争议!郑钦文人红是非多,澳网也蹭热度,宣传海报与4大巨星并列

争议!郑钦文人红是非多,澳网也蹭热度,宣传海报与4大巨星并列

大秦壁虎白话体育
2024-11-27 08:54:10
卢比奥不希望我们撤销对他的制裁,他不会访问中国?

卢比奥不希望我们撤销对他的制裁,他不会访问中国?

智凌纵横
2024-11-26 16:49:02
300人如何对抗3万俾路支?美网友质疑中巴演习:就连美军都做不到

300人如何对抗3万俾路支?美网友质疑中巴演习:就连美军都做不到

青辉
2024-11-26 23:25:03
中国10大最毒零食排行榜,常吃等于“慢性自杀”

中国10大最毒零食排行榜,常吃等于“慢性自杀”

新兴网评
2024-10-22 00:57:07
男子江边钓到有字的鱼,鱼身印着“东海002”,网友:你摊上事了

男子江边钓到有字的鱼,鱼身印着“东海002”,网友:你摊上事了

小胡渔记
2024-11-26 19:10:08
2024-11-27 13:47:00
我是天边飘过一朵云
我是天边飘过一朵云
科技改变未来,未来生活更美好
903文章数 896关注度
往期回顾 全部

科技要闻

余承东:Mate70对得起那四字 靠抄袭没未来

头条要闻

女子月薪过万仍从胖东来离职:保洁要写PPT是真的

头条要闻

女子月薪过万仍从胖东来离职:保洁要写PPT是真的

体育要闻

扣篮命中率28%,NBA首发前锋

娱乐要闻

无性婚姻,深度抑郁,葛夕怎么走不掉

财经要闻

洪灏刘煜辉对谈实录 涉及A股、债务等!

汽车要闻

中国的超豪华车尊界S800 预售百万起/ L3级智驾

态度原创

艺术
游戏
亲子
本地
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

曝育碧社交模拟新作开发中:玩法与《动森》类似

亲子要闻

妈妈给睡醒的宝宝擦脸,他不想洗脸就露出个“凶恶”的表情

本地新闻

城市24小时|领跑万亿城市,武汉“开挂”了?

军事要闻

新中导“榛树”亮相 俄乌都面临难题

无障碍浏览 进入关怀版