网易首页 > 网易号 > 正文 申请入驻

首个多模态连续学习综述,港中文、清华、UIC联合发布

0
分享至

来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者来自于港中文、清华和UIC。主要作者包括:余甸之,港中文博士生;张欣妮,港中文博士生;陈焱凯,港中文博士;刘瑷玮,清华大学博士生;张逸飞,港中文博士;Philip S. Yu,UIC教授;Irwin King,港中文教授。


  • 论文标题:Recent Advances of Multimodal Continual Learning: A Comprehensive Survey
  • 论文链接:https://arxiv.org/abs/2410.05352
  • GitHub地址:https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning

多模态连续学习的最新进展

连续学习(CL)旨在增强机器学习模型的能力,使其能够不断从新数据中学习,而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗忘:当任务按顺序训练时,新的任务训练会严重干扰之前学习的任务的性能,因为不受约束的微调会使参数远离旧任务的最优状态。尽管连续学习取得了重大进展,但大多数工作都集中在单一数据模态上,如视觉,语言,图,或音频等。这种单模态的关注忽略了现实世界环境的多模态本质,因为现实世界环境本身就很复杂,由不同的数据模态而不是单一模态组成。

随着多模态数据的快速增长,发展能够从多模态来源中连续学习的 AI 系统势在必行,因此出现了多模态连续学习(MMCL)。这些 MMCL 系统需要有效地集成和处理各种多模态数据流,同时还要在连续学习中设法保留以前获得的知识。


尽管传统的单模态 CL 与多模态 CL 之间存在联系,但多模态 CL 所面临的挑战并不仅仅是简单地将 CL 方法用于多模态数据。这种直接的尝试已被证明会产生次优性能。具体而言,如图所示,除了现有的 CL 灾难性遗忘这一挑战外,MMCL 的多模态性质还带来了以下四个挑战。


  • 挑战 1 模态失衡:模态失衡是指多模态系统中不同模态的处理或表示不均衡,表现在数据和参数两个层面。在数据层面,不同模态的数据可用性可能会在 CL 过程中发生显著变化,出现极度不平衡的情况,如缺乏某些模态。在参数层面,不同模态组件的学习可能会以不同的速度收敛,从而导致所有模态的学习过程整体失衡。
  • 挑战 2 复杂模态交互:模态交互发生在模型组件中,在这些组件中,多模态输入信息的表征明确地相互作用。这种交互给 MMCL 带来了独特的挑战,主要体现在两个交互过程中:模态对齐和模态融合。在模态对齐过程中,单个数据样本的不同模态特征往往会在连续学习过程中出现分散,这种现象被称为 MMCL 中的空间紊乱。这种发散可能会导致更严重的性能下降。在模态融合方面,在非 CL 环境中使用的经典多模态融合方法在 MMCL 环境中可能会表现较差,因为不同的融合技术对解决遗忘问题有不同的效果。
  • 挑战 3 高计算成本:在 MMCL 中加入多种模态会大大增加计算成本,无论是在模型层面还是在任务层面都是如此。在模型层面,增加模态不可避免地会增加可训练参数的数量。许多 MMCL 方法利用预训练的多模态模型作为基础。然而,不断对这些大规模模型进行整体微调会带来沉重的计算开销。同样,在特定任务层面,MMCL 方法可能会导致特定任务可训练参数的持续积累,这些参数可能会超过预训练模型中的参数数量,从而抵消了采用连续学习训练模式的效率优势。
  • 挑战 4 预训练零样本能力的退化:随着预训练模型的进步,MMCL 方法可以用这些强大的模型。这些预先训练好的多模态模型经常会表现出零样本能力。然而,在训练过程中,该能力可能会减弱。这种退化风险可能导致未来任务上的严重性能下降,这被称为 MMCL 中的负前向知识转移。

MMCL 算法汇总


为了应对上述挑战,研究人员越来越关注 MMCL 方法。作者将 MMCL 方法分为四类主要方法,即基于正则化、基于架构、基于重放和基于提示的方法。

  • 基于正则化的方法:由于训练中参数的自由移动导致灾难性遗忘,基于正则化的方法旨在对参数施加约束来减少遗忘。
  • 基于架构的方法:该类方法使用不同的模型参数处理不同的任务。基于正则化的方法共享所有参数来学习任务,这使得它们容易受到任务间干扰:即记住旧任务会严重干扰新任务的学习,导致性能下降,尤其是在前向知识转移为负时。相比之下,基于架构的方法通过引入特定于任务的组件来减少任务间干扰。
  • 基于重放的方法:该类方法利用一个情节记忆缓冲区来重放来自先前任务的历史实例,例如数据样本,从而帮助在学习新任务时保持早期知识。这种重放实例的方法避免了基于正则化的方法的严格约束,并规避了在架构基于的方法中动态修改网络架构的复杂性。
  • 基于提示的方法:随着大型模型的快速发展及其在连续学习环境中的应用,基于提示的方法最近应运而生,以更好地利用预训练过程中获得的丰富知识。这些方法的优势在于只需最小的模型调整,减少了广泛微调的需求,而与之前通常需要显著微调或架构修改的方法不同。基于提示的方法的范式通过在连续空间中应用少量提示参数来修改输入,使得模型在学习额外的特定任务信息时能够保留其原有知识。

这些方法主要集中用于视觉和语言模态,同时也有其他方法关注图、音频等其他模态。下图中展示了 MMCL 方法的代表性架构。


以下两张表总结了 MMCL 方法的详细属性。



数据集和基准

大多数 MMCL 数据集是从最初为非连续学习任务设计的知名数据集中改编而来的,研究人员通常会利用多个数据集或将单个数据集划分为多个子集,以模拟 MMCL 环境中的任务。此外,也存在一些专门用于 MMCL 的数据集,例如 P9D 和 UESTC-MMEA-CL。下表总结了涵盖各种连续学习场景、模态和任务类型的 MMCL 基准。


未来方向

多模态连续学习已成为一个活跃且前景广阔的研究主题。以下是几个未来进一步探索和研究的方向。

  • 提高模态的数量与质量:表 3 中显示,只有少数 MMCL 方法关注视觉和语言以外的模态。因此,在整合更多模态方面还有巨大的研究空间。此外,模态并不限于表 3 中列出的内容,还可能包括生物传感器、基因组学等,从而增强对新兴挑战的支持,尤其是在科学研究中的人工智能应用(AI for science)。
  • 更好的模态交互策略:许多现有的 MMCL 方法仅仅在网络架构中融合模态,而没有深入理解或分析它们在训练中的相互影响。因此,测量这种跨模态影响将是一个有趣且有前景的研究方向,以实现更细粒度的多模态交互。
  • 参数高效微调的 MMCL 方法:参数高效微调(PEFT)方法提供了一种有效的解决方案,以优化训练成本。虽然基于提示的方法是参数高效的,但在表 2 中可以看到,其他类别中仅有 MoE-Adapters4CL 利用了 PEFT 方法。因此,考虑到近年来涌现出众多 PEFT 方法,将它们应用于减少 MMCL 方法的训练成本是一个值得探索的方向。此外,除了简单地应用现有 PEFT 方法,一个有前景的方向是为 MMCL 设置提出新的 PEFT 方法,并将其与其他 MMCL 技术良好集成。
  • 更好的预训练知识维护:由于许多 MMCL 方法使用了强大的多模态预训练模型,因此在训练过程中自然希望能够记住其预训练知识。遗忘预训练知识可能会显著影响未来任务性能。
  • 基于提示的 MMCL 方法:基于提示的 MMCL 方法能有效应对挑战 3:高计算成本,以及挑战 4:预训练零样本能力退化。然而,如表 2 所示,基于提示的 MMCL 方法目前是最少的一类。鉴于基于提示的方法仍处于起步阶段,因此进一步研究和发展的潜力巨大。
  • 可信赖的多模态连续学习:随着人们越来越关注隐私以及政府实施更多相关法规,对可信赖模型的需求正在上升。诸如联邦学习(FL)等技术可以被用于使服务器模型在不共享原始数据的情况下学习所有客户端的数据知识。随着众多联邦连续学习(FCL)方法的发展,将 FCL 方法扩展到 MMCL 将是一个有前景的发展方向,从而增强 MMCL 模型的可信赖性。

总结

本文呈现了一份最新的多模态连续学习(MMCL)综述,提供了 MMCL 方法的结构化分类、基本背景知识、数据集和基准的总结。作者将现有的 MMCL 工作分为四类,即基于正则化、基于架构、基于重放和基于提示的方法,还为所有类别提供了代表性的架构示意图。此外,本文讨论了在这一快速发展的领域中有前景的未来研究方向。希望 MMCL 的发展进一步增强模型使其展现出更多人类的能力。这种增强包括在输入层面处理多模态的能力以及在任务层面获取多样化技能,从而使人们更接近于在这个多模态和动态世界中实现通用智能的目标。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨紫“带套试戏”后续:已取证,男方被爆承认,牵连多位女星

杨紫“带套试戏”后续:已取证,男方被爆承认,牵连多位女星

阿凫爱吐槽
2024-11-14 16:57:31
拜登和特朗普在白宫会面2小时,他们谈了什么?

拜登和特朗普在白宫会面2小时,他们谈了什么?

第一财经资讯
2024-11-14 17:02:22
国足42秒神剧!张玉宁一瘸一拐庆祝:拼到上担架,头号英雄

国足42秒神剧!张玉宁一瘸一拐庆祝:拼到上担架,头号英雄

叶青足球世界
2024-11-15 00:26:55
金融战打响!A股、港股大跳水,狂飙的美元可能带崩全球股市

金融战打响!A股、港股大跳水,狂飙的美元可能带崩全球股市

看财经show
2024-11-14 17:20:07
真探丨广州15岁中学生获评正高级职称?当地人社局工作人员:可能性几乎没有

真探丨广州15岁中学生获评正高级职称?当地人社局工作人员:可能性几乎没有

红星新闻
2024-11-14 16:27:23
美国男子在特朗普胜选后枪杀全家后自杀:不想活在特朗普统治里

美国男子在特朗普胜选后枪杀全家后自杀:不想活在特朗普统治里

观威海
2024-11-14 08:40:33
0-7真的很伤!国足即使小赢了巴林仍将第4,净胜球仍大幅落后澳沙

0-7真的很伤!国足即使小赢了巴林仍将第4,净胜球仍大幅落后澳沙

直播吧
2024-11-14 19:28:24
靠车吃车、接受色情服务!上汽集团原副总裁陈德美受审:为儿子牟利500万

靠车吃车、接受色情服务!上汽集团原副总裁陈德美受审:为儿子牟利500万

鲁中晨报
2024-11-14 22:16:07
夫妻闹离婚,公婆拿出900多万元的欠条要求还款,未在借条上签字的妻子该还吗?

夫妻闹离婚,公婆拿出900多万元的欠条要求还款,未在借条上签字的妻子该还吗?

周到上海
2024-11-14 15:29:04
这跟不穿有啥区别?巴黎之夜“敢露”女星:肯豆、郭采洁、谷爱凌

这跟不穿有啥区别?巴黎之夜“敢露”女星:肯豆、郭采洁、谷爱凌

打麻将的仔
2024-11-13 22:56:21
女生撞上端面条男生,发告示寻男生讨说法,网友:男的死刑立即执行

女生撞上端面条男生,发告示寻男生讨说法,网友:男的死刑立即执行

小萝卜丝
2024-11-14 21:21:15
张玉宁:最后的进球是对全队的嘉奖,我为队友们感到骄傲

张玉宁:最后的进球是对全队的嘉奖,我为队友们感到骄傲

懂球帝
2024-11-15 00:28:26
因500万港元产生分歧,50岁“天王嫂”被迫复出,女人一定要事业

因500万港元产生分歧,50岁“天王嫂”被迫复出,女人一定要事业

七阿姨爱八卦
2024-11-14 15:50:26
短短4分钟,国足从地狱到天堂!VAR改判+91分钟绝杀,升小组第四

短短4分钟,国足从地狱到天堂!VAR改判+91分钟绝杀,升小组第四

侃球熊弟
2024-11-14 22:50:33
特朗普的44岁国防部长:满身刺青的少校,三婚娶了婚外情对象

特朗普的44岁国防部长:满身刺青的少校,三婚娶了婚外情对象

译言
2024-11-14 12:24:25
米莱宣布创造“阿根廷奇迹”:10月通胀率降至2.7%,最快一年控制通胀

米莱宣布创造“阿根廷奇迹”:10月通胀率降至2.7%,最快一年控制通胀

澎湃新闻
2024-11-14 07:36:27
某经济学家曾称“国内根本做不出来日本的单反相机”,遭嘲讽:文科生不爱学习瞎逼逼

某经济学家曾称“国内根本做不出来日本的单反相机”,遭嘲讽:文科生不爱学习瞎逼逼

不掉线电波
2024-11-14 14:58:25
炸裂!昆明女孩被男友殴打满脸是血,店员帮报警,女孩称自己摔伤

炸裂!昆明女孩被男友殴打满脸是血,店员帮报警,女孩称自己摔伤

小淇言说
2024-11-14 16:43:36
紫金矿业遭哥伦比亚贩毒集团掠夺3.2吨黄金,损失约2亿美元

紫金矿业遭哥伦比亚贩毒集团掠夺3.2吨黄金,损失约2亿美元

凤凰网财经plus
2024-11-14 13:43:07
马斯克当部长后公开美国政府拨款项目,其中多个均是在中国推行LGBT

马斯克当部长后公开美国政府拨款项目,其中多个均是在中国推行LGBT

不掉线电波
2024-11-14 21:14:26
2024-11-15 01:54:44
新浪财经
新浪财经
新浪财经是一家创建于1999年8月的财经平台
80518文章数 935关注度
往期回顾 全部

科技要闻

官宣!极氪领克合并,吉利走向大整合

头条要闻

世预赛:国足客场1-0巴林收获两连胜 张玉宁绝杀

头条要闻

世预赛:国足客场1-0巴林收获两连胜 张玉宁绝杀

体育要闻

本季英超最炸裂的瓜,由一名裁判制造

娱乐要闻

娜扎张云龙恋情曝光!甜蜜细节被扒

财经要闻

"机构举报游资"导致A股大跌?

汽车要闻

七块屏幕四座布局 仰望U7中式百万座舱

态度原创

家居
时尚
亲子
房产
军事航空

家居要闻

现代潮流空间 轻奢现代风并重

秋冬穿黑色,这4个技巧照着穿更时髦

亲子要闻

面容缺陷宝宝问话妈妈,为什么小朋友说自己丑,扎了辫子还是没人喜欢

房产要闻

左小鹏右网易!天河智慧城地块产品怎么打,值得期待!

军事要闻

海陆空三军首次在珠海联合召开发布会

无障碍浏览 进入关怀版