网易首页 > 网易号 > 正文 申请入驻

扩散模型也能推荐短视频!港大腾讯提出新范式DiffMM

0
分享至

DiffMM团队 投稿
量子位 | 公众号 QbitAI

想象一下你在刷短视频,系统想要推荐你可能会喜欢的内容。

但是,如果系统只知道你过去看过什么,而不了解你喜欢视频的哪些方面(比如是画面、文字描述还是背景音乐),那么推荐可能就不会那么精准

对此,来自港大和腾讯的研究人员推出了全新多模态推荐系统范式——DiffMM。



简单来说,DiffMM创建了一个包含用户和视频信息的图,这个图会考虑视频的各种元素。

然后它通过一种特殊的方法(图扩散)来增强这个图,让模型更好地理解用户和视频之间的关系。

最后,它使用一种叫做对比学习的技术,来确保不同元素(比如视觉和声音)之间的一致性,这样推荐系统就能更好地理解用户的喜好。

为了测试效果,团队在三个公共数据集上进行了大量实验,结果证明DiffMM相比于各种竞争性基线模型均达到SOTA



目前相关论文已公开,代码也已开源。

模型方法

DiffMM的总体框架图如下所示,主要包含三个部分:

  1. 多模态图扩散模型,通过生成扩散模型实现多模态信息引导的模态感知用户-物品图生成;
  2. 多模态图聚合,通过在生成的模态感知用户-物品图上进行图卷积操作以实现多模态信息聚合;
  3. 跨模态对比增强,通过对比学习的方式来利用不同模态下用户-物品交互模式的一致性,进一步增强模型的性能。

多模态图扩散

受到扩散模型在保留其生成输出中的基本数据模式方面的成功的启发,DiffMM框架提出了一种新颖的多模态推荐系统方法

具体而言,作者引入了一个多模态图扩散模块,用于生成包含模态信息的用户-物品交互图,从而增强对用户偏好的建模。

该框架专注于解决多模态推荐系统中无关或噪声模态特征的负面影响

为实现这一目标,作者使用模态感知去噪扩散概率模型将用户-物品协同信号与多模态信息统一起来。

具体而言,作者逐步破坏原始用户-物品图中的交互,并通过概率扩散过程进行迭代学习来恢复原始交互。

这种迭代去噪训练有效地将模态信息纳入用户-物品交互图的生成中,同时减轻了噪声模态特征的负面影响。

此外,为实现模态感知的图生成,作者提出了一种新颖的模态感知信号注入机制,用于指导交互恢复过程。这个机制在有效地将多模态信息纳入用户-物品交互图的生成中起到了关键作用

通过利用扩散模型的能力和模态感知信号注入机制,DiffMM框架为增强多模态推荐器提供了一个强大而有效的解决方案。

图概率扩散范式

在用户-物品交互上进行图扩散包含两个关键工程

第一个过程称为前向过程,它通过逐步引入高斯噪声来破坏原始的用户-物品图。这一步骤逐渐破坏了用户和物品之间的交互,模拟了噪声模态特征的负面影响。

第二个过程称为逆向过程,它专注于学习和去噪受损的图连接结构。这个过程旨在通过逐步改进受损的图来恢复用户和物品之间的原始交互。

对于前向图扩散过程,考虑用户和物品集合中每个物品的交互,定义为 =[







],这里



等于0或1表示用户是否和物品有发生交互。首先将扩散过程进行初始化: 0= ,这个前向过程之后在步中逐渐添加高斯噪声,以马尔可夫链的形式构建1:。

具体而言,从t-1到t的过程参数化为:



当→∞时,状态逐渐趋向于一个标准的高斯分布。作者使用重参数技巧以及独立高斯噪声可相加的性质,直接从0得到t:



对于逆向图扩散过程,DiffMM旨在消除从t引入的噪声,逐步恢复t-1。这个过程使得多模态扩散能够有效地捕捉复杂的生成过程中的微小变化。从开始,去噪过程逐步恢复用户-物品交互,逆向过程展开如下:



作者使用参数为的神经网络来生成一个高斯分布的均值(t,t)和协方差 (t,t)。

模态感知的图扩散优化

扩散模型的优化目标是引导逆向图扩散过程。为了实现这一目标,应优化0的负对数似然的Evidence Lower Bound (ELBO):



对于t,有三种情况



这里,0是0的负重建误差;是一个在优化中可以忽略的常量项,因为它不包含可优化的参数;(t∊{1,2,…,T-1})旨在通过KL离散度使分布(t-1|t)和可计算的分布q(t-1|t,0)对齐。

为了实现图扩散的优化,作者设计了一个神经网络,以在反向过程中进行去噪处理。根据贝叶斯法则,q(t-1|t,0)可被表示为如下近似表达:



更进一步,t可以表示为:



这里,



(t,t)是基于t和时间t预测的0,作者使用神经网络来实现它。具体而言,作者使用一个多层感知器(MLP)来实现



,该MLP以t和时间t的嵌入表示作为输入来预测0。对于0,可以被表示为:



在实际实现中,作者从 {1,2,…,} 中均匀采样来得到时间步t:



多模态图扩散的目标是通过模态感知的用户-物品图来增强推荐系统

为此,作者设计了一种模态感知信号注入(MSI)机制,引导扩散模块生成带有相应模态的多个用户-物品图。

具体而言,作者将对齐的物品模态特征与预测的模态感知用户-物品交互概率进行聚合

同时,作者还将物品id嵌入与观察到的用户-物品交互0进行聚合。

最后,计算上述两个聚合嵌入之间的均方误差损失,并与ebo一起进行优化。形式化地,模态的均方误差损失如下所示:



跨模态对比增强

在多模态推荐场景中,不同物品模态(例如:视觉、文本和音频)上的用户交互模式存在一定程度的一致性

例如,在短视频的情况下,其视觉和音频特征可以共同吸引用户观看。

因此,用户的视觉偏好和音频偏好可能以复杂的方式交织在一起。为了捕捉和利用这种模态相关的一致性来提高推荐系统的性能,作者设计了两种基于不同锚点的模态感知对比学习范式。

一种范式以不同的模态视图作为锚点,另一种范式则以主视图(协同过滤)作为锚点。

模态感知的对比视图

为了生成特定模态的用户/物品嵌入表示作为对比视图,作者使用了基于GNN的表示学习方法

具体而言,在图扩散模型生成的模态感知用户-物品图上进行消息传递。

首先,作者将物品原始模态信息转化为相同维度的物品模态特征:



接下来,对用户嵌入和物品模态特征进行信息聚合,得到聚合的模态感知嵌入m∈ℝd:



这里,m∈ℝ×表示通过图扩散模型生成的模态感知图。为了获得多模态感知的高阶协同信息,作者进一步在原始用户-物品交互图进行了迭代的消息传递:



模态感知的对比增强

通过模态感知的对比视图,作者采用了两种不同的对比方法

其中一种利用不同的模态视图作为锚点,而另一种则使用主视图作为锚点。

前者的思想是基于用户在不同模态中的行为模式具有关联性,而后者则希望用户在不同模态中的行为模式可以引导及提升主视图的偏好表达。这里的主视图指通过GNN在多个模态感知图上聚合再进一步融合得到的用户与物品表达。两种对比方法的对比损失(InfoNCE loss)分别如下所示。

模态视图作为锚点:



主视图作为锚点:



多模态图聚合

为了生成最终的用户(物品)表示以进行预测,作者首先对所有的模态感知嵌入和相应的模态感知用户-物品图进行聚合:



之后通过一个可学习的参数化向量Km控制各个模态的权重,以求和的方式融合各个模态的表示:



之后在原始的用户-物品交互图上进行消息传递,以利用高阶的协同信号:



多任务模型训练

DiffMM的训练包含两个部分:对于推荐任务的训练和对于多模态图扩散模型的训练。

对于扩散模型的联合训练,也包括两个部分:ELBO损失和MSI损失。对于模态的扩散模型去噪网络的优化损失如下:



对于推荐任务的训练,作者引入了经典的贝叶斯个性化排名(BPR)损失和多模态对比增强损失c,BPR损失定义如下:



推荐任务的联合优化目标如下:



实验结果

作者在三个公开数据集上对比了多个类型最新的基线模型,包括传统的协同过滤方法,基于GNN的方法,生成扩散推荐方法,自监督推荐方法以及SOTA的多模态推荐方法。

通过广泛而充分的实验,结果表明提出的DiffMM在总体性能上具有最优的性能



为了验证所提出方法各个模块的有效性,作者进行了细致的消融实验,实验结果表明所提出的各个子组件均有提升推荐效果的功能:



作者进一步探索了DiffMM在数据稀疏问题上的表现,实验结果表明DIffMM中的跨模态对比学习方式可以有效缓解数据稀疏的问题,它通过使用图扩散模型生成的模态感知用户-物品图来获得高质量的自监督信号。




对于所提出的DiffMM,作者对一些重要的超参数进行了分析,包括多模态图聚合模块中的超参数、模态感知扩散模型中的MSI权重、以及多模态对比增强范式中的温度系数等:



为了更直观地评估所提出的模态感知图扩散模型对推荐系统性能的影响,作者研究了模态感知用户-物品图(由DiffMM生成)和通过边丢弃进行随机增强的用户-物品图之间的融合比率对于自监督增强对比视图构建的影响。

融合比率为0表示仅使用模态感知的用户-物品图来构建对比视图,而融合比率为1则表示仅使用随机增强方法。

结果明确表明,在两个数据集中,融合比率的增加导致模型性能的下降



这一发现表明模态感知的图扩散模型通过提供模态感知的对比视图而不是随机增强视图来增强跨模态对比学习的优越性。这个优势可以归因于基于图扩散的生成方法对潜在交互模式的有效建模,以及通过精心设计的生成机制将多模态上下文纳入到用户-物品交互图的扩散过程中。

总结

本文介绍了一种新的多模态推荐模型DiffMM,它通过结合模态意识丰富了概率扩散范式。

该方法利用多模态图扩散模型重构了模态感知的用户-项目图,同时利用跨模态数据增强模块的优势提供有价值的自监督信号。

为了评估DiffMM的有效性,作者进行了大量的实验,并将其与几种竞争基线模型进行了比较,结果证明了DiffMM在推荐性能方面的优越性。

论文:https://arxiv.org/abs/2406.11781
代码:https://github.com/HKUDS/DiffMM

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
11轮袭击!中东火药桶被引爆

11轮袭击!中东火药桶被引爆

陆弃
2024-10-04 11:54:20
巩俐这身材膀大腰圆,丰乳肥臀,网友:怪不得能成国际巨星

巩俐这身材膀大腰圆,丰乳肥臀,网友:怪不得能成国际巨星

简读视觉
2024-10-01 00:23:31
俞敏洪找到宝藏男生,访谈效果堪比董宇辉,网友评论引热议

俞敏洪找到宝藏男生,访谈效果堪比董宇辉,网友评论引热议

小猫猫爱体育
2024-09-02 22:33:42
丢人!成都一小车逆向超车被对面司机集体逼退,川A红旗车出名了

丢人!成都一小车逆向超车被对面司机集体逼退,川A红旗车出名了

小淇言说
2024-10-05 13:08:04
山东一地突发重大刑事案件!看见此人速速报警!

山东一地突发重大刑事案件!看见此人速速报警!

莱芜福禧今日信息
2024-10-05 06:33:16
中网:郑钦文VS穆霍娃乃危机并存,或晋级决赛面对一生对手

中网:郑钦文VS穆霍娃乃危机并存,或晋级决赛面对一生对手

阿柒体讯
2024-10-05 06:22:25
害人啊!江西女子高速上开40码被交警拦下,网友:国庆堵车源头

害人啊!江西女子高速上开40码被交警拦下,网友:国庆堵车源头

小淇言说
2024-10-04 10:57:11
有哪些秘密宁可烂在肚子里也不说出来?话题也是引起了网友们共鸣

有哪些秘密宁可烂在肚子里也不说出来?话题也是引起了网友们共鸣

滑稽斑马呀
2024-07-01 13:55:27
如果把俄罗斯换成中国,单挑北约胜算有多大?结果美国根本受不了

如果把俄罗斯换成中国,单挑北约胜算有多大?结果美国根本受不了

日风的故事屋
2024-10-04 19:30:17
沙特阿拉伯的耐心终于耗尽了!

沙特阿拉伯的耐心终于耗尽了!

星辰故事屋
2024-10-04 11:39:46
办理退休时没有档案,社保局让提供工资流水,才能够认定视同工龄

办理退休时没有档案,社保局让提供工资流水,才能够认定视同工龄

社保小达人
2024-10-05 10:10:02
笑疯!想你的风也是吹到了哀牢山,国庆迎来1亿人,官方都兴奋了

笑疯!想你的风也是吹到了哀牢山,国庆迎来1亿人,官方都兴奋了

有趣的火烈鸟
2024-10-04 21:38:07
晋级4强后!纳瓦罗:郑钦文从青少年就不尊重我 奥运之后没说过话

晋级4强后!纳瓦罗:郑钦文从青少年就不尊重我 奥运之后没说过话

体娱大熊猫
2024-09-04 13:41:19
上海安福路最“丑”的一张街拍照,暴露出大部分人的无知!

上海安福路最“丑”的一张街拍照,暴露出大部分人的无知!

华人星光
2024-10-04 13:50:12
哈佛大学发现:最适合老年人吃的主食排行榜,米饭倒数馒头第2?

哈佛大学发现:最适合老年人吃的主食排行榜,米饭倒数馒头第2?

华庭讲美食
2024-10-04 16:38:11
刘嘉玲梁朝伟度假惹争议!飞机甩大牌,小朋友的表情很“绝望”!

刘嘉玲梁朝伟度假惹争议!飞机甩大牌,小朋友的表情很“绝望”!

圈里的甜橙子
2024-10-03 04:33:40
和没教养的人一起吃饭有多恶心!网友:重复夹起来看一下就放下,

和没教养的人一起吃饭有多恶心!网友:重复夹起来看一下就放下,

王晓爱体彩
2024-10-04 20:05:17
印度赖在金砖不走了,不许中俄反对加入四方对话,迎来最后结局

印度赖在金砖不走了,不许中俄反对加入四方对话,迎来最后结局

方清的视角
2024-10-04 18:46:39
北京楼市全军覆没!北京楼市待售二手房数量突破136000套

北京楼市全军覆没!北京楼市待售二手房数量突破136000套

有事问彭叔
2024-10-03 20:44:49
反转?“外地人都滚出苏州”后续!小区门口照片曝光,不堪入目!

反转?“外地人都滚出苏州”后续!小区门口照片曝光,不堪入目!

童童聊娱乐啊
2024-10-05 10:04:44
2024-10-05 13:48:49
量子位
量子位
追踪人工智能动态
9953文章数 175537关注度
往期回顾 全部

科技要闻

十一直击:鸿蒙智行、小米汽车人气高涨

头条要闻

35岁再考清华当事人:备战2025年高考 目标还是700分

头条要闻

35岁再考清华当事人:备战2025年高考 目标还是700分

体育要闻

奥运冠军神仙友谊!郑钦文张雨霏闪耀中网

娱乐要闻

肖战晒照庆33岁生日,阳光帅气有活力

财经要闻

中国资产大涨!道指创新高

汽车要闻

售17.78万元 蒙迪欧1.5T混动舒雅型上市

态度原创

旅游
教育
数码
手机
公开课

旅游要闻

凌晨3点还有人排队 长沙坡子街派出所有何魔力?

教育要闻

抛物线旋转体里头放个正方体,求正方体体积?

数码要闻

苹果高管在新访谈中解读Apple Watch的健康功能

手机要闻

苹果最薄 iPhone 有望明年登场,联咏科技被曝已打入供应链

公开课

眼花失眠抽筋,你的肝该调调了

无障碍浏览 进入关怀版