腾讯广告一直致力于优化广告系统,为广告主提供更精准的投放能力及更高的转化率。在国际数据挖掘顶级会议KDD 2022上,腾讯广告的录用论文提出了一种新的多任务模型——多虚拟核专家混合模型MVKE,实现多目标用户画像建模,助力腾讯广告系统的推荐效率及投放效果。
论文链接: https://arxiv.org/abs/2106.07356
在广告和推荐系统等工业应用中,多样化和准确的用户画像可以极大地帮助改进个性化体验。当前,深度学习广泛应用于从用户标签建设,即通过历史交互行为挖掘含有实际意义的标签,例如对广告的点击、转化等行为动作可以挖掘出表达用户兴趣/意向的标签。
通常采用的方法是,面向多个动作(action)时,每次以单个动作为建模目标,引入多套独立的双塔模型(由于标签众多,单塔复杂性高)来预测用户对标签发生该动作的可能性(看作对标签的CTR或CVR预估),预估出高得分的标签可以用来表示用户的喜好(兴趣/意向)。
然而,多个独立的模型之间不能互补地学习,当某些动作的样本比较稀疏时也不能很好地支持模型学习。此外,由于双塔之间往往缺乏信息融合,这类设计无法很好地预估用户对各种不同主题下标签的喜好程度。
该研究摒弃了业界常用的双塔结构模型算法,独辟蹊径采用了创新型的多虚拟核专家混合模型(MVKE),用于统一联合学习用户对各种不同动作和主题的喜好。在MVKE中,我们提出了虚拟内核专家的概念,该概念侧重于对用户喜好的一个特定方面进行建模,并且所有这些方面都在统一协调地学习。此外,MVKE中使用的Gate结构在两个塔之间构建了一座信息融合桥梁,提高了模型的性能并保持了仍然保持了双塔具备的较高的效率。
我们将该模型应用于腾讯广告系统,在线和离线评估表明,与基线方法相比,我们的方法具有更好的表现,并对实际广告收入产生了明显的提升。
一、背景介绍
用户画像建设是广告、推荐等诸多领域的一个基础模块,这些领域的共性是建立用户和物料之间的良好连接,提高服务质量。因此,理解用户和物料是基础的第一步。另外,用户的行为、属性和特性相比于物料的特性内涵往往更加丰富且复杂。因此,准确、全面地用户理解是个性化的基础。我们构建的用户画像越好,人与物之间的连接就越精准。
在用户画像中,标签可以很好地承载物理意义,具备“用户可理解”、“算法可解释”、“运营可干预”等embedding 类表征所不具备的优势。因此,用户标签的建设是广告系统中标签定向和后续排序链路中非常基础且重要的模块。实践中,对用户的理解和建模最终主要以标签化的方式写入画像中,再参与定向检索、排序模型的特征或调价校准。
根据生产方式的不同,大致可以把用户标签分为统计型标签和预测型标签两种,其中预测型标签是本工作讨论的重点,相比统计型标签,它的算法挑战更大,优化天花板更高;并且可以与广告系统业务目标(预估CTR/CVR等)保持一致,应用广泛且灵活。为了探索用户对广告的兴趣和意向,可以去预测一些标签作为对用户的理解标注,也就是对用户进行兴趣意向标签建模。
二、主要挑战
在腾讯广告系统中实现用户预测型标签建设主要面临着以下三点挑战:
挑战 1:用户规模海量,腾讯广告服务的媒体流量巨大,广告的服务的用户超过10亿。为这样量级的用户,建设成千上万的语义丰富的标签(成体系的类目或者关键词)带来的挑战巨大。
挑战 2:用户的喜好是多方面的,与话题相关。例如,一个用户可能不仅喜欢运动类下的“篮球”广告,也喜欢体育类下的“SUV”广告。如何高效准确地为用户标记多种多类的,话题分布广泛的标签也形成了挑战。
挑战 3:用户的喜好需要关联到链路上的不同动作,也就是与动作相关。例如,一个用户对汽车类的广告发生“点击”动作的概率是很大的,但是未必会在“转化”阶段发生动作。如何高效准确地为用户标记不同动作目的的标签也带来了挑战。
直觉上,有一些常用的业界方法是可以解决部分挑战的。比如面临挑战1,双塔结构的模型就可以很大程度上降低“用户x标签”组合量级膨胀带来的计算复杂度,只要在预测阶段分别单独预估两个塔的结果,再做简单的点积运算就可以了。然而,双塔模型的结构有一个很大缺陷,用户塔和标签塔之间是互不感知的,用户的表示向量难以捕捉标签的表示向量的变化,从而合理地表示用户多话题下的多面喜好,挑战2是解决不了的。
如果只面临挑战3,多任务学习,比如MMoE、ESMM等模型是很好的解决链路上联合预估的方法,但是依然不能解决用户喜好多面性的话题相关问题。总结来看,我们需要解决的是,在大规模用户量级和大量标签数量的预估效率挑战下,解决对多话题相关和链路多动作相关的用户多面喜好的建模问题。
三、算法设计3.1 基础方案
实践中,为单独动作建模采用双塔结构模型是常见的方案选型,其中多个单独的模型建模出的标签形成不同意义下的标签,例如记用户点击可能性高的标签为兴趣标签、用户转化可能性高的为意向标签。
单独的模型结构如下图所示,用户和标签侧的输入分别单独成塔,塔内可以采用DeepFM等常见结构进行特征交叉和推理。训练时依照样本的组合方式输入<用户、标签>的成对组合,预估时需要对全部的用户和标签分别预测其表示向量,再使用向量近邻检索或者分布式的方式快速计算复杂度高两类向量的点积结果。
3.2 MVKE方案
为解决上述挑战,本文提出了一个创新型的模型,命名为多虚拟核专家混合网络(MVKE),下面为了清晰地展示结构,将单动作目标和多动作目标的模型拆开来介绍。
3.2.1 单动作目标下的MVKE
下图给出了在单目标建模时的MVKE结构,可以看到是一个类双塔的结构,但是设计了一个类似“桥”的结构促成了两塔之间的信息流动。
具体来看,两个重要的组件帮助MVKE突破了双塔之间的信息屏障,还保持了极高的预估效率:虚拟核专家(Virtual-Kernel Experts, VKE)和虚拟核门限(Virtual-Kernel Gate, VKG)。装配了某一虚拟核后,一个VKE仅需聚焦于建模用户喜好的某一方面,精准描述该方面的用户表示;VKG是一个基于注意力机制的加权门限网络,用于将多面的用户表达结合为最终的完整用户表达,这个加权是在标签塔的指导之下对VKG进行选择完成的。换句话说,VKE的建模是互相有差异的,多样的,而VKG根据标签塔的输入对多个VKE的建模结果进行加权融合,形成准确多样的最终结果。
在用户塔中,设计了多个VKE,但是所有的VKE共享相同的特征输入层。在每个VKE内部,配有一个可学习的变量:虚拟核(Virtual Kernel),且设计了一个注意力计算层决策着特征的组合方式,Key和Value都是用户的特征embedding,Query是虚拟核向量。基于Query和Key计算后的参数,用于Value的加权,为不同的特征输入赋予不同的重要性权重进行融合,以使得专家网络专注于某一子领域的用户喜好建模。
在模型的上层,多个VKE在不同的虚拟核的指导下,会输出多个不同的用户表示向量,这些表示向量各自侧重在不同方面的用户喜好学习。最后在计算Loss之前,VKG可以根据标签塔的输入有选择地将多个VKE的输出进行加权融合,形成该标签含义下用户恰当的表示向量,这也是基于注意力机制计算的,Key是所有的虚拟核,Query是标签塔所输出的标签表示向量,Value是所有VKE的输出表示向量,Query和Key计算后的权重用于加权VKE的输出融合生产最终的在当前标签下的用户表示。
整体回顾整个模型设计,可以观察到虚拟核向量在其中起了重要作用,在VKE和VKG中都参与了计算,VKE是在虚拟核的指导下专注某领域下喜好学习的,VKG是利用标签表达基于虚拟核进行筛选权重的。在某种意义下,虚拟核的学习决定了将用户表示划分在特定的多个子空间下学习,又根据标签的不同挑选这些学习结果的不同加权方式,以更精准地表达用户全方位的喜好。
3.2.2 多动作目标下的MVKE
当MVKE从单动作目标场景扩展到多目标场景时,我们可以在模型中设置更多个VKE,并且使得这些VKE当中的某些子集合对应不同的动作目标建模。值得一提的事,一个专家可以参与到一个或多个目标建模中。MVKE在多个目标上的整体结构如下图所示,图中以点击预估和转化预估两个任务为例子。CTR预估的是用户对标签的点击率,目的是建设兴趣标签,CVR预估的是用户对标签的转化率,目的是建设意向标签。
这个场景下,VKE的数量是可自定义的,VKG的数量则对应于建模目标的个数。在实际应用中,关于VKE的设置有一些经验:
对于每个任务,可以设置一些单独的VKE,同时设置一些共享的VKE,保证模型学习不同目标时同时具备特殊性和泛化性。
对于在一个链路下的不同动作,可以考虑越深层的链路动作预估时利用上浅层动作预估当中大多数的VKE。比如“曝光->点击->转化”这样一个经典的广告链路,可以一共采用5个VKE建模,前3个用于点击预估,第2个到第5个都用于转化预估。
由于MVKE改变了原本的双塔机制,这里我们讨论预估时的方式和效率。
一般双塔分别预估所有用户和标签的表示向量,神经网络推理的时间复杂度和空间复杂度都为,随后再进行点积计算;在MVKE当中,用户的表示向量是非唯一确定的,需要根据标签表示向量的变化而进行不同的加权融合;因此,MVKE会输出全部用户侧的VKE的输出,将空间复杂度升高为,其中k是VKE的数量,推理时的时间复杂度不变,在做点积计算的时候仍然不明显改变复杂度。在实践中,存储空间的限制相比是宽松的,因此牺牲一定的空间换取更好的预估效果是可接受的。
四、实验效果
MVKE的实验评估分两部分,离线和在线。离线部分,分别在大小两个真实数据集上进行了测评;在线部分,实际进行AB流量实验对比评估了效果。
离线测评时,采取了“非多任务学习noMTL”、“硬共享HS”、“MoE”、“MMoE”、“CGC(PLE的单层版本)”作为基线模型,设置了“单任务MVKE-st”和“多任务MVKE-mt”两个实验模型,探索了在“兴趣标签+意向标签”联合建模场景数据集下的表现。效果在下图给出,实验结果主要表明MVKE模型大致取得了所有模型中的最佳表现,单任务版本的两次建模在一些案例中能够打败多任务版本。通过消融对比,VKE的作用在单任务和多任务中同时显现了。
在线实验时,我们通过实验系统对MVKE建模后的标签作用在分组的用户群体上,在1%、10%、50%上分别取得了显著的业务指标(GMV和消耗)提升。更多的实验效果详情可以参考论文。
五、总结展望
本文提出了一种创新性的方法MVKE模型用于用户标签建模,能够同时在大规模用户场景下,实现对多话题和多动作的多目标标签建模。其中的VKE结构专注在特定领域下进行用户表示,VKG可以很好地将VKE的结果在另一塔的输出指导下进行融合。实验中,MVKE在离线和在线都取得了最佳表现,即使在单动作目标下,也能突破双塔信息交互限制,取得更佳的效果。
本文聚焦在对用户的更深层次和更全面的建模理解工作上,沉淀了全新的MVKE模型。在当前实践中,这一技术能提供更方便的与客户共建开放共赢的商业化生态能力,客户的高质量数据也得以在模型中进行表达。
MVKE模型目前在数据挖掘侧,通过对客户数据中不同行为目标、不同赛道品类等多维度信息进行统一而深入的价值挖掘,更加全面地进行了用户建模理解,为广告系统的排序模型、个性化出价、冷启动等都发挥了广泛的作用,充分发挥了客户数据价值,服务于广告投放效果,后续也将随着广告系统的持续升级进一步优化迭代。
文章来源:公众号【腾讯广告算法大赛】 作者:腾讯广告技术团队
Illustratio n by nanoagency from IconScout
-The End-
扫码观看!
本周上新!
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
⤵一键送你进入TechBeat快乐星球
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.