网易首页 > 网易号 > 正文 申请入驻

COLING 2022 | CPSUM:低资源场景下的半监督文本摘要抽取式模型

0
分享至

本文主要介绍我们在自然语言处理领域被 COLING 2022 接收的工作。我们提出了CPSUM,一种解决低资源场景的半监督文本摘要抽取式模型。该模型引入了数据加噪增强的一致性学习方法与熵约束伪标签学习方法,仅需要极小规模的有标签数据,结合大规模的无标签数据进行训练,较好利用了低熵分布的无标签数据来提高摘要模型决策边界的精准性,获得比有监督学习更强的泛化性能,并且极大地减少了自动摘要模型对标注数据的依赖。

论文链接: https://aclanthology.org/2022.coling-1.561/ 代码链接: https://github.com/OpenSUM/CPSUM

一、背景与挑战

当前比较主流的摘要任务数据集,例如 CNN/DailyMail、BBC XSUM 等,都需要大量的有标签训练数据,无论是生成式的人工摘要撰写,还是抽取式的句子分类标注,其数据的构建规模与标注成本巨大。半监督学习(SSL)旨在利用少量有标签数据和大量无标签数据进行模型训练。

过去的几十年间,SSL 在多个领域都引起了广泛的研究兴趣,包括协同学习(Co-Training)、自集成学习(Pi-model,Temporal Ensembling,Mean-Teacher)、一致性正则(Consistency Training)等方法陆续被提出。本文聚焦于少标注的低资源场景,仅依赖少量有标签数据并结合大量的无标签数据,对半监督抽取式摘要任务进行了一系列的探索。主要涉及两个方面:

  1. 半监督学习解决监督学习模型的泛化能力不强和无监督学习模型的不精确等问题;

  2. 数据增强加噪的一致性学习与熵约束的伪标签学习,提高模型决策边界的精确性。


二、方法

首先,CPSUM 在一致性学习框架下,引入少量有标签数据,并加噪大量无标签数据进行一致性正则训练,该过程为无标注数据增强加噪的一致性训练过程。其次,CPSUM 集成了一种熵约束的伪标签学习方法,该过程包含了一种信息熵约束的伪标签筛选方法。接下来简要介绍我们的模型细节。

2.1 数据增强加噪的一致性学习2.1.1 数据增强加噪

数据增强的目的是给无标柱数据获取加噪数据,在数据增强阶段,我们沿用了 TinyBERT 中的数据增强做法。对于 Single-piece Word,我们将源文本进行遮盖,进行 BERT 预训练预测后,用预测结果来替换原有的词语,以此获得增强样本。对于 Multiple-pieces Word,我们直接采用 Glove 中预训练好的词向量进行替换。至此,准备好了有标签、无标签数据,以及每个无标签数据对应的增强数据。

2.1.2 一致性学习

一致性训练框架包括有监督训练与无监督一致性训练过程。模型的输入包括有监督的训练样本 , 以及若干组无监督的样本 及其对应的增强数据 。有监督损失为网络输出的分布与真实分布进行交叉熵:

无监督损失即一致性训练损失,是无监督样本及其增强样本对应的两个模型预测分布,并进行均方差损失计算,目的是让这两个分布尽可能相似:

在无监督损失前的平衡系数,便于调整有监督和无监督训练之间的重要程度,最终训练的总损失为:

2.2 熵约束的伪标签选择2.2.1 自适应熵约束伪标签选择

无标签数据在被用于模型正则的一致性训练后,是否可以利用高置信度的预测结果作为标注进一步训练模型呢?答案是肯定的,事实上,在前向传播和损失计算完成之后,高置信度的预测结果可以作为伪标签数据被模型再次利用,这样做的好处是为模型带来更多的分布近似标签数据。然而现有的伪标签学习方法多为设置阈值进行伪标签筛选,存在一定的噪声,容易造成错误传播。

我们提出熵约束的自动伪标签筛选机制,用有监督输出结果的熵来约束无监督输出结果的熵,并选择低熵样本作为高置信度的伪标签数据。具体而言,在每一训练时刻,有监督部分的模型预测值与无监督部分的模型预测值,通过 Softmax 归一化后,输出结果的熵分别为:

当无监督样本输出分布的平均熵小于有监督样本时,即 为维度归一化因子) 时,可以视为该无监督结果的置信度是较高的,将其作为新的有监督数据保留下来。这里我们强调使用的是平均熵,即在原有熵的基础上除以了输出分布的维度大小,起到了归一化的作用,避免了维度差异带来的结果影响。

2.2.2 概率梯度上升的二次过滤

在模型训练初期,模型的训练结果的正确性较差,因为有监督输出分布的平均熵本身可能较高,因此会将更多的无监督噪声样本给筛选进去。为了防止这样的现象发生,我们还加入了一个概率梯度上升的伪标签二次过滤机制。

具体而言,我们设置一种 Ramp-up 的伪标签笄选方法,随着训练时刻线性上升的 概率值 ,对于刚刚被笽选出来的伪标签,有 概率被最终归为有监督样本,而有 概率被丟弃掉。这样能够在一定程度上使得网络训练初期的伪标签被更少地选择出来,当模型训练趋于稳定,预测的准确性等到保障后,再由模型通过熵约束自动选择更多的伪标签进行有监督训练。

三、实验结果

主实验部分,我们采用了两个主流抽取式摘要数据集,分别是长文本摘要数据集 CNN/DailyMail 和短文本摘要数据集 BBC XSUM,并将有监督数据集规模分别设置为 10、100、1000。同时,我们还测试了软标签和硬标签两种类伪标签的性能影响。

  1. 所有的数据集规模下都实现了显著的性能提升,相比于纯有监督训练,当有监督数据量为 100 时,效果尤为显著,在 ROUGE-1, ROUGE-2 和 ROUGE-L 这三个指标上分别实现了 1.17、0.86 和 1.09 个点的性能提升。

  2. 硬标签比软标签的性能更为优异,因为硬标签相对于软标签而言,带有的噪声更加少。

对于 CPSUM 模型的不同组成部分,我们进行了消融实验分析。 发现在一致性正则框架下,引入我们提出的自适应熵约束机制,以及高置信度伪标签进行二次筛选之后,模型的整体性能提升最为明显,说明了熵约束伪标签学习方法的有效性。

可视化展示,随着伪标签的加入有效的缓解了少标注下模型的过拟合现象(开始跳出局部最优解)。同时,相比于不经过任何筛选的伪标签学习过程,经过熵约束筛选后的伪标签能够更有效地提升整体模型的性能(红色曲线上升)。

四、总结

在本文中,我们实现了一种少标注的半监督学习的低资源抽取式摘要方法。有效地利用无标注数据的半监督学习方法提高模型在极少标注下的抽取式摘要性能。通过数据增加噪的噪声注入的一致性训练和平均熵来约束的伪标签学习,我们的模型获得了比有监督学习更强的泛化性能。未来工作也将持续关注低资源场景的自然语言理解与自然语言生成任务。

作者:MQR

Illustration by Pixel True from IconScout

-The End-

本周上新!

扫码观看!

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雷暴!大风!冰雹!强对流天气将抵达广西【930新闻眼】

雷暴!大风!冰雹!强对流天气将抵达广西【930新闻眼】

930老友记
2025-03-01 22:45:11
为什么突然感觉列强都不强了?(深度好文)

为什么突然感觉列强都不强了?(深度好文)

阿燕姐说育儿
2025-02-28 00:41:07
著名杀猪盘——韩国浦项钢铁,被印度折磨了十二年,没炼一斤铁

著名杀猪盘——韩国浦项钢铁,被印度折磨了十二年,没炼一斤铁

蓝色海边
2025-02-27 10:31:23
女篮大换血!宫鲁鸣确定奥运第一核心,讽刺某大牌球星花里胡哨!

女篮大换血!宫鲁鸣确定奥运第一核心,讽刺某大牌球星花里胡哨!

猎奇密探
2025-03-01 19:20:05
这不抢风头吗!河南一伴娘把礼服穿成抹胸裙:新郎都有些不好意思

这不抢风头吗!河南一伴娘把礼服穿成抹胸裙:新郎都有些不好意思

唐小糖说情感
2025-02-19 15:46:20
2025中国女篮12人大名单换血,没有人情世故,只看能力和战术需求

2025中国女篮12人大名单换血,没有人情世故,只看能力和战术需求

二疯说球
2025-02-28 13:42:51
败光3亿!哈里凌晨给威廉转账记录曝光,女王棺材板压不住了

败光3亿!哈里凌晨给威廉转账记录曝光,女王棺材板压不住了

沧海一书客
2025-02-27 08:54:07
2025年工商银行存款利率上涨?存20万到期利息11400,储户有福了

2025年工商银行存款利率上涨?存20万到期利息11400,储户有福了

如烟财道
2025-03-01 14:21:22
美媒高呼裁判可耻:勒布朗被击中面门还“边缘接触” 老詹IG回顾

美媒高呼裁判可耻:勒布朗被击中面门还“边缘接触” 老詹IG回顾

颜小白的篮球梦
2025-03-01 20:11:07
世乒赛提前抽签,理由无非只有3个,国乒难题来了,刘国梁难抉择

世乒赛提前抽签,理由无非只有3个,国乒难题来了,刘国梁难抉择

时刻体育正版
2025-02-28 23:32:42
2025浙江养老金调整预测:人均涨幅或破4%关口,这些人领最多!

2025浙江养老金调整预测:人均涨幅或破4%关口,这些人领最多!

娱乐洞察点点
2025-03-01 17:32:19
爆!吴越赵文瑄官宣恋情,娱乐圈又添甜蜜CP!陈建斌选择了沉默...

爆!吴越赵文瑄官宣恋情,娱乐圈又添甜蜜CP!陈建斌选择了沉默...

澳洲红领巾
2025-02-28 12:34:11
江苏女排3-0战胜上海女排,赛后传来3个好消息和1个坏消息

江苏女排3-0战胜上海女排,赛后传来3个好消息和1个坏消息

郝小小看体育
2025-03-01 17:26:18
尊界法务出手了!对造谣抹者黑已报案取证,涉事者已被公安处罚!

尊界法务出手了!对造谣抹者黑已报案取证,涉事者已被公安处罚!

阿纂看事
2025-03-01 10:42:57
暴雷两个半月后崩系统?极越车机APP开始出问题了……

暴雷两个半月后崩系统?极越车机APP开始出问题了……

柴狗夫斯基
2025-02-27 11:31:54
中国船进港要掏150万美金?美犯下致命错误,全球哗然!

中国船进港要掏150万美金?美犯下致命错误,全球哗然!

速看报料
2025-03-01 16:44:23
做事都得先攀关系!一个北方人到江浙沪5年后,痛斥北方衰落原因

做事都得先攀关系!一个北方人到江浙沪5年后,痛斥北方衰落原因

西游日记
2024-01-11 10:50:25
刘太阳为啥这么火?看看她的身材,这能不火吗!

刘太阳为啥这么火?看看她的身材,这能不火吗!

星辰生肖馆
2025-03-02 01:27:49
婚礼大屏幕上惊现他人不雅照,现场600人播了近半分钟,新人起诉索赔!婚庆公司:司仪、调音都是外包的

婚礼大屏幕上惊现他人不雅照,现场600人播了近半分钟,新人起诉索赔!婚庆公司:司仪、调音都是外包的

大风新闻
2025-03-01 08:46:03
未来可期!18岁王钰栋本轮首发,18岁刘诚宇、19岁朱鹏宇中超首秀

未来可期!18岁王钰栋本轮首发,18岁刘诚宇、19岁朱鹏宇中超首秀

直播吧
2025-03-01 21:46:40
2025-03-02 05:28:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2066文章数 592关注度
往期回顾 全部

科技要闻

再次震惊!价格屠夫DeepSeek理论利润率545%

头条要闻

特朗普"吵架"时怼CNN:收视率这么低 先关心自己死活吧

头条要闻

特朗普"吵架"时怼CNN:收视率这么低 先关心自己死活吧

体育要闻

詹姆斯连创多项第一 核心PK完胜小卡

娱乐要闻

方大同悼念仪式完成 生前最后话语曝光

财经要闻

雷军,释放了一个新信号

汽车要闻

2025款小鹏G6发布 标配图灵AI智驾/5C超充电池

态度原创

本地
教育
手机
艺术
公开课

本地新闻

云游中国|来雁塔区,变身长安潮人

教育要闻

小升初数学几何题,今天辅导侄女很久,才把她教会

手机要闻

中国手机市场格局变迁:华为凤凰涅槃,苹果仅排第四名!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版