网易首页 > 网易号 > 正文 申请入驻

前沿 | 斯坦福AI Lab研究 :语言模型能知道一头大象有多重吗?

0
分享至

转自 数据实战派

作者:Xikun Zhang(斯坦福计算机科学 Ph.D.)

译者:张雨佳

原文:Do Language Models Know How Heavy an Elephant Is?

一头大象有多重?一个结婚戒指有多贵?

人类对不同对象的比例,或者这些数字属性的合理范围有相当好的尺度感,但是预训练语言表示可以做到吗?

尽管像 BERT 这样经过预训练的语言模型已经在各种知识(包括事实性知识)方面展示了非凡的学习能力,但目前,尚不清楚它们的表示是否可以在不需要明确显示训练数据的情况下,单独从文本中捕获到这类数字属性。

在最近的论文 Do Language Embeddings Capture Scales?

中,我们测量了几种预训练文本表示法捕获尺度信息的数量,并表明,虽然这些方法通常可以捕获大量信息,但它们当前表现出来的性能与理论上限之间仍然存在很大的差距。我们明确指出了哪些文本表示是上下文相关的,并且对于捕获尺度信息并进行数值推理的效果较好。我们还提出了一个 BERT 的新版本 ——NumBERT。通过用科学符号代替预训练文本语料库中的数字,使其更容易将量级 / 规模这样的概念 “暴露” 给模型,改进其数值推理能力,并且还证明了 NumBERT 表示比先前所有的文本表示方法捕获尺度的能力都要好。

Scalar Probing

为了了解预训练后的文本表示(如 BERT)在多大程度上可以捕获尺度信息,我们提出了一项尺度探究(Scalar Probing

)任务:预测对象的尺度属性值分布的能力。在这项工作中,我们特别关注三种尺度属性:重量、长度和价格。

下面是尺度探究任务的基本架构:

该例中,我们试图通过一个预训练好的编码器提取 “狗” 的表示信息,并通过线性模型来预测或恢复狗的体重分布。我们探索了三种语言表示的基线模型:Word2Vec、ELMo 和 BERT。由于后两种都是对句子而非单词进行操作的上下文表示,因此我们输入的是使用固定模板构建的句子。例如,我们使用 “The X is heavy” 作为重量的模板,其中 X 是感兴趣的目标。

我们探索了预测点估计值和预测完整分布这两种类型。为了预测点估计值,我们使用一个训练过的标准线性回归(记作 “rgr”)来预测每个对象尺度属性中位数的对数值。对对数值进行预测是因为我们关心的是一般的尺度信息,而不是确切的值。Loss 值是通过计算预测值和真实分布中中位数的对数值得到的。为了预测完整分布,我们使用一个线性分类器 Multi-Class Classifier(记为 “mcc”)产生了一个 12 个数量级的类别分布。使用 NumBERT(改进的 BERT 版本,下文将详细介绍)对类别分布进行预测,结果见上述示例中的橙色直方图。

我们使用的真实分布来自于 Distributions over Quantities(DOQ)数据集,它从大型在线文本语料库中自动提取,包括超过 35 万个名词、形容词和 10 个以上不同属性的动词。不过在构建数据集时,要将每个属性的所有单元统一到一种单位(例如将厘米 / 米 / 公里统一到米),并相应地对数值进行缩放。我们将 DoQ 中每个目标 - 属性对的集合转换为一个超过 12 个数量级的类别分布。在上面的示例中,狗体重的真实分布显示为灰色直方图,可以看到体重大概集中在 10-100kg。

对所有目标 - 属性对进行预测时的性能越好,预训练表示对相应的尺度信息编码就越好。

NumBERT

在查看这些不同语言模型的尺度探究结果之前,让我们想想哪种表示可能拥有比较好捕获尺度信息的能力,以及怎样才能提高现有语言模型,使其更好地获取尺度信息。这些模型都是使用大型在线文本语料库(例如维基百科,新闻等等)进行训练的,所以它们是如何表示从文本中获取的尺度信息呢?

这有一段文字是我在谷歌上搜索 “大象体重” 的时候出来的:

“... 非洲象的体重从 5000 磅到超过 14000 磅不等(6350 千克)...”

所以,尺度的学习在一定程度上很可能是从数字(比如 5000,14000 等)向名词(比如大象)和计算能力的转换实现的。即理解推理数字的能力可能对表示尺度非常重要!

然而,前期工作表明,现有的预训练文本表示都不擅长数字推理,包括 BERT,ELMo 和 Word2Vec。如果超过了 500 这个数量级,它们甚至无法通过 word embedding 编码成数字。例如对(“710”)无法嵌入编码成 710。因此,我们建议将语言模型训练数据中的数字实例改用科学符号表示,并重新对 BERT 进行训练(即 NumBERT),以改进模型的数字推理能力。这种方法可以使模型更容易将句子中的目标直接与以指数表达出的大小相联系,从而忽略相对不重要的尾数。

研究结果

上表展示了在 DoQ 数据上对尺度探究的结果。我们使用了三个评价指标:准确率、均方误差(MSE)和 Earth Mover’s distance(EMD,距离度量),并在 4 个领域进行实验:长度、质量、价格和动物质量(质量的一个子集)。MSE 和 EMD 这两个指标的最好评价是 0,而准确率需要我们通过在真实数据分布中采样并对模型进行评估,来计算一个宽松上限。比如在长度探究中的准确率上限为 0.570,质量上是 0.537,价格上是 0.476。

我们计算了训练集中所有物体在柱状图上的经验性分布,并作为测试集物体的预测分布,得到每个属性的 baseline。与该 baseline 相比,我们看出 mcc 只有最好文本表示获取模型的一半(用准确率评价时),和与上述提到的上限的三分之一(用 MSE 和 EMD 评价)。这表明虽然存在大量的尺度信息,但要让模型具有可靠的常识推理能力,还有很长的路要走。

具体来说,NumBERT 方法在 EMD 指标上一直优于其他所有方法,而由于 EMD 有较好的收敛性并且可以对抗数据分布中的扰动,所以是一个最具鲁棒性的度量标准。Word2Vec 的性能明显不如上下文表示,甚至是无上下文的任务(因为在我们的设置中,一个物体在不同的上下文中是一样的真实标签)。此外,尽管在下游的自然语言处理任务上 ELMo 没有 BERT 好,但它在尺度探究方面做得更好,这与其具有字符级的标记所以在算数方面更好的结果相一致。

Zero-shot 迁移

我们注意到 DoQ 是从在线文本中派生出来的,包含噪声。所以我们在包含尺度属性真实标签的两个数据集上对 DoQ 进行训练评估:

VerbPhysics 和 Amazon Price Dataset。第一个数据集是人为打标的相对数据集(例如人,狐狸,重和大)。对该任务的预测是通过比较 rgr 的点估计和 mcc 的最高分区间来实现的。第二个数据集是亚马逊商品的价格统计分布,我们对 DoQ 价格的调查进行重新训练,以支持更细粒度的预测。

结果显示在上表,对于 VerbPhysics 数据集,rgr+NumBERT 的性能最好,接近了以 DoQ 的性能,尽管很少有针对该任务的模型。用 mcc 训练的尺度探究较差,可能是因为预测分布的细粒度模型对于三类比较的任务不适用。

在 Amazon Price Dataset 数据集(下表)上的全分布预测任务,mcc+NumBERT 在所有分布指标上都达到最优。在这两个 zero-shot 迁移任务上,NumBERT 在所有指标和目标上都表现最好,意味着对预训练语料库中数字表示的文本进行处理,可以显著提高尺度预测的性能。

未来前景

在上述工作中,我们引入了一个名为尺度探究的新任务,用来确定预训练过的文本表示可以捕获多少目标的数字属性信息。并且发现虽然目标表示中存在大量的尺度信息(理论上限的一半到三分之一),但现有模型远没有达到常识尺度的理解。我们还提出了一个改进的 BERT 版本,叫做 NumBERT,它捕获尺度信息的能力比之前所有的都好。

尺度探究开辟了一个新的可供探索的领域。例如,有许多工作已经预训练了大规模的视觉和语言模型,比如 ViLBERT 和 CLIP。研究这些表示可以捕获多少尺度信息,并将它们与仅由单语言模型学习到的表示进行系统比较是非常有趣的。

而且,学习可以更好预测尺度的文本表示模型会对现实世界有巨大的影响,例如在网页上查询:“世界上最高的建筑有多高?”

有了对 “建筑” 合理高度范围的常识理解,我们就可以检测出当前网页上检索或解析时 QA 系统出现的错误。例如,维基百科对一座建筑的句子错误地解析为 19 英里而不是 19 米。

References:

http://ai.stanford.edu/blog/scalar-probing/

https://arxiv.org/abs/2010.05345

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
克里米亚大桥疑遭F16攻击,俄罗斯向菲律宾交付高超音速反舰导弹

克里米亚大桥疑遭F16攻击,俄罗斯向菲律宾交付高超音速反舰导弹

史政先锋
2024-07-01 18:44:56
继赵睿后,又一重庆小伙吴某宏在乌克兰当了炮灰?

继赵睿后,又一重庆小伙吴某宏在乌克兰当了炮灰?

非虚构故事
2024-07-01 21:45:43
3年5000万加盟独行侠!汤普森,牛掰!真要报复整个NBA……

3年5000万加盟独行侠!汤普森,牛掰!真要报复整个NBA……

篮球实战宝典
2024-07-02 04:42:09
NASA称中国未邀请其参与研究月壤,外交部:美国政府允许吗?

NASA称中国未邀请其参与研究月壤,外交部:美国政府允许吗?

澎湃新闻
2024-07-01 15:30:27
复旦校花冯琳顺利毕业,初出校园已是职场老人,未来发展备受关注

复旦校花冯琳顺利毕业,初出校园已是职场老人,未来发展备受关注

阿蒙聊教育
2024-06-29 15:24:33
中农集团美女经理王蓓被查 高清无码照曝光 长相漂亮风韵犹存

中农集团美女经理王蓓被查 高清无码照曝光 长相漂亮风韵犹存

芒果的爱pMgf
2024-07-01 12:41:55
真不给面子!好歹也是9届全明星,连底薪都不值吗?非要扫地出门

真不给面子!好歹也是9届全明星,连底薪都不值吗?非要扫地出门

球毛鬼胎
2024-07-01 14:21:26
网传苏州一家美资厂解散停业!将搬至越南,员工N+3的赔偿到账…

网传苏州一家美资厂解散停业!将搬至越南,员工N+3的赔偿到账…

火山诗话
2024-07-02 07:10:48
水花分手!揭秘克莱3年5000万签换独行侠:湖人报价更高为何无缘

水花分手!揭秘克莱3年5000万签换独行侠:湖人报价更高为何无缘

罗说NBA
2024-07-02 05:40:28
17岁国羽小将赛场猝死细节曝光,现场处置令人愤怒!姐姐发声质疑

17岁国羽小将赛场猝死细节曝光,现场处置令人愤怒!姐姐发声质疑

鲁中晨报
2024-07-01 14:59:16
新疆天山多次出现“红柳娃”?身高不足一尺,喜欢偷路人的东西!

新疆天山多次出现“红柳娃”?身高不足一尺,喜欢偷路人的东西!

附允历史观
2024-07-01 18:16:17
热搜爆了!李雪琴这次的瓜,有点大

热搜爆了!李雪琴这次的瓜,有点大

柴叔带你看电影
2024-07-01 23:48:36
胡锡进:希望武汉给年轻人点希望,多创造点高于月薪1700的工作

胡锡进:希望武汉给年轻人点希望,多创造点高于月薪1700的工作

映射生活的身影
2024-07-01 20:01:06
123岁的提篮桥监狱完成整体搬迁,当年人们曾在屋顶上围观枪决日本战犯

123岁的提篮桥监狱完成整体搬迁,当年人们曾在屋顶上围观枪决日本战犯

上观新闻
2024-07-02 07:10:41
教科书式“变脸”,日方称“或为无差别行凶”后,某博主180度改口

教科书式“变脸”,日方称“或为无差别行凶”后,某博主180度改口

不掉线电波
2024-07-01 17:07:37
美国公布13名华人富豪名单,涉及8万亿美元资产,温铁军“躺枪”

美国公布13名华人富豪名单,涉及8万亿美元资产,温铁军“躺枪”

王五说说看
2024-07-01 11:11:29
欧洲杯8强确定6队!3组对决出炉:法国大战葡萄牙 西班牙PK德国

欧洲杯8强确定6队!3组对决出炉:法国大战葡萄牙 西班牙PK德国

念洲
2024-07-02 05:47:27
16岁中国留学生在新西兰遇袭!公交上被铁棍打掉5颗牙,仅75岁老华人出手相助

16岁中国留学生在新西兰遇袭!公交上被铁棍打掉5颗牙,仅75岁老华人出手相助

不掉线电波
2024-07-01 16:15:53
网传老师要求家长来打扫卫生,因无人报名恼羞成怒:以后学生成绩与我无关

网传老师要求家长来打扫卫生,因无人报名恼羞成怒:以后学生成绩与我无关

西游日记
2024-07-01 10:48:03
3年5000万!汤普森加盟独行侠!拒绝湖人4年合同,詹姆斯成了笑话

3年5000万!汤普森加盟独行侠!拒绝湖人4年合同,詹姆斯成了笑话

篮球教学论坛
2024-07-02 05:54:20
2024-07-02 08:12:49
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
2714文章数 1455关注度
往期回顾 全部

科技要闻

“5年0息”!特斯拉变相降价

头条要闻

媒体:中国关于稀土的"管理条例" 又让西方破了大防

头条要闻

媒体:中国关于稀土的"管理条例" 又让西方破了大防

体育要闻

葡萄牙的神!他拯救C罗拯救葡萄牙

娱乐要闻

今年内娱最大的闹剧,该收场了

财经要闻

酒鬼酒甜蜜素风波后再迎人事变动

汽车要闻

奥迪Q6 e-tron Sportback官图曝光

态度原创

游戏
时尚
教育
本地
健康

地牢RPG《塔京》年内推出 首次推出中文

这双鞋太火了!怎么搭都好看|好物

教育要闻

3名小学生5分钟吃30个饺子,4名小学生8分钟吃几个饺子?

本地新闻

冷知识:东北雪糕才是最早的网红雪糕

人类为何至今无法攻克渐冻症?

无障碍浏览 进入关怀版