网易首页 > 网易号 > 正文 申请入驻

挑战单卡单日训练BERT,ViT作者推荐

0
分享至

Pine 发自 凹非寺
量子位 | 公众号 QbitAI

单个GPU,只花一天时间,能把BERT训练成什么样?

现在,终于有研究人员做这件事了,在有限的计算条件之下看看语言模型的真实性能如何。

要知道在以往,大多数专业人员的关注点都在极端计算的条件下的语言模型性能。

但这样的语言训练模型环境,对很多研究人员和从业人员是不可能存在的。

因此这个单天单个GPU的挑战,就有网友称是一个最希望看到的基准。

连ViT作者,谷歌大脑研究员Lucas Beyer都发文推荐,称这是一个令人耳目一新的转变。

具体的过程和结果如何,一起来看看~

挑战过程

这次研究的目标也很明确,就是反其道行之:缩小语言训练模型的算力,在有限的计算量的情况下如何达到BERT的性能水平

既然要缩小计算量,那第一步肯定是对模型作出一些限定。

这也还是之前提到的,限定时间和GPU个数:单天单个GPU。

关于GPU,研究人员分别选取了3个进行测试,即rtx2080ti、rtxa4000和rtxa6000,每个单元有4个CPU核和32GB内存。

在限定计算量之后,就要对模型的其他参数进行一些调整,以进一步对BERT的实际适用性进行评估

这些调整包括初始数据设置、模型架构、训练以及数据集的改进。

并且在调整的过程中,整体基调都是围绕“实际使用”进行的,避免跳转到专业的设置,为此,研究人员将所有内容都保持在PyTorch框架的实现级别上。

先来说说初始数据设置,这部分可以简单概括为以下几点:

  • 将标记化的数据打包成长度为128的随机序列,不相关的片段用
  • 分割;
  • 删除< cls > 标记,因为在训练前训练中加入它并没有对性能产生多大影响;
  • 将序列长度为64到96微小批量累积到大批量再处理。

然后是对架构的修改,下图显示了不同模型在随着token数量的增加MLM任务损失的变化。

结果很显然,一个模型损失的衰减很大程度地取决于模型的大小,而不是模型的类型。

并且,因为每个token的性能与模型大小之间的关系紧密耦合,若想通过改变Transformer模型的大小和类型来获得巨大性能增益是不太可能的。

不过对于同大小的所有模型,每个梯度效率是几乎保持不变的,因此可以在保证模型大小不变的情况下,选择能够通过快速搜索加速计算的架构。

具体的优化和其他调整如下:

  • 减少注意力头的数量来降低梯度成本:禁用所有QKV偏差;
  • 禁用所有线性层偏差,通过加速梯度计算,不会对模型大小产生明显影响;
  • 实现比例正弦位置嵌入,相较于学习或非比例正弦嵌入有增量收益;
  • LN的预标准化比后LN更有益;
  • 去除非线性头部并无影响。

接下来便要对训练进行设置,具体也就不再赘述,直接来看相关调整:

  • 优化器依旧是Adam;
  • 设定Learning Rate计划和批量大小;
  • 丢掉Dropout环节。(因为Dropout会导致每秒更新的净减少)

而在数据集方面,研究团队采用了两种基于数据的途径来更好地缩小规模,分别是以各种方式过滤、处理或排序现有的数据交换数据源,具体可以看下表。

性能接近最初的BERT

在调整完各种参数后,这个单卡一天的BERT性能到底如何?直接看看最终的数据!

在下游性能评估时是通过GLUE来进行的,下表能够看到在3个不同显卡上的得分,非常接近最初的BERT。

而当模型训练计算量为16倍时,即(2天,在8个GPU),依旧是一样的数据和设置,最终得到的结果比最初的BERT提高了很多,达到了RoBERTa的性能水平。

如果想了解更多,可以点击下面链接查看论文原文~

论文原文:
https://arxiv.org/abs/2212.14034

参考链接:
https://twitter.com/giffmana/status/1608568387583737856

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
查索夫亚尔失守!全城守军被歼,司令部全员投降,防线崩溃

查索夫亚尔失守!全城守军被歼,司令部全员投降,防线崩溃

忆丹倾城
2024-11-30 18:44:24
全家都没案底为啥政审没过?工作人员拿出浏览记录,男生社死了

全家都没案底为啥政审没过?工作人员拿出浏览记录,男生社死了

阿蒙聊教育
2024-09-05 21:44:28
范冰冰饭局照流出,喝酒还吐舌头,素颜温婉大方,和妆后判若两人

范冰冰饭局照流出,喝酒还吐舌头,素颜温婉大方,和妆后判若两人

南城无双
2024-10-25 23:54:18
买香菇时,挑大的还是小的?菜贩子透露:区别很大,别再买错了!

买香菇时,挑大的还是小的?菜贩子透露:区别很大,别再买错了!

阿龙美食记
2024-11-28 14:50:53
詹俊:阿森纳7天三连胜+积分跳升第2,明晚可以坐山观虎斗啦!

詹俊:阿森纳7天三连胜+积分跳升第2,明晚可以坐山观虎斗啦!

直播吧
2024-12-01 03:40:13
《我是刑警》200吨黄豆被盗!吃一顿24元的午饭,3名警察立马破案

《我是刑警》200吨黄豆被盗!吃一顿24元的午饭,3名警察立马破案

烟花五月下苏州
2024-11-30 23:24:08
中国驻俄罗斯使馆提醒俄将在入出境口岸试运行采集外国公民指纹

中国驻俄罗斯使馆提醒俄将在入出境口岸试运行采集外国公民指纹

环球网资讯
2024-11-30 07:55:16
本田拟收购日产股权   日系车大合并来了

本田拟收购日产股权 日系车大合并来了

沙雕小琳琳
2024-12-01 10:14:23
亏损超1亿,《古惑仔》新片票房崩塌,我感慨:这金字招牌算砸了

亏损超1亿,《古惑仔》新片票房崩塌,我感慨:这金字招牌算砸了

农村教育光哥
2024-12-01 11:37:04
陈道明:如果一个人熬到没有人联系你,没有饭局邀约,没有所谓的社交,那么恭喜你

陈道明:如果一个人熬到没有人联系你,没有饭局邀约,没有所谓的社交,那么恭喜你

我是娱有理
2024-11-03 06:32:03
苹果的CPU非常强大,为什么会这样?苹果cpu又是谁设计的?

苹果的CPU非常强大,为什么会这样?苹果cpu又是谁设计的?

小兔子发现大事情
2024-12-01 07:30:53
这三种超速已经“豁免”,不扣分不罚款,可以放心踩油门了

这三种超速已经“豁免”,不扣分不罚款,可以放心踩油门了

沙雕小琳琳
2024-12-01 07:30:38
江苏原常委赵少麟:开国上将之子,退休8年因其子赵晋而入狱

江苏原常委赵少麟:开国上将之子,退休8年因其子赵晋而入狱

文史旺旺旺
2024-11-25 21:04:27
俄罗斯苏57飞行员驾机回国后竟然如此评价我国最新歼35战斗机!

俄罗斯苏57飞行员驾机回国后竟然如此评价我国最新歼35战斗机!

凯撒谈兵
2024-11-28 20:45:27
突发!台湾地震,多地有震感

突发!台湾地震,多地有震感

环球网资讯
2024-12-01 11:27:03
建议中老年:少吃花生瓜子多吃3样碱性菜,头发黑嘴不臭身体健康

建议中老年:少吃花生瓜子多吃3样碱性菜,头发黑嘴不臭身体健康

斯佳丽的小厨房
2024-11-28 07:00:03
一个人的预感能有多准?网友:突然有种炸毛的感觉 救了自己一命

一个人的预感能有多准?网友:突然有种炸毛的感觉 救了自己一命

娱乐洞察点点
2024-11-29 11:09:50
孙颖莎凌晨12点罕见发文,引无数网友落泪:刘国梁有愧!

孙颖莎凌晨12点罕见发文,引无数网友落泪:刘国梁有愧!

等风来育儿联盟
2024-12-01 09:17:22
2024全球射手榜:C罗42球追平武磊,冲进前4!哈兰德第2

2024全球射手榜:C罗42球追平武磊,冲进前4!哈兰德第2

叶青足球世界
2024-11-30 15:10:46
道光年一位小县令写的楷书,这字放现在得让多少书法家汗颜啊?

道光年一位小县令写的楷书,这字放现在得让多少书法家汗颜啊?

书画博学
2024-11-25 08:58:45
2024-12-01 13:51:00
量子位
量子位
追踪人工智能动态
9685文章数 175723关注度
往期回顾 全部

科技要闻

我国首个商业航天发射场首发成功

头条要闻

德国称确认两名涉嫌破坏"北溪"管道人员

头条要闻

德国称确认两名涉嫌破坏"北溪"管道人员

体育要闻

两翼齐废,凯恩受伤,还好拜仁有他!

娱乐要闻

鹿晗直播回应被骂:不管怎么骂都开心

财经要闻

女首富,死刑!交出800亿,免死!

汽车要闻

科技是中国豪车梦的支点 腾势Z9走心试驾体验

态度原创

艺术
亲子
教育
时尚
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

闺女和乌龟一起玩时喊爸爸,网友:叫她小王八犊子

教育要闻

济南、青岛、临沂民办高中学费一览(含最新收费标准)

那些会穿的中年女人,都掌握了这3个搭配技巧,时髦又耐看

军事要闻

泽连斯基开出停火条件 俄方回应

无障碍浏览 进入关怀版