网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

挑战单卡单日训练BERT，ViT作者推荐

2023-01-01 13:12:52　来源: 量子位

北京举报

0

分享至

Pine 发自凹非寺
量子位 | 公众号 QbitAI

单个GPU，只花一天时间，能把BERT训练成什么样？

现在，终于有研究人员做这件事了，在有限的计算条件之下看看语言模型的真实性能如何。

要知道在以往，大多数专业人员的关注点都在极端计算的条件下的语言模型性能。

但这样的语言训练模型环境，对很多研究人员和从业人员是不可能存在的。

因此这个单天单个GPU的挑战，就有网友称是一个最希望看到的基准。

连ViT作者，谷歌大脑研究员Lucas Beyer都发文推荐，称这是一个令人耳目一新的转变。

具体的过程和结果如何，一起来看看～

挑战过程

这次研究的目标也很明确，就是反其道行之：缩小语言训练模型的算力，在有限的计算量的情况下如何达到BERT的性能水平。

既然要缩小计算量，那第一步肯定是对模型作出一些限定。

这也还是之前提到的，限定时间和GPU个数：单天单个GPU。

关于GPU，研究人员分别选取了3个进行测试，即rtx2080ti、rtxa4000和rtxa6000，每个单元有4个CPU核和32GB内存。

在限定计算量之后，就要对模型的其他参数进行一些调整，以进一步对BERT的实际适用性进行评估。

这些调整包括初始数据设置、模型架构、训练以及数据集的改进。

并且在调整的过程中，整体基调都是围绕“实际使用”进行的，避免跳转到专业的设置，为此，研究人员将所有内容都保持在PyTorch框架的实现级别上。

先来说说初始数据设置，这部分可以简单概括为以下几点：

将标记化的数据打包成长度为128的随机序列，不相关的片段用
分割；
删除< cls > 标记，因为在训练前训练中加入它并没有对性能产生多大影响；
将序列长度为64到96微小批量累积到大批量再处理。

然后是对架构的修改，下图显示了不同模型在随着token数量的增加MLM任务损失的变化。

结果很显然，一个模型损失的衰减很大程度地取决于模型的大小，而不是模型的类型。

并且，因为每个token的性能与模型大小之间的关系紧密耦合，若想通过改变Transformer模型的大小和类型来获得巨大性能增益是不太可能的。

不过对于同大小的所有模型，每个梯度效率是几乎保持不变的，因此可以在保证模型大小不变的情况下，选择能够通过快速搜索加速计算的架构。

具体的优化和其他调整如下：

减少注意力头的数量来降低梯度成本：禁用所有QKV偏差；
禁用所有线性层偏差，通过加速梯度计算，不会对模型大小产生明显影响；
实现比例正弦位置嵌入，相较于学习或非比例正弦嵌入有增量收益；
LN的预标准化比后LN更有益；
去除非线性头部并无影响。

接下来便要对训练进行设置，具体也就不再赘述，直接来看相关调整：

优化器依旧是Adam；
设定Learning Rate计划和批量大小；
丢掉Dropout环节。（因为Dropout会导致每秒更新的净减少）

而在数据集方面，研究团队采用了两种基于数据的途径来更好地缩小规模，分别是以各种方式过滤、处理或排序现有的数据和交换数据源，具体可以看下表。

性能接近最初的BERT

在调整完各种参数后，这个单卡一天的BERT性能到底如何？直接看看最终的数据！

在下游性能评估时是通过GLUE来进行的，下表能够看到在3个不同显卡上的得分，非常接近最初的BERT。

而当模型训练计算量为16倍时，即（2天，在8个GPU），依旧是一样的数据和设置，最终得到的结果比最初的BERT提高了很多，达到了RoBERTa的性能水平。

如果想了解更多，可以点击下面链接查看论文原文～

论文原文：
https://arxiv.org/abs/2212.14034

参考链接：
https://twitter.com/giffmana/status/1608568387583737856

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

男子将链子从阳台扔下，随着链子不断下坠，发生了不可思议的一幕

兴国融媒体中心 2024-11-30 16:29:24
1994 跟贴 1994
马儿蹚过急促的河流，突然启动了“涡轮增压”，网友：这爆发力真强

兴国融媒体中心 2024-11-30 14:11:33
1218 跟贴 1218

叙利亚叛军拆除总统阿萨德哥哥的雕像士兵朝天鸣枪庆祝

老梁说事 2024-11-30 19:37:03
11480 跟贴 11480

清华劳东燕：要有独立的判断力，不轻信任何灌输的东西，不受人所惑

三言四拍 2024-12-01 09:07:31
9989 跟贴 9989
清华男友拳打北航辅导员后续：是高考722分状元，女友照片被扒

派大星纪录片 2024-11-30 14:27:50
2363 跟贴 2363

光伏的逻辑被彻底掐灭了！坑了无数农民的无良骗局，早该被拆穿了

大风文字 2024-11-30 17:05:39
40 跟贴 40

不必狡辩，大家都清楚谁在说谎

听风听你 2024-11-29 20:09:13
66 跟贴 66
价格大涨！飙升至27年来最高广东很多人每天离不开

新闻坊 2024-11-30 16:14:38
2047 跟贴 2047

读者投稿 | 汕头店家关门躲“国检”：“有影”还是“无影”？

水瓶纪元 2024-11-30 16:42:52
6 跟贴 6
“为亡父销电话卡被要求证明我爸是我爸”当事人：户口本已体现父子关系，跑了4次才办成

极目新闻 2024-11-30 17:39:07
699 跟贴 699
浙江一地开启集中供暖，采暖季费用3000元左右

上观新闻 2024-12-01 07:32:10
1 跟贴 1
河南一场婚礼中途长时间停电，400多人离席家长气哭“脸丢尽了”，律师：可主张赔偿

北青网-北京青年报 2024-11-30 16:56:09
140 跟贴 140
这家航空公司被曝长期欠薪，飞行员送外卖补贴家用？当事人发声→

重庆晨报 2024-12-01 12:30:24
121 跟贴 121
巴萨1-2拉帕3轮不胜 125周年庆告负

网易体育 2024-11-30 23:11:04
992 跟贴 992
外卖员骂脏话指着头喊"往这打" 被老板一板凳敲中躺地

火炼树 2024-11-30 17:57:36
3462 跟贴 3462
放假通知！不调休

上观新闻 2024-12-01 09:30:10
180 跟贴 180
俩人在广州街头发生争执小伙连遭两记重拳击中面部

征垣之路 2024-12-01 09:22:40
2017 跟贴 2017
泽连斯基开出停火条件：加入北约要紧，“其他领土”以后再收！俄方回应了

每日经济新闻 2024-12-01 00:26:03
7 跟贴 7
刘国梁：力争把乒乓球混合团体比赛推向奥运会

新华社 2024-11-30 22:37:38
24 跟贴 24
太阳擒勇士库里里程悲布克27+9KD21+10

网易体育 2024-12-01 12:24:47
146 跟贴 146
王一鸣：明年要以高水平开放应对外部环境的不确定性

红星资本局 2024-11-30 20:48:31
88 跟贴 88
美团披露骑手收入

第一财经资讯 2024-11-30 16:04:35
6 跟贴 6
网传12月上海地铁免费坐？假！上海公共交通卡公司辟谣了

网易号社区管理员 2024-11-30 18:34:38
91 跟贴 91
生完双胞胎又迎来三胞胎，“95后”妈妈发声！网友热议

鲁中晨报 2024-12-01 10:00:09
0 跟贴 0
网传复旦大学非全日制博士收费标准，四年48万！网友：学位创收

可达鸭面面观 2024-11-30 23:19:41
0 跟贴 0
为了送客户，买二手LV，鉴定结果“符合”又“不通过”？

极目新闻 2024-12-01 08:36:45
0 跟贴 0
曝某修车铺老板很悲观：今年已经亏了快20万，三五年后或无车可修

可达鸭面面观 2024-11-30 22:33:50
0 跟贴 0
官方证实！OPPO杭州全球总部，停工了！总用地规模近5万平方米

每日经济新闻 2024-11-28 20:58:07
0 跟贴 0

查索夫亚尔失守！全城守军被歼，司令部全员投降，防线崩溃

查索夫亚尔失守！全城守军被歼，司令部全员投降，防线崩溃

忆丹倾城

2024-11-30 18:44:24

全家都没案底为啥政审没过？工作人员拿出浏览记录，男生社死了

全家都没案底为啥政审没过？工作人员拿出浏览记录，男生社死了

阿蒙聊教育

2024-09-05 21:44:28

范冰冰饭局照流出，喝酒还吐舌头，素颜温婉大方，和妆后判若两人

范冰冰饭局照流出，喝酒还吐舌头，素颜温婉大方，和妆后判若两人

南城无双

2024-10-25 23:54:18

买香菇时，挑大的还是小的？菜贩子透露：区别很大，别再买错了！

买香菇时，挑大的还是小的？菜贩子透露：区别很大，别再买错了！

阿龙美食记

2024-11-28 14:50:53

詹俊：阿森纳7天三连胜+积分跳升第2，明晚可以坐山观虎斗啦！

詹俊：阿森纳7天三连胜+积分跳升第2，明晚可以坐山观虎斗啦！

直播吧

2024-12-01 03:40:13

《我是刑警》200吨黄豆被盗！吃一顿24元的午饭，3名警察立马破案

《我是刑警》200吨黄豆被盗！吃一顿24元的午饭，3名警察立马破案

烟花五月下苏州

2024-11-30 23:24:08

中国驻俄罗斯使馆提醒俄将在入出境口岸试运行采集外国公民指纹

中国驻俄罗斯使馆提醒俄将在入出境口岸试运行采集外国公民指纹

环球网资讯

2024-11-30 07:55:16

本田拟收购日产股权日系车大合并来了

本田拟收购日产股权日系车大合并来了

沙雕小琳琳

2024-12-01 10:14:23

亏损超1亿，《古惑仔》新片票房崩塌，我感慨：这金字招牌算砸了

亏损超1亿，《古惑仔》新片票房崩塌，我感慨：这金字招牌算砸了

农村教育光哥

2024-12-01 11:37:04

陈道明：如果一个人熬到没有人联系你，没有饭局邀约，没有所谓的社交，那么恭喜你

陈道明：如果一个人熬到没有人联系你，没有饭局邀约，没有所谓的社交，那么恭喜你

我是娱有理

2024-11-03 06:32:03

苹果的CPU非常强大，为什么会这样？苹果cpu又是谁设计的？

苹果的CPU非常强大，为什么会这样？苹果cpu又是谁设计的？

小兔子发现大事情

2024-12-01 07:30:53

这三种超速已经“豁免”，不扣分不罚款，可以放心踩油门了

这三种超速已经“豁免”，不扣分不罚款，可以放心踩油门了

沙雕小琳琳

2024-12-01 07:30:38

江苏原常委赵少麟：开国上将之子，退休8年因其子赵晋而入狱

江苏原常委赵少麟：开国上将之子，退休8年因其子赵晋而入狱

文史旺旺旺

2024-11-25 21:04:27

俄罗斯苏57飞行员驾机回国后竟然如此评价我国最新歼35战斗机！

俄罗斯苏57飞行员驾机回国后竟然如此评价我国最新歼35战斗机！

凯撒谈兵

2024-11-28 20:45:27

突发！台湾地震，多地有震感

环球网资讯

2024-12-01 11:27:03

建议中老年：少吃花生瓜子多吃3样碱性菜，头发黑嘴不臭身体健康

建议中老年：少吃花生瓜子多吃3样碱性菜，头发黑嘴不臭身体健康

斯佳丽的小厨房

2024-11-28 07:00:03

一个人的预感能有多准？网友：突然有种炸毛的感觉救了自己一命

一个人的预感能有多准？网友：突然有种炸毛的感觉救了自己一命

娱乐洞察点点

2024-11-29 11:09:50

孙颖莎凌晨12点罕见发文，引无数网友落泪：刘国梁有愧！

孙颖莎凌晨12点罕见发文，引无数网友落泪：刘国梁有愧！

等风来育儿联盟

2024-12-01 09:17:22

2024全球射手榜：C罗42球追平武磊，冲进前4！哈兰德第2

2024全球射手榜：C罗42球追平武磊，冲进前4！哈兰德第2

叶青足球世界

2024-11-30 15:10:46

道光年一位小县令写的楷书，这字放现在得让多少书法家汗颜啊？

道光年一位小县令写的楷书，这字放现在得让多少书法家汗颜啊？

书画博学

2024-11-25 08:58:45

追踪人工智能动态

9685文章数 175723关注度

往期回顾全部

科技要闻

我国首个商业航天发射场首发成功

头条要闻

德国称确认两名涉嫌破坏"北溪"管道人员

头条要闻

德国称确认两名涉嫌破坏"北溪"管道人员

体育要闻

两翼齐废，凯恩受伤，还好拜仁有他！

娱乐要闻

鹿晗直播回应被骂：不管怎么骂都开心

财经要闻

女首富，死刑！交出800亿，免死！

汽车要闻

科技是中国豪车梦的支点腾势Z9走心试驾体验

态度原创

艺术

亲子

教育

时尚

军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》，比拓本更精良，这才是地道的魏晋写法

亲子要闻

闺女和乌龟一起玩时喊爸爸，网友：叫她小王八犊子

教育要闻

济南、青岛、临沂民办高中学费一览（含最新收费标准）

那些会穿的中年女人，都掌握了这3个搭配技巧，时髦又耐看

军事要闻

泽连斯基开出停火条件俄方回应

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版