网易首页 > 网易号 > 正文 申请入驻

Adam-mini:内存占用减半,性能更优的深度学习优化器

0
分享至

Adam(W)目前为训练LLM的主流优化器,但其内存开销较大,这是因为Adam优化器需要存储一阶动量m和二阶动量v,总内存占用至少是模型大小的两倍,这对现有的高端显卡也是一种负担。论文提出一种新的优化器Adam-mini,在不牺牲性能的情况下减少Adam优化器的内存占用。



Adam-mini

Adam-mini通过减少学习率资源来降低内存占用的具体方法如下:

  1. 参数分块:Adam-mini首先将模型参数按照Hessian矩阵的结构划分为多个块。Hessian矩阵通常具有近似块对角结构,每个块代表一组参数。论文提出的分块策略基于Hessian结构,将每个块内的参数视为一个整体进行处理。
  2. 块内平均学习率:对于每个参数块,Adam-mini不再为每个参数单独分配学习率,而是为整个块分配一个平均的学习率。具体方法是计算块内所有参数的梯度平方的平均值,然后基于这个平均值来计算该块的学习率。这一过程显著减少了所需的学习率数量。
  3. 内存节省:由于Adam-mini使用的学习率数量大大减少,所需的二阶动量(即Adam中的v参数)的存储也相应减少。论文中的实验表明,这种方法可以减少45%到50%的内存占用。
  4. 具体算法
  • 在初始化时,将模型参数分块。
  • 对于每个参数块,计算块内梯度平方的平均值,并更新块的学习率。
  • 使用更新后的学习率进行参数更新。

这种方法不仅减少了内存占用,还通过减少GPU和CPU之间的通信开销,提高了训练效率。例如,在Llama2-7B模型的预训练中,Adam-mini在两块A800-80GB GPU上实现了比AdamW高49.6%的吞吐量,并节省了33%的训练时间。



算法示例

# Adam-mini 的伪代码
def adam_mini(params, grads, lr, beta1, beta2, epsilon, weight_decay):
# 初始化动量和二阶动量
m = {}
v = {}
for param in params:
m[param] = np.zeros_like(param)
v[param] = np.zeros_like(param)
# 参数分块
param_blocks = partition_parameters(params)
for block in param_blocks:
# 获取当前块的梯度
grad_block = [grads[param] for param in block]
# 更新动量
m_block = (1 - beta1) * grad_block + beta1 * m_block
m_block_hat = m_block / (1 - beta1**t)
# 更新二阶动量(平均值)
v_block = (1 - beta2) * np.mean([g**2 for g in grad_block]) + beta2 * v_block
v_block_hat = v_block / (1 - beta2**t)
# 更新参数
for param in block:
param_update = lr * m_block_hat / (np.sqrt(v_block_hat) + epsilon)
params[param] -= param_update + weight_decay * params[param]
return params

通过这种方法,Adam-mini成功地减少了学习率资源的使用,从而大幅降低了内存占用,并在多种任务中表现出色。

性能表现

1、内存和吞吐量性能

Adam-mini在预训练Llama2-7B模型时的性能:

  • 内存占用:Adam-mini显著降低了内存占用。例如,在Llama2-7B预训练时,Adam-mini减少了45%到50%的内存消耗。
  • 吞吐量:由于内存减少,Adam-mini能够支持更大的每GPU批次大小,从而提高了吞吐量。在两块A800-80GB GPU上,Adam-mini实现了比AdamW高49.6%的吞吐量,节省了33%的训练时间。

2、预训练性能

  • TinyLlama-1B:图7(a)显示了TinyLlama-1B的验证损失曲线。Adam-mini的表现与AdamW相当,但内存占用更低。
  • GPT2系列:图8展示了GPT2不同规模模型的训练曲线,包括GPT2-125M、GPT2-330M、GPT2-770M和GPT2-1.5B。Adam-mini在所有这些模型上的表现均与AdamW相当,而Adafactor、CAME等方法在这些任务中的表现较差。

通过这些实验结果,论文证明了Adam-mini不仅在内存占用和计算效率上优于传统的AdamW,还能在不同任务中保持或提升模型性能。这些结果表明,Adam-mini是一个有效且高效的优化器,适用于大规模模型的训练和微调。



非LLM任务的表现

Adam-mini在多种非LLM任务中均表现出色,能够在减少内存占用的同时,保持或提升模型性能。这些结果证明了Adam-mini在图像识别、扩散模型训练和图卷积网络等任务中的广泛适用性和有效性。

图像分类:在ImageNet上训练ResNet18,Adam-mini的测试精度与AdamW相当。

扩散模型训练:在CelebA数据集上训练扩散模型,Adam-mini的训练损失低于AdamW。

图神经网络:在OGB-arxiv数据集上训练Graph Convolution Network (GCN)和Graph Attention Network (GAT),Adam-mini的验证精度优于或相当于AdamW。



总结

Adam-mini基于Hessian矩阵的结构,将模型参数划分为多个块,每个块使用单一的平均学习率,从而大幅减少了需要存储的学习率数量。在非LLM任务中的实验结果进一步验证了Adam-mini的广泛适用性。Adam-mini不仅在内存占用和计算效率方面具有优势,还能在多种任务中保持或提升模型性能,是一个有效且高效的优化器。

https://avoid.overfit.cn/post/fdf7a6cfd34f4158aaac31a6ed3cc9b6

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国大选重磅消息!哈里斯已投票、7646万选票完成 特朗普承认“可能会败选”

美国大选重磅消息!哈里斯已投票、7646万选票完成 特朗普承认“可能会败选”

FX168北美财经圈
2024-11-04 14:59:07
2-2!申花无缘亚冠第3胜,遭澳洲冠军读秒绝平,于汉超传射难救主

2-2!申花无缘亚冠第3胜,遭澳洲冠军读秒绝平,于汉超传射难救主

体坛纪录片
2024-11-05 18:03:52
盘后突发,证券市场传来王炸消息,明天的A股剧本直接定调了!

盘后突发,证券市场传来王炸消息,明天的A股剧本直接定调了!

一丛深色花儿
2024-11-05 11:43:45
一个时代结束了,办了8年的双11晚会停办,消费时代一去不复返了

一个时代结束了,办了8年的双11晚会停办,消费时代一去不复返了

人情皆文史
2024-11-03 00:02:53
当不成总统了?西方要求泽连斯基下台,若不接受,就强制换人?

当不成总统了?西方要求泽连斯基下台,若不接受,就强制换人?

现代小青青慕慕
2024-11-05 06:47:50
笑喷!韩国国宴被吐槽都是咸菜,韩国人破防:别诋毁我们的健康餐

笑喷!韩国国宴被吐槽都是咸菜,韩国人破防:别诋毁我们的健康餐

星光历史
2024-11-04 18:02:23
5名男子被判无罪,法官读完判决词,拿出手枪对准心脏扣动了扳机

5名男子被判无罪,法官读完判决词,拿出手枪对准心脏扣动了扳机

华人星光
2024-11-05 13:39:53
半导体突发!巨头“爆雷”

半导体突发!巨头“爆雷”

中国基金报
2024-11-05 17:31:54
1994年正式脱离中国,国土面积17万平方公里,如今盛产美女

1994年正式脱离中国,国土面积17万平方公里,如今盛产美女

珺瑶婉史
2024-11-04 20:20:02
利润大增772%,中国大陆第三大芯片代工厂,爆单了

利润大增772%,中国大陆第三大芯片代工厂,爆单了

互联网.乱侃秀
2024-11-05 15:34:21
骑车撞到人,对方自称在Pdd上班。误工费一天3091元

骑车撞到人,对方自称在Pdd上班。误工费一天3091元

蚂蚁大喇叭
2024-11-05 16:19:51
王耀武出狱九年后郁郁而终,沈醉叹息:第一批特赦对他并不是好事

王耀武出狱九年后郁郁而终,沈醉叹息:第一批特赦对他并不是好事

那年的春夏
2024-11-02 19:41:45
3人被查,1人被处分

3人被查,1人被处分

黄河新闻网吕梁频道
2024-11-05 09:09:41
吉林李海峰被执行死刑,死前嚣张放话:我的靠山你们惹不起

吉林李海峰被执行死刑,死前嚣张放话:我的靠山你们惹不起

一个人讲故事
2024-08-30 21:20:53
全国32种单位已取消事业编,大学生别再盲目报考!

全国32种单位已取消事业编,大学生别再盲目报考!

教育导向分享
2024-11-03 22:37:29
航天英雄杨利伟:女儿去世,发妻离职,他成功背后的痛苦鲜为人知

航天英雄杨利伟:女儿去世,发妻离职,他成功背后的痛苦鲜为人知

华人星光
2024-10-17 12:49:06
炸裂!广西一女子醉酒在路边被强暴,路人拍下全过程,视频曝光

炸裂!广西一女子醉酒在路边被强暴,路人拍下全过程,视频曝光

180°视角
2024-11-05 16:53:18
果然爆了!刚刚,全部20CM涨停!

果然爆了!刚刚,全部20CM涨停!

中国基金报
2024-11-05 09:39:38
大反转出现,人民币罕见飙升!

大反转出现,人民币罕见飙升!

樱桃大房子
2024-11-04 22:41:13
金星又一演出遭取消!南大博士呼吁彻查,网友喊话上海文旅:看你的了!

金星又一演出遭取消!南大博士呼吁彻查,网友喊话上海文旅:看你的了!

不掉线电波
2024-11-04 22:00:52
2024-11-05 20:30:44
deephub
deephub
CV NLP和数据挖掘知识
1488文章数 1417关注度
往期回顾 全部

科技要闻

字节跳动上半年营收直逼Meta:TikTok狂飙

头条要闻

选前“封关”民调:哈里斯领先特朗普4个百分点

头条要闻

选前“封关”民调:哈里斯领先特朗普4个百分点

体育要闻

一个想改变中国足球的日本人

娱乐要闻

周雨彤风波升级!阴阳怪气遭全网怒怼

财经要闻

超配!高盛:AH股未来一年回报率20%

汽车要闻

新款别克世纪将11月12日上市 预售价48.99万起

态度原创

游戏
亲子
房产
艺术
公开课

《战国王朝》11月7日迎来正式版 1.0追加新要素

亲子要闻

5月龄宝宝脑瘤术后肺炎 心急妈妈门诊咨询化疗效果

房产要闻

加急补货!三亚巨量住宅马上杀出!备案价最高飙到7万+/㎡!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

AI如何揭开大自然和宇宙的奥秘

无障碍浏览 进入关怀版