网易首页 > 网易号 > 正文 申请入驻

上交为参数微调打造统一框架,即便资源受限也能提升大模型能力

0
分享至

随着 GPT-3 的推出,大模型逐渐成为人们关注的焦点。研究者们纷纷投入到各类大模型的研发中,这些模型通常具有出色的泛化能力,并在众多任务中展现出强劲的潜力。

为了进一步发挥大模型的优势,将其应用于各类下游任务已经成为一种趋势。

然而,实践中人们常常面临一个重大挑战:对整个大模型进行完整训练(即全量微调)需要极高的成本,如需要大量的图形处理器(GPU,Graphics Processing Unit)资源等。

考虑到下游任务的多样性,为每个任务训练一个专门的大模型并不现实。因此,一个自然的问题出现了:在资源有限的情况下,如何更高效地训练大模型,以便在多样的下游场景中充分发挥其潜力?

正是在这个背景下,参数高效微调(PEFT,Parameter-Efficient Fine-Tuning)这一研究领域应运而生。

PEFT 旨在通过微调极少量的参数,使模型在不同任务中实现接近全量微调,甚至超过全量微调的效果。随着 2022 年以来大模型的迅猛发展,PEFT 算法层出不穷,种类繁多。

与此同时,许多综述性论文试图对这些方法进行分类,虽然各自的分类结果有所重叠,但始终难以形成统一的共识。

此外,由于许多方法的原理偏向直觉性而非理论性,其性能表现往往难以系统地解释。不同方法之间的性能差异显著,如何解释这种差异性也成为值得深入探讨的问题。

基于这一背景,来自上海交通大学的研究人员开展了一项研究。研究目标有两个:首先,从统一视角出发归纳不同的 PEFT 方法,将它们整合在一个统一的框架之下。

其次,探索这些方法的底层逻辑,并分析不同方法之间的性能差异。

研究中,该团队从子空间微调的角度在数学上为参数微调提供了一个统一框架。

通过这个框架,课题组将各种不同的参数微调方法归纳在同一个数学背景下,使得整个微调过程更加简洁和系统。


(来源:arXiv)

预计参数高效微调技术具有广泛的应用前景。它能够在边缘计算、自动驾驶、医疗影像分析、个性化推荐系统等领域,通过优化模型性能和压缩模型参数,实现高效的部署与运行。

此外,PEFT 技术在半监督与无监督学习、模型压缩与蒸馏以及自然语言处理等方面,也展现出极大的潜力,特别是在资源受限的环境中,能够显著提升模型的实际应用能力。

同时,子空间微调技术能为参数高效微调的发展提供了新的视角和重要启发。通过深入分析模型参数在子空间中的行为,利用子空间微调技术还可以揭示模型底层逻辑的运作机制。

这种分析不仅有助于理解模型参数的相互作用和优化路径,还能够指导 PEFT 技术的设计,使其在更具理论支撑的框架下实现更高效的性能调优。

日前,相关论文以《在分解的基础上进行参数高效微调的进一步说明》(See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition)为题发在arXiv[1],司翀杰是第一作者。


图 | 相关论文(来源:arXiv)

该团队表示这项研究的框架相对庞大,还有很多未解决的问题。因此,他们打算进一步优化现有的理论和方法。目前,他们正在研究如何更好地优化子空间扩展中的低秩特性,以提高模型的效率和性能。

此外,他们发现低秩自适应(LoRA,Low-Rank Adaptation)方法具有巨大的潜力,但这一潜力在现有的实现中并未被完全释放。基于 LoRA 的特性,他们进一步探索如何在下游任务中充分挖掘和利用这一潜力。

眼下,课题组已取得不错的实验结果,这可能会为从另一个角度理解 PEFT 的本质提供新的视角。

参考资料:

1.https://arxiv.org/pdf/2407.05417

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
明日冬至是“凶日”,明日冬至谨记3个忌讳,1不出、2不穿、3不吃

明日冬至是“凶日”,明日冬至谨记3个忌讳,1不出、2不穿、3不吃

布识
2024-12-20 13:08:31
全国首位!湖大女老师,世界冠军!

全国首位!湖大女老师,世界冠军!

鲁中晨报
2024-12-19 16:23:15
网传河南一汽修店老板,因未备案被罚1000元,罚款竟进了执法人员口袋?

网传河南一汽修店老板,因未备案被罚1000元,罚款竟进了执法人员口袋?

西游日记
2024-12-20 11:16:18
男子购买上海3000万房产,1800万首付被上家卷走,执行法官“清房”时吓一跳:地下室惊现人影……

男子购买上海3000万房产,1800万首付被上家卷走,执行法官“清房”时吓一跳:地下室惊现人影……

上观新闻
2024-12-20 16:43:35
形势到底有多严峻?网传上海很多老板注销公司,网络炸锅...

形势到底有多严峻?网传上海很多老板注销公司,网络炸锅...

慧翔百科
2024-12-19 18:07:29
网传辽宁一学校食堂给学生吃倒进狗食桶里的菜,家长看监控哭了

网传辽宁一学校食堂给学生吃倒进狗食桶里的菜,家长看监控哭了

看晓天下事
2024-12-20 11:59:05
袁记云饺,被立案调查

袁记云饺,被立案调查

新快报新闻
2024-12-19 22:16:09
泽连斯基回击普京记者会言论

泽连斯基回击普京记者会言论

参考消息
2024-12-20 13:21:14
人工智障?曝小伙用ChatGPT挑战“蒙眼坐公交”,不光没坐上车还被AI骗了

人工智障?曝小伙用ChatGPT挑战“蒙眼坐公交”,不光没坐上车还被AI骗了

可达鸭面面观
2024-12-20 11:48:09
破案了!母女被恶犬撕咬后续,狗主人身份曝光,丈夫提出4点诉求

破案了!母女被恶犬撕咬后续,狗主人身份曝光,丈夫提出4点诉求

奇思妙想草叶君
2024-12-20 00:23:49
媒体人:秦升诈骗案太迷惑!20人进入红通名单,不乏知名球员

媒体人:秦升诈骗案太迷惑!20人进入红通名单,不乏知名球员

奥拜尔
2024-12-20 17:02:27
袁记云饺,被立案调查!

袁记云饺,被立案调查!

大象新闻
2024-12-20 11:13:03
媒体人:秦升收钱负责输球,结果他上半场被罚下了但球队没输

媒体人:秦升收钱负责输球,结果他上半场被罚下了但球队没输

懂球帝
2024-12-20 16:58:35
新央企,在上海成立

新央企,在上海成立

新京报
2024-12-20 09:55:04
盈利能力堪比茅台,市值竟低于50亿,净利率超40%的9个公司

盈利能力堪比茅台,市值竟低于50亿,净利率超40%的9个公司

鹏哥投研
2024-12-18 22:32:59
可怕!他们被爆展开了“杀人比赛”

可怕!他们被爆展开了“杀人比赛”

环球时报国际
2024-12-19 22:33:28
最新消息!皮卡拉柴油被罚后续:省里介入调查,相关案例不予处罚

最新消息!皮卡拉柴油被罚后续:省里介入调查,相关案例不予处罚

杨哥历史
2024-12-20 10:07:35
怪不得最近冒出一大堆俄罗斯商品馆!看完网友解析,我算彻底开眼了

怪不得最近冒出一大堆俄罗斯商品馆!看完网友解析,我算彻底开眼了

蜉蝣说
2024-12-19 11:27:37
2年被家暴16次当事人再发声:下周三开庭 唯有死刑可接受

2年被家暴16次当事人再发声:下周三开庭 唯有死刑可接受

大象新闻
2024-12-20 14:34:18
床照流出!辽宁女大学生与外籍选手关系曝光,内幕让人咋舌!

床照流出!辽宁女大学生与外籍选手关系曝光,内幕让人咋舌!

小毅说事
2024-12-19 19:43:48
2024-12-20 18:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
14609文章数 513085关注度
往期回顾 全部

科技要闻

美议员为TikTok请求宽限期 将禁令延后90天

头条要闻

美专家竟称:北京战略野心几乎不给中美和解留任何空间

头条要闻

美专家竟称:北京战略野心几乎不给中美和解留任何空间

体育要闻

38岁仍是王牌!那个男人的传奇还没结束

娱乐要闻

刘恺威疑恢复单身,父亲刘丹表示不认识李晓峰!

财经要闻

买房多付了十几万?多地回应取消公摊

汽车要闻

新款瑞虎5x高能版将于12月23日上市 定位小型SUV

态度原创

教育
房产
游戏
健康
军事航空

教育要闻

父母之恩不在于“生养”,而在于“托举”!

房产要闻

130万元/套起,上车三房!三亚CBD最炸裂的价格出来了!

《暗喻幻想》官方攻略书发售:长达512页超详细技巧

花18万治疗阿尔茨海默病,值不值?

军事要闻

美发布报告称中国已拥有600多枚核弹头 中方批驳

无障碍浏览 进入关怀版