网易首页 > 网易号 > 正文 申请入驻

华为改进Transformer!盘古-π解决特征崩溃,同规模性能超LLaMA

0
分享至

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

华为盘古系列,带来架构层面上新!

量子位获悉,华为诺亚方舟实验室等联合推出新型大语言模型架构:盘古-π

它通过增强非线性,在传统Transformer架构上做出改进,由此可以显著降低特征塌陷问题。

带来的直接效果就是模型输出表达能力更强。

在使用相同数据训练的情况下,盘古-π(7B)在多任务上超越LLaMA 2等同规模大模型,并能实现10%的推理加速。

在1B规模上可达SOTA

同时还基于这一架构炼出了一个金融法律大模型“云山”。

该工作由AI大牛陶大程领衔。

具体如何实现?一起来看。

利用非线性解决特征塌陷

目前常见大模型基本都采用Transformer架构,比如GPT、LLaMA等。

它的核心构成包括多头自注意力机制(MSA)和前馈网络(FFN)。

MSA的主要功能是计算输入序列中每个token和其他所有token之间的相关性,通过学习输入序列中的依赖关系,可以增强对语言的理解能力。FFN主要对输入进行非线性转换,增强模型表达能力,使其可以逼近更复杂的函数。

不过,华为诺亚方舟实验室发现,特征崩溃(feature collapse)会影响Transformer架构的表现,降低其表达能力,使模型难以区分不同输入。

以LLaMA为例,在更深层的神经网络上,特征等级显著降低,导致了所有token之间的相似性更强。

从机制上来看,自注意力模块可以看做在完全图上进行信息聚合,连续堆叠多层注意力就像连续多层图卷积一样,会产生过度特征平滑效应

另一方面,多层感知器(MLP)中的激活函数提供的非线性还不够,抑制特征崩溃的作用有限。

由此,团队想要提高模型的非线性表达能力,避免特征崩溃,进而提出了本次工作盘古-π

如下是盘古-π的结构示意:

在FFN中加入串联激活函数,在MSA中集成一种增强快捷连接(Aug-S),可以更有效地在Transformer架构中引入更多非线性。

使用了增强快捷连接(Aug-S)的MSA,能将每个token的特征转换为不同表示形式。

基于这一新架构,通过大规模训练和微调,研究团队开发了一个盘古-π基础模型

实验结果显示,该模型在多任务中表现超越其他同规模模型(分别测试了7B和1B规模)。

而且盘古-π-7B可以达到约10%的推理加速。

同时团队还以此为基础开发了一个金融法律领域大模型“云山”,它同样在多个benchmark中成绩超越其他模型。

通讯作者为陶大程

值得关注的是,本项研究的团队阵容也非常亮眼。

通讯作者为陶大程。

他是欧洲科学院外籍院士、澳大利亚科学院院士。本科就读于中科大,说是毕业于港中文MMLab、师从汤晓鸥。

2007年从英国博士毕业后,先后在中国香港理工大学、新加坡南洋理工大学,澳大利亚悉尼科技大学、悉尼大学任教。目前是清华大学智能产业研究院AIR团队卓越访问教授。

与此同时,他还先后加盟过优必选、京东,曾是京东最高级别AI科学家、担任京东探索研究院院长。

一作为王云鹤。

他是2012实验室诺亚方舟实验室高级研究员,现任华为算法应用部部长。

王云鹤在华为负责高效AI算法的创新研发以及在华为业务中的应用。他和团队开发了高效AI算法,其衍生应用在中国天眼FAST观测工作中,协助中科院国家天文台专家找到了数百个新的快速射电暴样本。

论文地址:
http://arxiv.org/abs/2312.17276

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
姚高员任浙江省副省长,曾任杭州市市长

姚高员任浙江省副省长,曾任杭州市市长

上观新闻
2026-05-28 09:57:03
基辅将被毁灭?俄军图95战轰千里南调,专家评估:大规模轰炸开始

基辅将被毁灭?俄军图95战轰千里南调,专家评估:大规模轰炸开始

混沌录
2026-05-27 21:50:48
6死7伤!为销毁贪腐证据炸掉乡政府,四川凉山6.26爆炸案震惊中央

6死7伤!为销毁贪腐证据炸掉乡政府,四川凉山6.26爆炸案震惊中央

易玄
2026-05-28 05:53:57
57岁大妈做饭爱加蚝油,2年后去医院体检,医生疑惑平时咋吃的?

57岁大妈做饭爱加蚝油,2年后去医院体检,医生疑惑平时咋吃的?

芹姐说生活
2026-05-27 22:40:29
网友发视频吐槽“同享老婆梅”,被发律师函要求公开道歉,公司回应:没有不尊重女性,已下架产品

网友发视频吐槽“同享老婆梅”,被发律师函要求公开道歉,公司回应:没有不尊重女性,已下架产品

封面新闻
2026-05-28 05:14:17
即将体检!巴萨8000万欧签下25岁戈登 或不买断拉什福德+退回曼联

即将体检!巴萨8000万欧签下25岁戈登 或不买断拉什福德+退回曼联

我爱英超
2026-05-28 06:17:11
从特朗普的明言,到林志玲的明智,还有“烦死了”……

从特朗普的明言,到林志玲的明智,还有“烦死了”……

新民周刊
2026-05-28 09:07:38
内马尔伤情严重!巴西足协商讨,佩德罗或顶替内马尔参加世界杯!

内马尔伤情严重!巴西足协商讨,佩德罗或顶替内马尔参加世界杯!

海浪星体育
2026-05-28 09:21:51
用大白话翻译一下“韬定律”,你也能看清这芯片成色如何

用大白话翻译一下“韬定律”,你也能看清这芯片成色如何

基本常识
2026-05-27 17:55:54
逃过罚款!NBA官方口头警告文班亚马 因天王山后拒绝采访

逃过罚款!NBA官方口头警告文班亚马 因天王山后拒绝采访

醉卧浮生
2026-05-28 07:33:54
投资400万仅撑4个月!老板怒砸店铺背后…

投资400万仅撑4个月!老板怒砸店铺背后…

餐饮老板内参
2026-05-27 10:41:55
航天员黎家盈年收入多少?回来后享受什么待遇?

航天员黎家盈年收入多少?回来后享受什么待遇?

混沌录
2026-05-26 22:05:52
央视赚翻!4亿拿下美加墨世界杯,不到2周已签2家分销,进账32亿

央视赚翻!4亿拿下美加墨世界杯,不到2周已签2家分销,进账32亿

十点街球体育
2026-05-27 16:14:22
未经审批,私自赈灾,河南三支救援队造成极其恶劣的社会影响

未经审批,私自赈灾,河南三支救援队造成极其恶劣的社会影响

齐天候
2026-05-27 18:20:39
国内将逐渐停止"肠镜检查"?做完对身体有无影响?医生告诉您真相

国内将逐渐停止"肠镜检查"?做完对身体有无影响?医生告诉您真相

垚垚分享健康
2026-05-27 11:20:11
林俊杰删掉大哥大嫂合照,曝冒充七七同学的是林俊杰大嫂

林俊杰删掉大哥大嫂合照,曝冒充七七同学的是林俊杰大嫂

素素娱乐
2026-05-28 08:59:39
亚当·肖华再遭质疑!联盟公信力崩塌,天王山争议判罚引众怒!

亚当·肖华再遭质疑!联盟公信力崩塌,天王山争议判罚引众怒!

田先生篮球
2026-05-27 13:43:41
12亿美元大单落地,巴总理喜笑颜开,在杭州当众宣布:要当小中国

12亿美元大单落地,巴总理喜笑颜开,在杭州当众宣布:要当小中国

闻识
2026-05-27 18:13:51
决赛2次送礼 U17国足助教:潘朝伟非关系户 他球商高+像日本球员

决赛2次送礼 U17国足助教:潘朝伟非关系户 他球商高+像日本球员

我爱英超
2026-05-28 07:25:00
入侵前兆!荷兰战舰海空一体强闯中国领土,我军罕见使用电磁压制

入侵前兆!荷兰战舰海空一体强闯中国领土,我军罕见使用电磁压制

叹为观止易
2026-05-28 05:57:08
2026-05-28 11:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
12695文章数 176471关注度
往期回顾 全部

科技要闻

台积电3纳米下半年涨价15% 明年或再涨10%

头条要闻

广西10名零工掉江遇难:15人挤1辆皮卡 有1家3人身亡

头条要闻

广西10名零工掉江遇难:15人挤1辆皮卡 有1家3人身亡

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

曝大嫂冒充七七同学,林俊杰删掉合照

财经要闻

一线调查丨燃油车“甩卖”也难卖

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

家居
亲子
时尚
本地
军事航空

家居要闻

古老而持久 石影扶手椅

亲子要闻

@所有家长,这些地方全是孩子溺水高发地,很多就在我们身边!

丑到离谱的牛马鞋,新中产抢疯了

本地新闻

用剪纸的方式,打开江苏扬州

军事要闻

以军称已打死哈马斯新任军事领导人

无障碍浏览 进入关怀版