网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM|推理能力大幅提升,Pathways给出的第一份答卷

0
分享至

卷友们好,我是rumor。

从Jeff Dean去年十月提出Pathways这个架构起,我就开始期待了,前段时间正式放出了Pathways的论文[1],但主要是讲底层的设计和性能。直到前两天,谷歌终于公布了这个架构所训出的第一个大模型:PaLM

PaLM: Scaling Language Modeling with Pathways
https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

PaLM是一个5400亿参数的单向语言模型

为啥用单向而不是谷歌经典的T5呢?作者的解释是GPT3这种结构的few-shot会更好,而带有encoder的模型得finetune才能有不错的表现,这样既需要很多数据,又得为每个任务改变模型权重,和Pathways的万能大模型初衷有些背离。

OK,那就用GPT3的结构吧,但怎么效果好这么一大截???

作者没有多做解释,个人猜测数据占大头,GPT3用了近500B token的数据,而PaLM有780B,多了不少。但同时PaLM的模型拟合能力也小了一半,所以真的挺难说。作者的原话也挺有意思:

Interestingly, the PaLM 62B outperforms the GPT-3 175B in both categories

除了在finetune方面pk掉GPT3,还让我注意到的就是推理能力的大幅提升

在7个算术应用题/常识推理数据集上,有4个超越了当前SOTA,而且是以8-shot的PaLM跟精调的SOTA比,很多SOTA的结构都是特殊设计的

这个震撼程度不知传达到没有,以前是一顿魔改调参还干不过大模型直接精调,现在马上就要变成一顿魔改调参却干不过大模型few-shot了

而且这个推理能力,还没到极限,随着参数量从64B到540B,很多错误都被修复了,而参数量再提升一个数量级,我感觉就是今年的事儿,现在最大的模型已经174万亿参数了。

另外除了早就被刷爆的GLUE和SuperGLUE之外,还有一个新的BIG-bench评测,包含150个任务,专为大模型准备。可以看到,PaLM的1-shot已经接近人类平均水平了,不过距离最好水平还马达马达达内。同时,随着参数量的扩大,few-shot模型的效果也展现了更大的提升,但GPT3为什么没展现同样的特性就有点玄学了。

另外在多语言任务上,同样展现了few-shot超越精调SOTA的效果。

那么,上面讲了那么多PaLM的效果,作者除了Pathways还做了啥呢?

模型层面主要有如下改动

  1. 使用SwiGLU激活函数,有研究证明在同等计算量下SwiGLU的效果更好

  2. 把FFN和Attention并行


  • 以前:



  • 现在:


Multi-Query Attention:以往做attention前我们都会把Q和K隐层映射到[head_num, head_size],而PaLM让所有头共享参数矩阵,只映射到[1, head_size],对训练速度和效果没什么影响,但却提升了decode的速度

使用RoPE[2]位置编码:RoPE是苏神的工作,主要利用三角函数的恒等变换来优化相对位置编码

输入和输出共享embedding矩阵

去掉所有的Bias项

使用256K个token的SentencePiece

但每个改动对于PaLM到底有多少提升,并没有消融实验。

总结

其实刚看到PaLM报道的时候,隐隐有些失望,本来以为就是一篇模型很大,训练数据很多,然后干过一批few-shot SOTA的文章,但结果看到居然是直接跟别人精调的SOTA比,还是挺惊喜的。但这其中到底提升都在哪里,因为没有和过往模型完全公平的对比,又变成玄学了,而且是复现不起的玄。

作者在intro中也总结了大模型提升的套路:

  1. 扩大模型深度和宽度

  2. 增加训练的token数目

  3. 更干净和更多源的数据

  4. 利用稀疏计算增加模型容量

虽然大模型已经开往了一条比拼金钱和工程的道路,但看到AI天花板不断被拉高也是一件好事,Pathways架构下的第一个模型,离Jeff Dean去年的构想还有一段距离,希望未来可以给出更好的答案。

另外,国内的我们也要加油吖!

参考资料

Pathways: Asynchronous Distributed Dataflow for ML: https://arxiv.org/abs/2203.12533

[2]

Roformer: Enhanced transformer with rotary position embedding: https://arxiv.org/abs/2104.09864

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
去了一趟梵蒂冈,心都碎了,人跟人的差距竟然这么大

去了一趟梵蒂冈,心都碎了,人跟人的差距竟然这么大

小嵩
2025-05-19 09:03:39
什么时候能淘汰这种素质低的装修工人啊?看把业主给逼的!

什么时候能淘汰这种素质低的装修工人啊?看把业主给逼的!

装修秀
2025-07-29 11:20:03
我转业担任副县长后,发现初恋是县委书记,结果我被她排挤

我转业担任副县长后,发现初恋是县委书记,结果我被她排挤

乔生桂
2025-07-28 10:28:29
54岁周杰谈死亡:身边走了不少,习以为常无伤感,自己会有这一天

54岁周杰谈死亡:身边走了不少,习以为常无伤感,自己会有这一天

冷紫葉
2025-07-29 19:47:10
连做好事都要被反复审问,他们又对“出手相助”动手了!

连做好事都要被反复审问,他们又对“出手相助”动手了!

胖胖说他不胖
2025-07-29 12:19:55
宗庆后DNA被调取,3个私生子力证血缘关系,宗庆后72岁生小儿子?

宗庆后DNA被调取,3个私生子力证血缘关系,宗庆后72岁生小儿子?

削桐作琴
2025-07-14 20:20:04
三个小孩卖冰棍 顾客吃了不付钱 目击者称:冰棍箱里只有两支冰棍 客人非要吃完第三支才付钱 当地回应:孩子报警后顾客已付钱

三个小孩卖冰棍 顾客吃了不付钱 目击者称:冰棍箱里只有两支冰棍 客人非要吃完第三支才付钱 当地回应:孩子报警后顾客已付钱

闪电新闻
2025-07-29 17:25:09
杜建英彻底哑火!宗馥莉甩出12份证据,仨私生子连上桌资格都没有

杜建英彻底哑火!宗馥莉甩出12份证据,仨私生子连上桌资格都没有

振华观史
2025-07-29 20:56:28
央视通报来了!释永信怕是要牢底坐穿,给女明星开光只是开胃菜

央视通报来了!释永信怕是要牢底坐穿,给女明星开光只是开胃菜

妙知
2025-07-29 12:41:55
网友爆料:意大利法拉利园区出现小米SU7 Ultra!经确认是法拉利官方购买的用于测试及开发下一代纯电平台

网友爆料:意大利法拉利园区出现小米SU7 Ultra!经确认是法拉利官方购买的用于测试及开发下一代纯电平台

和讯网
2025-07-29 15:47:12
这三场战争再次表明,只有中国成功掌控三大力量,国力世界无敌

这三场战争再次表明,只有中国成功掌控三大力量,国力世界无敌

通文知史
2025-07-29 08:40:06
今年东北的夏天,堪称“家庭恐怖片”

今年东北的夏天,堪称“家庭恐怖片”

风味人间
2025-07-29 14:09:36
被开除军籍、全家移民、骗财骗色,蒋大为身上的标签哪个是真的

被开除军籍、全家移民、骗财骗色,蒋大为身上的标签哪个是真的

新语爱八卦
2025-07-28 16:42:04
一颗老鼠屎坏了一锅汤!《凡人修仙传》遭恶评,这位关系户担全责

一颗老鼠屎坏了一锅汤!《凡人修仙传》遭恶评,这位关系户担全责

古木之草记
2025-07-29 14:04:48
解放军台海巡航再升级,马英九摊牌:大陆若要武统,台岛不接受

解放军台海巡航再升级,马英九摊牌:大陆若要武统,台岛不接受

通文知史
2025-07-29 09:20:08
女星李晟因“豪迈岔腿坐”引热议,本人回应:女人不能这么坐吗?

女星李晟因“豪迈岔腿坐”引热议,本人回应:女人不能这么坐吗?

漫婷侃娱乐
2025-07-29 15:01:04
赢了面子输了里子,这一次,体面大方的张学友给汪苏泷上了一课!

赢了面子输了里子,这一次,体面大方的张学友给汪苏泷上了一课!

古希腊掌管月桂的神
2025-07-27 12:01:43
6亿换48万!陈可辛砸穿票房底裤,杨幂赵丽颖片酬吸干血本

6亿换48万!陈可辛砸穿票房底裤,杨幂赵丽颖片酬吸干血本

东方不败然多多
2025-07-29 11:56:47
《年轮》大战再升级!这一次,官方的态度,没给张碧晨留一丝体面

《年轮》大战再升级!这一次,官方的态度,没给张碧晨留一丝体面

跳跳历史
2025-07-29 14:58:59
一场演唱会轰动全北京,40岁岳云鹏,让所有人见识到他的江湖地位

一场演唱会轰动全北京,40岁岳云鹏,让所有人见识到他的江湖地位

史行途
2025-07-28 20:42:16
2025-07-30 09:40:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
6893文章数 20677关注度
往期回顾 全部

科技要闻

回炉重造近一年,理想i8与增程L8同价开卖

头条要闻

存35万取款时账户余额显示为0 市民起诉银行法院判了

体育要闻

巅峰身价9000万,他在30岁告别五大联赛

娱乐要闻

小S被曝十月回归!复出全靠大S热度?

财经要闻

吴晓求解读稳定币:只是货币功能的延伸

汽车要闻

新势力能给的一次补齐 全新坦克500满配智能大升级

态度原创

艺术
教育
时尚
家居
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

教育要闻

暑期充能,中层干部的“四步登峰”

高圆圆、朱珠美上热搜的蓝色穿搭,太适合夏天了!

家居要闻

现代轻奢 理想生活环境

军事要闻

泰国和柬埔寨停火协议正式生效