网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM|推理能力大幅提升,Pathways给出的第一份答卷

0
分享至

卷友们好,我是rumor。

从Jeff Dean去年十月提出Pathways这个架构起,我就开始期待了,前段时间正式放出了Pathways的论文[1],但主要是讲底层的设计和性能。直到前两天,谷歌终于公布了这个架构所训出的第一个大模型:PaLM

PaLM: Scaling Language Modeling with Pathways
https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

PaLM是一个5400亿参数的单向语言模型

为啥用单向而不是谷歌经典的T5呢?作者的解释是GPT3这种结构的few-shot会更好,而带有encoder的模型得finetune才能有不错的表现,这样既需要很多数据,又得为每个任务改变模型权重,和Pathways的万能大模型初衷有些背离。

OK,那就用GPT3的结构吧,但怎么效果好这么一大截???

作者没有多做解释,个人猜测数据占大头,GPT3用了近500B token的数据,而PaLM有780B,多了不少。但同时PaLM的模型拟合能力也小了一半,所以真的挺难说。作者的原话也挺有意思:

Interestingly, the PaLM 62B outperforms the GPT-3 175B in both categories

除了在finetune方面pk掉GPT3,还让我注意到的就是推理能力的大幅提升

在7个算术应用题/常识推理数据集上,有4个超越了当前SOTA,而且是以8-shot的PaLM跟精调的SOTA比,很多SOTA的结构都是特殊设计的

这个震撼程度不知传达到没有,以前是一顿魔改调参还干不过大模型直接精调,现在马上就要变成一顿魔改调参却干不过大模型few-shot了

而且这个推理能力,还没到极限,随着参数量从64B到540B,很多错误都被修复了,而参数量再提升一个数量级,我感觉就是今年的事儿,现在最大的模型已经174万亿参数了。

另外除了早就被刷爆的GLUE和SuperGLUE之外,还有一个新的BIG-bench评测,包含150个任务,专为大模型准备。可以看到,PaLM的1-shot已经接近人类平均水平了,不过距离最好水平还马达马达达内。同时,随着参数量的扩大,few-shot模型的效果也展现了更大的提升,但GPT3为什么没展现同样的特性就有点玄学了。

另外在多语言任务上,同样展现了few-shot超越精调SOTA的效果。

那么,上面讲了那么多PaLM的效果,作者除了Pathways还做了啥呢?

模型层面主要有如下改动

  1. 使用SwiGLU激活函数,有研究证明在同等计算量下SwiGLU的效果更好

  2. 把FFN和Attention并行


  • 以前:



  • 现在:


Multi-Query Attention:以往做attention前我们都会把Q和K隐层映射到[head_num, head_size],而PaLM让所有头共享参数矩阵,只映射到[1, head_size],对训练速度和效果没什么影响,但却提升了decode的速度

使用RoPE[2]位置编码:RoPE是苏神的工作,主要利用三角函数的恒等变换来优化相对位置编码

输入和输出共享embedding矩阵

去掉所有的Bias项

使用256K个token的SentencePiece

但每个改动对于PaLM到底有多少提升,并没有消融实验。

总结

其实刚看到PaLM报道的时候,隐隐有些失望,本来以为就是一篇模型很大,训练数据很多,然后干过一批few-shot SOTA的文章,但结果看到居然是直接跟别人精调的SOTA比,还是挺惊喜的。但这其中到底提升都在哪里,因为没有和过往模型完全公平的对比,又变成玄学了,而且是复现不起的玄。

作者在intro中也总结了大模型提升的套路:

  1. 扩大模型深度和宽度

  2. 增加训练的token数目

  3. 更干净和更多源的数据

  4. 利用稀疏计算增加模型容量

虽然大模型已经开往了一条比拼金钱和工程的道路,但看到AI天花板不断被拉高也是一件好事,Pathways架构下的第一个模型,离Jeff Dean去年的构想还有一段距离,希望未来可以给出更好的答案。

另外,国内的我们也要加油吖!

参考资料

Pathways: Asynchronous Distributed Dataflow for ML: https://arxiv.org/abs/2203.12533

[2]

Roformer: Enhanced transformer with rotary position embedding: https://arxiv.org/abs/2104.09864

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
崩啦!勇士开局6分半被篮网狂轰一波25-2,落后对手20分!

崩啦!勇士开局6分半被篮网狂轰一波25-2,落后对手20分!

雷速体育
2025-03-07 08:59:10
曼联的痛!25岁安东尼又发威:无敌妙传,近7战3球3助,如鱼得水

曼联的痛!25岁安东尼又发威:无敌妙传,近7战3球3助,如鱼得水

侧身凌空斩
2025-03-07 04:18:37
关善祥在许家印被逮捕的当天,不幸离世仅38岁,死亡原因令人遐想

关善祥在许家印被逮捕的当天,不幸离世仅38岁,死亡原因令人遐想

户外钓鱼哥阿旱
2025-03-07 00:39:33
这4种茶叶界公认的垃圾茶,85%的人可能都喝过,看看你有没有中招

这4种茶叶界公认的垃圾茶,85%的人可能都喝过,看看你有没有中招

阿莱美食汇
2025-03-06 17:47:06
看完南师大副院长和女博士的“教科书”版聊骚,还是得多读书啊!

看完南师大副院长和女博士的“教科书”版聊骚,还是得多读书啊!

沧海一书客
2025-02-28 08:50:01
全球男性“丁丁”尺寸排行揭晓!澳洲位列第20,榜首是...

全球男性“丁丁”尺寸排行揭晓!澳洲位列第20,榜首是...

澳洲红领巾
2025-03-03 13:31:58
47岁刘涛和57岁周涛同穿正装,我才发现女明星与女干部之间的差距

47岁刘涛和57岁周涛同穿正装,我才发现女明星与女干部之间的差距

最炫时尚
2025-01-06 13:27:19
有时候“毁掉”孩子的内驱力很简单,只需要一直陪他写作业就行了

有时候“毁掉”孩子的内驱力很简单,只需要一直陪他写作业就行了

西红柿妈妈
2025-03-04 07:28:47
我们是社会主义国家讲究人人平等,为什么退休金要分三六九等?

我们是社会主义国家讲究人人平等,为什么退休金要分三六九等?

逍遥论经
2025-03-07 08:49:53
梅德韦杰夫再发惊人言论!马克龙最迟在两年内就会永远消失

梅德韦杰夫再发惊人言论!马克龙最迟在两年内就会永远消失

大风文字
2025-03-06 11:25:35
两会日程预告|3月7日:人代会审查计划、预算报告 审议代表法修正草案 政协委员进行大会发言

两会日程预告|3月7日:人代会审查计划、预算报告 审议代表法修正草案 政协委员进行大会发言

新华社
2025-03-06 20:48:07
买盐时,要加碘的还是未加碘的?多亏医生提醒,以后再不敢乱吃了

买盐时,要加碘的还是未加碘的?多亏医生提醒,以后再不敢乱吃了

简食记工作号
2025-03-07 07:03:48
若不出意外,2025年下半年起,中国大部分家庭会面临“四大难题”

若不出意外,2025年下半年起,中国大部分家庭会面临“四大难题”

牛锅巴小钒
2025-03-07 00:27:45
安徽一女护士回娘家路上失踪,15年后给哥哥托梦:我在院子里

安徽一女护士回娘家路上失踪,15年后给哥哥托梦:我在院子里

清茶浅谈
2025-02-27 14:55:55
在新加坡,台湾省一女子误把新加坡人当大陆人歧视被狠狠教训!

在新加坡,台湾省一女子误把新加坡人当大陆人歧视被狠狠教训!

去非
2025-03-06 07:44:35
商务部部长王文涛:将根据形势变化,抓紧研究储备稳外贸新的支持政策

商务部部长王文涛:将根据形势变化,抓紧研究储备稳外贸新的支持政策

每日经济新闻
2025-03-06 16:33:54
男子酒后误开邻居家门,与女主人发生关系,居然得逞……

男子酒后误开邻居家门,与女主人发生关系,居然得逞……

极品小牛肉
2024-03-01 22:37:49
中国外交部对“关税战”英文回应,在外网爆火:从没见过中国这样

中国外交部对“关税战”英文回应,在外网爆火:从没见过中国这样

刘振起观点
2025-03-06 15:43:18
建议取消中医药大学,让中医教育回归本色(四)

建议取消中医药大学,让中医教育回归本色(四)

今日养生之道
2025-03-06 17:16:13
“指纹锁”正逐渐退出中国家庭?听开锁师傅说完,我才恍然大悟!

“指纹锁”正逐渐退出中国家庭?听开锁师傅说完,我才恍然大悟!

巢客HOME
2025-02-28 05:35:03
2025-03-07 11:20:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
6763文章数 20653关注度
往期回顾 全部

科技要闻

星舰第八飞:又夹住助推器,但飞船又爆炸

头条要闻

王毅谈特朗普不停“退群”

头条要闻

王毅谈特朗普不停“退群”

体育要闻

退役6年,40岁滑雪女王用钛合金膝盖重新出发

娱乐要闻

曝具俊晔承担大S房贷,每月还百万

财经要闻

信息量巨大!五部门"掌门人"重磅发

汽车要闻

搭载高阶智驾/最高续航610km 铂智3X售10.98万起

态度原创

家居
本地
时尚
亲子
公开课

家居要闻

兼收并蓄 呼应家居主调

本地新闻

春色满城关不住|品茶赏樱,来重庆享受一场心灵spa

推广|| 挖到新宝!在时装周的每一天都离不开它

亲子要闻

两岁萌宝吃饺子:小手抓饺子,蘸点酱油醋,吃得真香,一口入魂

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版