网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM|推理能力大幅提升,Pathways给出的第一份答卷

0
分享至

卷友们好,我是rumor。

从Jeff Dean去年十月提出Pathways这个架构起,我就开始期待了,前段时间正式放出了Pathways的论文[1],但主要是讲底层的设计和性能。直到前两天,谷歌终于公布了这个架构所训出的第一个大模型:PaLM

PaLM: Scaling Language Modeling with Pathways
https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

PaLM是一个5400亿参数的单向语言模型

为啥用单向而不是谷歌经典的T5呢?作者的解释是GPT3这种结构的few-shot会更好,而带有encoder的模型得finetune才能有不错的表现,这样既需要很多数据,又得为每个任务改变模型权重,和Pathways的万能大模型初衷有些背离。

OK,那就用GPT3的结构吧,但怎么效果好这么一大截???

作者没有多做解释,个人猜测数据占大头,GPT3用了近500B token的数据,而PaLM有780B,多了不少。但同时PaLM的模型拟合能力也小了一半,所以真的挺难说。作者的原话也挺有意思:

Interestingly, the PaLM 62B outperforms the GPT-3 175B in both categories

除了在finetune方面pk掉GPT3,还让我注意到的就是推理能力的大幅提升

在7个算术应用题/常识推理数据集上,有4个超越了当前SOTA,而且是以8-shot的PaLM跟精调的SOTA比,很多SOTA的结构都是特殊设计的

这个震撼程度不知传达到没有,以前是一顿魔改调参还干不过大模型直接精调,现在马上就要变成一顿魔改调参却干不过大模型few-shot了

而且这个推理能力,还没到极限,随着参数量从64B到540B,很多错误都被修复了,而参数量再提升一个数量级,我感觉就是今年的事儿,现在最大的模型已经174万亿参数了。

另外除了早就被刷爆的GLUE和SuperGLUE之外,还有一个新的BIG-bench评测,包含150个任务,专为大模型准备。可以看到,PaLM的1-shot已经接近人类平均水平了,不过距离最好水平还马达马达达内。同时,随着参数量的扩大,few-shot模型的效果也展现了更大的提升,但GPT3为什么没展现同样的特性就有点玄学了。

另外在多语言任务上,同样展现了few-shot超越精调SOTA的效果。

那么,上面讲了那么多PaLM的效果,作者除了Pathways还做了啥呢?

模型层面主要有如下改动

  1. 使用SwiGLU激活函数,有研究证明在同等计算量下SwiGLU的效果更好

  2. 把FFN和Attention并行


  • 以前:



  • 现在:


Multi-Query Attention:以往做attention前我们都会把Q和K隐层映射到[head_num, head_size],而PaLM让所有头共享参数矩阵,只映射到[1, head_size],对训练速度和效果没什么影响,但却提升了decode的速度

使用RoPE[2]位置编码:RoPE是苏神的工作,主要利用三角函数的恒等变换来优化相对位置编码

输入和输出共享embedding矩阵

去掉所有的Bias项

使用256K个token的SentencePiece

但每个改动对于PaLM到底有多少提升,并没有消融实验。

总结

其实刚看到PaLM报道的时候,隐隐有些失望,本来以为就是一篇模型很大,训练数据很多,然后干过一批few-shot SOTA的文章,但结果看到居然是直接跟别人精调的SOTA比,还是挺惊喜的。但这其中到底提升都在哪里,因为没有和过往模型完全公平的对比,又变成玄学了,而且是复现不起的玄。

作者在intro中也总结了大模型提升的套路:

  1. 扩大模型深度和宽度

  2. 增加训练的token数目

  3. 更干净和更多源的数据

  4. 利用稀疏计算增加模型容量

虽然大模型已经开往了一条比拼金钱和工程的道路,但看到AI天花板不断被拉高也是一件好事,Pathways架构下的第一个模型,离Jeff Dean去年的构想还有一段距离,希望未来可以给出更好的答案。

另外,国内的我们也要加油吖!

参考资料

Pathways: Asynchronous Distributed Dataflow for ML: https://arxiv.org/abs/2203.12533

[2]

Roformer: Enhanced transformer with rotary position embedding: https://arxiv.org/abs/2104.09864

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泽连斯基称俄罗斯可能从白俄罗斯发起进攻,并袭击乌克兰决策中心

泽连斯基称俄罗斯可能从白俄罗斯发起进攻,并袭击乌克兰决策中心

山河路口
2026-05-15 23:16:45
拼命演戏还清一亿四千万巨债,豪门梦碎,现回浙江农村过踏实日子

拼命演戏还清一亿四千万巨债,豪门梦碎,现回浙江农村过踏实日子

人间颂
2026-05-17 12:14:44
心理学发现:99%喜欢抬杠、凡事都要争对错的人,不是本性偏执,也不是爱较真,而是没正视过自己的这两个价值感缺失

心理学发现:99%喜欢抬杠、凡事都要争对错的人,不是本性偏执,也不是爱较真,而是没正视过自己的这两个价值感缺失

心理观察局
2026-05-13 09:40:07
诺兰《奥德赛》DEI争议升级!媒体发文辩护被群嘲

诺兰《奥德赛》DEI争议升级!媒体发文辩护被群嘲

3DM游戏
2026-05-17 16:01:05
37岁莱万宣布自由身离队 为巴萨4年3夺西甲冠军 获9000万年薪邀约

37岁莱万宣布自由身离队 为巴萨4年3夺西甲冠军 获9000万年薪邀约

我爱英超
2026-05-16 19:13:03
浙江紧急抽检福建杨梅,果然发现大量问题,近期已大量发往各地

浙江紧急抽检福建杨梅,果然发现大量问题,近期已大量发往各地

小鋭有话说
2026-05-17 20:00:25
女星卢昱晓发布《给阿嬷的情书》屏摄引争议,本人发文道歉:伤害电影创作者心血,已深刻认识到问题严重性;电影票房已破4亿

女星卢昱晓发布《给阿嬷的情书》屏摄引争议,本人发文道歉:伤害电影创作者心血,已深刻认识到问题严重性;电影票房已破4亿

极目新闻
2026-05-17 14:00:28
外媒:中企承建哈萨克斯坦首都轻轨建成通车,总统托卡耶夫用中文感谢中方

外媒:中企承建哈萨克斯坦首都轻轨建成通车,总统托卡耶夫用中文感谢中方

环球网资讯
2026-05-17 19:12:39
4-3艰难晋级,主场耻辱输球,季后赛最大的伪球星确实该被交易

4-3艰难晋级,主场耻辱输球,季后赛最大的伪球星确实该被交易

寒律
2026-05-17 21:17:14
啪啪打脸!一美女高举“请停止虐待动物”横幅,其穿皮草大衣被扒

啪啪打脸!一美女高举“请停止虐待动物”横幅,其穿皮草大衣被扒

火山詩话
2026-05-17 06:51:01
煮豆子总煮不烂?教你一个绝招,普通锅5分钟全开花

煮豆子总煮不烂?教你一个绝招,普通锅5分钟全开花

开心美食白科
2026-05-16 20:53:40
赵松源谈进球后被换下:比赛强度有点大,体能状况不太理想

赵松源谈进球后被换下:比赛强度有点大,体能状况不太理想

懂球帝
2026-05-17 20:24:11
去年休赛期千万级别引援!前男篮集训国手后卫被上海主帅遗忘

去年休赛期千万级别引援!前男篮集训国手后卫被上海主帅遗忘

狼叔评论
2026-05-18 01:58:16
不是大白边!上海失利真因找到!赛后评分:3人表现拉胯拖累全队

不是大白边!上海失利真因找到!赛后评分:3人表现拉胯拖累全队

老吴说体育
2026-05-17 23:54:31
足坛一夜动态:米兰止颓势曼联破魔咒,巴萨赛季主场全胜比肩皇马

足坛一夜动态:米兰止颓势曼联破魔咒,巴萨赛季主场全胜比肩皇马

钉钉陌上花开
2026-05-18 05:13:20
大三男生泰国失联超60天,90多岁爷爷奶奶至今仍不知情,母亲整日以泪洗面:已办好护照,打算赴泰寻子

大三男生泰国失联超60天,90多岁爷爷奶奶至今仍不知情,母亲整日以泪洗面:已办好护照,打算赴泰寻子

极目新闻
2026-05-17 18:20:30
江西50岁阿姨一生未婚,坚持寻找30年前的初恋,找到时她哭出声来

江西50岁阿姨一生未婚,坚持寻找30年前的初恋,找到时她哭出声来

白云故事
2025-06-09 19:05:03
白左圣母被驱赶出家:还会说有一天我们也是难民吗

白左圣母被驱赶出家:还会说有一天我们也是难民吗

番外行
2026-05-15 09:08:27
这场顶级晚宴,真正的主角不是马斯克、黄仁勋,而是一方中式桌面

这场顶级晚宴,真正的主角不是马斯克、黄仁勋,而是一方中式桌面

魔都姐姐杂谈
2026-05-15 00:53:47
“高老师,我是省状元”山姆开业遭疯抢:有人凌晨2点排队看懵网友,顾客斥“烤鸡没了?苍蝇来了!”

“高老师,我是省状元”山姆开业遭疯抢:有人凌晨2点排队看懵网友,顾客斥“烤鸡没了?苍蝇来了!”

新浪财经
2026-05-17 15:39:04
2026-05-18 07:08:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7280文章数 20751关注度
往期回顾 全部

科技要闻

三大运营商即将免月租?多方回应

头条要闻

特朗普:如果伊朗不迅速行动 “将一无所有”

头条要闻

特朗普:如果伊朗不迅速行动 “将一无所有”

体育要闻

生死战只拿3分的核心,还有留的必要吗?

娱乐要闻

卢昱晓道歉:认识到问题严重性!

财经要闻

长鑫科技 预计上半年净利至少500亿元

汽车要闻

车长超5米/双动力可选 昊铂S600预售权益价18.89万起

态度原创

房产
时尚
家居
数码
公开课

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

“这条裙子”是今年夏天的顶流!谁穿谁好看

家居要闻

110㎡淡而有致的生活表达

数码要闻

胃口比苹果加三星还大!英伟达Vera Rubin跨界抢夺LPDDR内存 份额反超两大巨头6%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版