网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM|推理能力大幅提升,Pathways给出的第一份答卷

0
分享至

卷友们好,我是rumor。

从Jeff Dean去年十月提出Pathways这个架构起,我就开始期待了,前段时间正式放出了Pathways的论文[1],但主要是讲底层的设计和性能。直到前两天,谷歌终于公布了这个架构所训出的第一个大模型:PaLM

PaLM: Scaling Language Modeling with Pathways
https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

PaLM是一个5400亿参数的单向语言模型

为啥用单向而不是谷歌经典的T5呢?作者的解释是GPT3这种结构的few-shot会更好,而带有encoder的模型得finetune才能有不错的表现,这样既需要很多数据,又得为每个任务改变模型权重,和Pathways的万能大模型初衷有些背离。

OK,那就用GPT3的结构吧,但怎么效果好这么一大截???

作者没有多做解释,个人猜测数据占大头,GPT3用了近500B token的数据,而PaLM有780B,多了不少。但同时PaLM的模型拟合能力也小了一半,所以真的挺难说。作者的原话也挺有意思:

Interestingly, the PaLM 62B outperforms the GPT-3 175B in both categories

除了在finetune方面pk掉GPT3,还让我注意到的就是推理能力的大幅提升

在7个算术应用题/常识推理数据集上,有4个超越了当前SOTA,而且是以8-shot的PaLM跟精调的SOTA比,很多SOTA的结构都是特殊设计的

这个震撼程度不知传达到没有,以前是一顿魔改调参还干不过大模型直接精调,现在马上就要变成一顿魔改调参却干不过大模型few-shot了

而且这个推理能力,还没到极限,随着参数量从64B到540B,很多错误都被修复了,而参数量再提升一个数量级,我感觉就是今年的事儿,现在最大的模型已经174万亿参数了。

另外除了早就被刷爆的GLUE和SuperGLUE之外,还有一个新的BIG-bench评测,包含150个任务,专为大模型准备。可以看到,PaLM的1-shot已经接近人类平均水平了,不过距离最好水平还马达马达达内。同时,随着参数量的扩大,few-shot模型的效果也展现了更大的提升,但GPT3为什么没展现同样的特性就有点玄学了。

另外在多语言任务上,同样展现了few-shot超越精调SOTA的效果。

那么,上面讲了那么多PaLM的效果,作者除了Pathways还做了啥呢?

模型层面主要有如下改动

  1. 使用SwiGLU激活函数,有研究证明在同等计算量下SwiGLU的效果更好

  2. 把FFN和Attention并行


  • 以前:



  • 现在:


Multi-Query Attention:以往做attention前我们都会把Q和K隐层映射到[head_num, head_size],而PaLM让所有头共享参数矩阵,只映射到[1, head_size],对训练速度和效果没什么影响,但却提升了decode的速度

使用RoPE[2]位置编码:RoPE是苏神的工作,主要利用三角函数的恒等变换来优化相对位置编码

输入和输出共享embedding矩阵

去掉所有的Bias项

使用256K个token的SentencePiece

但每个改动对于PaLM到底有多少提升,并没有消融实验。

总结

其实刚看到PaLM报道的时候,隐隐有些失望,本来以为就是一篇模型很大,训练数据很多,然后干过一批few-shot SOTA的文章,但结果看到居然是直接跟别人精调的SOTA比,还是挺惊喜的。但这其中到底提升都在哪里,因为没有和过往模型完全公平的对比,又变成玄学了,而且是复现不起的玄。

作者在intro中也总结了大模型提升的套路:

  1. 扩大模型深度和宽度

  2. 增加训练的token数目

  3. 更干净和更多源的数据

  4. 利用稀疏计算增加模型容量

虽然大模型已经开往了一条比拼金钱和工程的道路,但看到AI天花板不断被拉高也是一件好事,Pathways架构下的第一个模型,离Jeff Dean去年的构想还有一段距离,希望未来可以给出更好的答案。

另外,国内的我们也要加油吖!

参考资料

Pathways: Asynchronous Distributed Dataflow for ML: https://arxiv.org/abs/2203.12533

[2]

Roformer: Enhanced transformer with rotary position embedding: https://arxiv.org/abs/2104.09864

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小猎豹遭妻子套路又怀四胎,这是要组足球队?

小猎豹遭妻子套路又怀四胎,这是要组足球队?

毒舌八卦
2025-05-20 00:52:28
北京酒店HIV试纸后续:全是人血两条杠!客人紧急就医,细节曝光

北京酒店HIV试纸后续:全是人血两条杠!客人紧急就医,细节曝光

哄动一时啊
2025-06-22 07:55:03
不穿文胸跑步,真的更爽吗?

不穿文胸跑步,真的更爽吗?

马拉松跑步健身
2025-06-22 06:30:11
川普再次愚弄了世人。。。

川普再次愚弄了世人。。。

西楼饮月
2025-06-22 15:22:59
为什么当年由上海发起?全国跟进的垃圾分类,现在没人搞了?

为什么当年由上海发起?全国跟进的垃圾分类,现在没人搞了?

荆楚寰宇文枢
2025-06-22 14:22:43
“满门被裁”,一家四口仅剩老妈还有工作了

“满门被裁”,一家四口仅剩老妈还有工作了

蚂蚁大喇叭
2025-06-22 19:05:41
姚晨晒labubu称是人生唯一盈利投资,泡泡玛特:是499元的拿铁款,但暂时缺货

姚晨晒labubu称是人生唯一盈利投资,泡泡玛特:是499元的拿铁款,但暂时缺货

极目新闻
2025-06-22 16:29:57
37岁王思聪在日本和女友吃咖喱,下颌后缩严重,像动画片里的树懒

37岁王思聪在日本和女友吃咖喱,下颌后缩严重,像动画片里的树懒

大笑江湖史
2025-06-21 18:02:40
特朗普打响第一枪后,伊朗报复已箭在弦上,普京担心的事越来越近

特朗普打响第一枪后,伊朗报复已箭在弦上,普京担心的事越来越近

掌青说历史
2025-06-22 15:20:24
可笑不?明明是她的成就,人民日报的标题里却没有她的姓名

可笑不?明明是她的成就,人民日报的标题里却没有她的姓名

娱乐故事
2025-06-22 12:11:43
联合国安理会将就伊朗局势举行紧急会议

联合国安理会将就伊朗局势举行紧急会议

界面新闻
2025-06-22 21:58:50
常州五连败被“剃光头”,一景区推出“光头免票”:没头发就行,性别无限制

常州五连败被“剃光头”,一景区推出“光头免票”:没头发就行,性别无限制

极目新闻
2025-06-22 18:26:28
红星观察|三大因素促成美国此时下场!专家:美军在为中等规模冲突做准备

红星观察|三大因素促成美国此时下场!专家:美军在为中等规模冲突做准备

红星新闻
2025-06-22 21:26:15
一景区突发垮塌!亲历游客:离死亡最近的一次……最新消息:部分区域暂时关闭

一景区突发垮塌!亲历游客:离死亡最近的一次……最新消息:部分区域暂时关闭

极目新闻
2025-06-22 18:49:11
伊朗总统:以色列“无能” 美国被迫出手

伊朗总统:以色列“无能” 美国被迫出手

环球网资讯
2025-06-22 21:55:21
国际专家锐评中国芯片:在美国的制裁下,中国芯片的设计水平还停留在中低端层面,没有高端技术

国际专家锐评中国芯片:在美国的制裁下,中国芯片的设计水平还停留在中低端层面,没有高端技术

逍遥漠
2025-06-22 12:10:45
过分19岁董禹含拦网得分激动庆祝,遭意大利黑人选手招手挑衅

过分19岁董禹含拦网得分激动庆祝,遭意大利黑人选手招手挑衅

直播吧
2025-06-22 21:59:14
太阳正式宣布解散!杜兰特加盟火箭,比尔惨遭买断,布克孤军奋战

太阳正式宣布解散!杜兰特加盟火箭,比尔惨遭买断,布克孤军奋战

老韩谈体育
2025-06-22 18:51:37
动用B-2轰炸机等超125架飞机 美公布打击伊朗核设施行动细节

动用B-2轰炸机等超125架飞机 美公布打击伊朗核设施行动细节

环球网资讯
2025-06-22 20:35:39
“神秘人”捐1.8亿!

“神秘人”捐1.8亿!

环球时报新闻
2025-06-21 23:08:09
2025-06-22 22:19:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
6866文章数 20670关注度
往期回顾 全部

科技要闻

"你应该靠嘴吃饭",罗永浩自述被梁文锋劝退

头条要闻

上海爷叔相信二婚妻子"不图房产" 结果房屋一步步被占

体育要闻

这一次抢七,快要10年的回归

娱乐要闻

离婚四年!赵丽颖被曝新恋情惹争议

财经要闻

苹果后院起火

汽车要闻

首搭华为双王牌/6月24日预售 岚图FREE+正式下线

态度原创

时尚
房产
健康
公开课
军事航空

夏天真该试试这些穿搭,上紧下宽、腰部收紧,显瘦又修饰比例

房产要闻

坑惨2000多人!恒大财富海南高管被曝非吸12.6亿元!

呼吸科专家破解呼吸道九大谣言!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中东局势"历史性升级":美军轰炸伊朗3处核设施