网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM|推理能力大幅提升,Pathways给出的第一份答卷

0
分享至

卷友们好,我是rumor。

从Jeff Dean去年十月提出Pathways这个架构起,我就开始期待了,前段时间正式放出了Pathways的论文[1],但主要是讲底层的设计和性能。直到前两天,谷歌终于公布了这个架构所训出的第一个大模型:PaLM

PaLM: Scaling Language Modeling with Pathways
https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

PaLM是一个5400亿参数的单向语言模型

为啥用单向而不是谷歌经典的T5呢?作者的解释是GPT3这种结构的few-shot会更好,而带有encoder的模型得finetune才能有不错的表现,这样既需要很多数据,又得为每个任务改变模型权重,和Pathways的万能大模型初衷有些背离。

OK,那就用GPT3的结构吧,但怎么效果好这么一大截???

作者没有多做解释,个人猜测数据占大头,GPT3用了近500B token的数据,而PaLM有780B,多了不少。但同时PaLM的模型拟合能力也小了一半,所以真的挺难说。作者的原话也挺有意思:

Interestingly, the PaLM 62B outperforms the GPT-3 175B in both categories

除了在finetune方面pk掉GPT3,还让我注意到的就是推理能力的大幅提升

在7个算术应用题/常识推理数据集上,有4个超越了当前SOTA,而且是以8-shot的PaLM跟精调的SOTA比,很多SOTA的结构都是特殊设计的

这个震撼程度不知传达到没有,以前是一顿魔改调参还干不过大模型直接精调,现在马上就要变成一顿魔改调参却干不过大模型few-shot了

而且这个推理能力,还没到极限,随着参数量从64B到540B,很多错误都被修复了,而参数量再提升一个数量级,我感觉就是今年的事儿,现在最大的模型已经174万亿参数了。

另外除了早就被刷爆的GLUE和SuperGLUE之外,还有一个新的BIG-bench评测,包含150个任务,专为大模型准备。可以看到,PaLM的1-shot已经接近人类平均水平了,不过距离最好水平还马达马达达内。同时,随着参数量的扩大,few-shot模型的效果也展现了更大的提升,但GPT3为什么没展现同样的特性就有点玄学了。

另外在多语言任务上,同样展现了few-shot超越精调SOTA的效果。

那么,上面讲了那么多PaLM的效果,作者除了Pathways还做了啥呢?

模型层面主要有如下改动

  1. 使用SwiGLU激活函数,有研究证明在同等计算量下SwiGLU的效果更好

  2. 把FFN和Attention并行


  • 以前:



  • 现在:


Multi-Query Attention:以往做attention前我们都会把Q和K隐层映射到[head_num, head_size],而PaLM让所有头共享参数矩阵,只映射到[1, head_size],对训练速度和效果没什么影响,但却提升了decode的速度

使用RoPE[2]位置编码:RoPE是苏神的工作,主要利用三角函数的恒等变换来优化相对位置编码

输入和输出共享embedding矩阵

去掉所有的Bias项

使用256K个token的SentencePiece

但每个改动对于PaLM到底有多少提升,并没有消融实验。

总结

其实刚看到PaLM报道的时候,隐隐有些失望,本来以为就是一篇模型很大,训练数据很多,然后干过一批few-shot SOTA的文章,但结果看到居然是直接跟别人精调的SOTA比,还是挺惊喜的。但这其中到底提升都在哪里,因为没有和过往模型完全公平的对比,又变成玄学了,而且是复现不起的玄。

作者在intro中也总结了大模型提升的套路:

  1. 扩大模型深度和宽度

  2. 增加训练的token数目

  3. 更干净和更多源的数据

  4. 利用稀疏计算增加模型容量

虽然大模型已经开往了一条比拼金钱和工程的道路,但看到AI天花板不断被拉高也是一件好事,Pathways架构下的第一个模型,离Jeff Dean去年的构想还有一段距离,希望未来可以给出更好的答案。

另外,国内的我们也要加油吖!

参考资料

Pathways: Asynchronous Distributed Dataflow for ML: https://arxiv.org/abs/2203.12533

[2]

Roformer: Enhanced transformer with rotary position embedding: https://arxiv.org/abs/2104.09864

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
羊肉的“死对头”,医生提醒:二者万不可同食,吃羊肉也有禁忌的

羊肉的“死对头”,医生提醒:二者万不可同食,吃羊肉也有禁忌的

简食记工作号
2024-11-27 00:22:03
为什么现在那么多小孩得抑郁?评论区真相了,父母是最主要的因素

为什么现在那么多小孩得抑郁?评论区真相了,父母是最主要的因素

奇特短尾矮袋鼠
2024-07-18 15:22:11
银行取钱新规已开始执行,存款人死亡后,亲属取款限额提高

银行取钱新规已开始执行,存款人死亡后,亲属取款限额提高

老鹈爱历史
2024-11-28 11:51:42
肺部有没有癌变,喉咙先知?肺癌患者,喉咙一般会出现这几个异常

肺部有没有癌变,喉咙先知?肺癌患者,喉咙一般会出现这几个异常

今日养生之道
2024-11-28 14:13:50
再拖4年?事关特朗普罪行,美国检方当众“泼冷水”,想跑不可能

再拖4年?事关特朗普罪行,美国检方当众“泼冷水”,想跑不可能

要塞阵地官方
2024-11-28 11:34:41
原来算命有这么多真事?网友:算命先生不会平白无故拒绝你

原来算命有这么多真事?网友:算命先生不会平白无故拒绝你

滑稽斑马呀
2024-09-24 13:50:08
余承东:明年华为新手机、平板将全面搭载原生鸿蒙系统

余承东:明年华为新手机、平板将全面搭载原生鸿蒙系统

环球网资讯
2024-11-26 16:55:09
RTX4090运行《真三国无双:起源》4K测试 稳定100帧

RTX4090运行《真三国无双:起源》4K测试 稳定100帧

3DM游戏
2024-11-28 09:39:30
国家一锤定音,马云预言成真?未来5年,买不买房会有多大区别?

国家一锤定音,马云预言成真?未来5年,买不买房会有多大区别?

山丘楼评
2024-11-27 15:56:23
野猪撞死老人后续!双方已和解,捕猎队4人估计赔20万,网友炸锅

野猪撞死老人后续!双方已和解,捕猎队4人估计赔20万,网友炸锅

历史看阿敞
2024-11-27 15:56:20
王钰栋轰处子球!亚冠生死战传射建功,脱衣滑跪激情庆祝

王钰栋轰处子球!亚冠生死战传射建功,脱衣滑跪激情庆祝

奥拜尔
2024-11-28 22:07:59
中央为何决定:武警部队要归中央军委统一领导?

中央为何决定:武警部队要归中央军委统一领导?

李昕言温度空间
2024-11-10 16:35:12
香港最新调查显示:香港市民2024年月均储蓄金额创7年来新高,达9800港元

香港最新调查显示:香港市民2024年月均储蓄金额创7年来新高,达9800港元

环球网资讯
2024-11-28 07:24:14
杜子建:支持云朵,为刀郎减分,云朵有90%的概率可以把刀郎毁掉

杜子建:支持云朵,为刀郎减分,云朵有90%的概率可以把刀郎毁掉

吐不满的痰娱
2024-11-27 19:06:15
王楠女儿未能打进国少选拔赛12强,网友质疑:资源逆天,天赋一般

王楠女儿未能打进国少选拔赛12强,网友质疑:资源逆天,天赋一般

爱论历史
2024-11-27 22:49:16
吃素的也能长成这样?

吃素的也能长成这样?

人情皆文史
2024-09-10 00:06:04
欧冠官方本轮最佳阵:麦卡利斯特领衔,库巴西、小蜘蛛在列

欧冠官方本轮最佳阵:麦卡利斯特领衔,库巴西、小蜘蛛在列

直播吧
2024-11-28 23:54:08
孟婆汤是不是开始掺水了?小孩的记忆全都在!原来投胎还得交钱啊

孟婆汤是不是开始掺水了?小孩的记忆全都在!原来投胎还得交钱啊

有趣的火烈鸟
2024-09-24 19:07:12
林如鹏任广东省教育厅厅长 刘利群任省卫生健康委主任

林如鹏任广东省教育厅厅长 刘利群任省卫生健康委主任

中国经济网
2024-11-28 17:31:10
华为史上售价最高单品发布,首款蓝宝石水晶智能手表演绎极致奢华

华为史上售价最高单品发布,首款蓝宝石水晶智能手表演绎极致奢华

硅星Breaknews
2024-11-26 16:22:17
2024-11-29 02:27:00
AI科技评论
AI科技评论
点评学术,服务AI
6675文章数 20619关注度
往期回顾 全部

科技要闻

讽刺谁?特斯拉称供应链付款周期缩至90天

头条要闻

大众宣布将出售其在新疆的业务 外交部回应

头条要闻

大众宣布将出售其在新疆的业务 外交部回应

体育要闻

道心破碎的姆巴佩,交出一张负分答卷

娱乐要闻

冯绍峰新恋情曝出!女方第一时间发文辟谣

财经要闻

洪灏:不要误解增量政策 不是数越大越好

汽车要闻

ID. CODE概念车/探岳L领衔 大众汽车携25款车亮相

态度原创

房产
健康
游戏
手机
旅游

房产要闻

湾区黄金枢纽之上,有灵魂与底蕴的「世界庄园」广佛新世界,打版第四代高质量住宅!

花18万治疗阿尔茨海默病,值不值?

《小丑牌》登Steam Deck榜单第四!紧随星露谷

手机要闻

小米 REDMI K80 系列手机搭载汇顶超声波指纹方案

旅游要闻

张家口一滑雪场吊厢突然停运 游客-15℃被困

无障碍浏览 进入关怀版