网易首页 > 网易号 > 正文 申请入驻

谷歌PaLM|推理能力大幅提升,Pathways给出的第一份答卷

0
分享至

卷友们好,我是rumor。

从Jeff Dean去年十月提出Pathways这个架构起,我就开始期待了,前段时间正式放出了Pathways的论文[1],但主要是讲底层的设计和性能。直到前两天,谷歌终于公布了这个架构所训出的第一个大模型:PaLM

PaLM: Scaling Language Modeling with Pathways
https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

PaLM是一个5400亿参数的单向语言模型

为啥用单向而不是谷歌经典的T5呢?作者的解释是GPT3这种结构的few-shot会更好,而带有encoder的模型得finetune才能有不错的表现,这样既需要很多数据,又得为每个任务改变模型权重,和Pathways的万能大模型初衷有些背离。

OK,那就用GPT3的结构吧,但怎么效果好这么一大截???

作者没有多做解释,个人猜测数据占大头,GPT3用了近500B token的数据,而PaLM有780B,多了不少。但同时PaLM的模型拟合能力也小了一半,所以真的挺难说。作者的原话也挺有意思:

Interestingly, the PaLM 62B outperforms the GPT-3 175B in both categories

除了在finetune方面pk掉GPT3,还让我注意到的就是推理能力的大幅提升

在7个算术应用题/常识推理数据集上,有4个超越了当前SOTA,而且是以8-shot的PaLM跟精调的SOTA比,很多SOTA的结构都是特殊设计的

这个震撼程度不知传达到没有,以前是一顿魔改调参还干不过大模型直接精调,现在马上就要变成一顿魔改调参却干不过大模型few-shot了

而且这个推理能力,还没到极限,随着参数量从64B到540B,很多错误都被修复了,而参数量再提升一个数量级,我感觉就是今年的事儿,现在最大的模型已经174万亿参数了。

另外除了早就被刷爆的GLUE和SuperGLUE之外,还有一个新的BIG-bench评测,包含150个任务,专为大模型准备。可以看到,PaLM的1-shot已经接近人类平均水平了,不过距离最好水平还马达马达达内。同时,随着参数量的扩大,few-shot模型的效果也展现了更大的提升,但GPT3为什么没展现同样的特性就有点玄学了。

另外在多语言任务上,同样展现了few-shot超越精调SOTA的效果。

那么,上面讲了那么多PaLM的效果,作者除了Pathways还做了啥呢?

模型层面主要有如下改动

  1. 使用SwiGLU激活函数,有研究证明在同等计算量下SwiGLU的效果更好

  2. 把FFN和Attention并行


  • 以前:



  • 现在:


Multi-Query Attention:以往做attention前我们都会把Q和K隐层映射到[head_num, head_size],而PaLM让所有头共享参数矩阵,只映射到[1, head_size],对训练速度和效果没什么影响,但却提升了decode的速度

使用RoPE[2]位置编码:RoPE是苏神的工作,主要利用三角函数的恒等变换来优化相对位置编码

输入和输出共享embedding矩阵

去掉所有的Bias项

使用256K个token的SentencePiece

但每个改动对于PaLM到底有多少提升,并没有消融实验。

总结

其实刚看到PaLM报道的时候,隐隐有些失望,本来以为就是一篇模型很大,训练数据很多,然后干过一批few-shot SOTA的文章,但结果看到居然是直接跟别人精调的SOTA比,还是挺惊喜的。但这其中到底提升都在哪里,因为没有和过往模型完全公平的对比,又变成玄学了,而且是复现不起的玄。

作者在intro中也总结了大模型提升的套路:

  1. 扩大模型深度和宽度

  2. 增加训练的token数目

  3. 更干净和更多源的数据

  4. 利用稀疏计算增加模型容量

虽然大模型已经开往了一条比拼金钱和工程的道路,但看到AI天花板不断被拉高也是一件好事,Pathways架构下的第一个模型,离Jeff Dean去年的构想还有一段距离,希望未来可以给出更好的答案。

另外,国内的我们也要加油吖!

参考资料

Pathways: Asynchronous Distributed Dataflow for ML: https://arxiv.org/abs/2203.12533

[2]

Roformer: Enhanced transformer with rotary position embedding: https://arxiv.org/abs/2104.09864

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

机器人学会「眼看手摸」!FreeTacMan 实现人类指尖亲自「授课」

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
形势严峻!美国拿下全球50.4%的芯片市场,中国大陆仅4.5%

形势严峻!美国拿下全球50.4%的芯片市场,中国大陆仅4.5%

互联网.乱侃秀
2025-06-04 15:04:05
歼35内场图公开,福建舰估计快要交付了

歼35内场图公开,福建舰估计快要交付了

三叔的装备空间
2025-06-04 20:06:04
事实证明,网传带全家移居英国的孙俪,早走上了一条“康庄大道”

事实证明,网传带全家移居英国的孙俪,早走上了一条“康庄大道”

简读视觉
2025-06-04 15:58:18
28岁窦靖童,在西班牙度假,背8800元做旧帆布包,打扮一言难尽

28岁窦靖童,在西班牙度假,背8800元做旧帆布包,打扮一言难尽

史行途
2025-06-04 10:34:00
印度商人在义乌订了两千双鞋,付完定金后要求货到印度再结尾款

印度商人在义乌订了两千双鞋,付完定金后要求货到印度再结尾款

三农老历
2025-06-04 05:54:58
被蛇咬死美女真冤!伤口曝光,难怪医院错诊,错失3次救助是主因

被蛇咬死美女真冤!伤口曝光,难怪医院错诊,错失3次救助是主因

阿纂看事
2025-06-04 17:27:20
男女之间,一旦出现下面3个小动作,早晚要发生关系。

男女之间,一旦出现下面3个小动作,早晚要发生关系。

呆哥说情感
2025-06-04 11:30:04
马卡:登贝莱钟爱劳力士手表,而纳赛尔平常佩戴百达翡丽手表

马卡:登贝莱钟爱劳力士手表,而纳赛尔平常佩戴百达翡丽手表

懂球帝
2025-06-04 22:49:18
55岁“淫僧”黄连奎两年染指128名少妇,连18岁的少女都不放过

55岁“淫僧”黄连奎两年染指128名少妇,连18岁的少女都不放过

民间精选故事汇
2025-03-10 08:10:19
震惊!泽连斯基突然宣布,一场大战爆发!

震惊!泽连斯基突然宣布,一场大战爆发!

小小小白看世界
2025-06-04 06:24:59
托纳利+赖因德斯一共花了米兰4000万 分别7000万去了纽卡和曼城

托纳利+赖因德斯一共花了米兰4000万 分别7000万去了纽卡和曼城

直播吧
2025-06-04 17:02:54
48岁左小青走红毯,不知道她尴不尴尬,反正我挺尴尬的,何必呢

48岁左小青走红毯,不知道她尴不尴尬,反正我挺尴尬的,何必呢

喜欢历史的阿繁
2025-06-03 11:36:18
中国免签“朋友圈”越扩越大 张维为:影响一代人

中国免签“朋友圈”越扩越大 张维为:影响一代人

看看新闻Knews
2025-06-04 09:30:27
中方吁欧盟恪守市场开放承诺

中方吁欧盟恪守市场开放承诺

参考消息
2025-06-03 22:11:23
王鸥这个颜值下滑的也太厉害了,生完孩子后,简直老了十岁

王鸥这个颜值下滑的也太厉害了,生完孩子后,简直老了十岁

情感大头说说
2025-05-30 15:27:33
北京发布高温橙警:预计明日平原大部地区最高可达37℃或以上

北京发布高温橙警:预计明日平原大部地区最高可达37℃或以上

澎湃新闻
2025-06-04 18:54:06
一年一CT,十年进ICU?关于CT检查致癌的真相,我们不能再沉默了!

一年一CT,十年进ICU?关于CT检查致癌的真相,我们不能再沉默了!

读史
2025-04-26 06:58:44
新疆文旅天塌了!1000元烧烤自助,吃太多老板玩不起给两千才放人

新疆文旅天塌了!1000元烧烤自助,吃太多老板玩不起给两千才放人

温读史
2025-06-03 16:07:24
疑被蛇咬伤身亡女子表弟发声:被咬地系三亚市区人行道,表姐已在新加坡申请读研

疑被蛇咬伤身亡女子表弟发声:被咬地系三亚市区人行道,表姐已在新加坡申请读研

极目新闻
2025-06-04 11:41:46
偶遇郑恺打网球,穿一身名牌,身高170出头网球打很好

偶遇郑恺打网球,穿一身名牌,身高170出头网球打很好

悠闲历史
2025-06-04 11:35:10
2025-06-04 23:32:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
6847文章数 20669关注度
往期回顾 全部

科技要闻

小鹏Q1交付暴涨超理想 蔚来亏62亿研发最猛

头条要闻

三亚死亡女子家属:第二家医院用了血清抢救 愿意尸检

体育要闻

从次轮末到乐透边缘 杨瀚森的试训有什么玄机?

娱乐要闻

彭于晏方出面澄清与蔡依林复合恋情!

财经要闻

地铁涨价争议背后,“赚钱”难题有解吗

汽车要闻

车机升级 新款AION Y Plus上市售9.98万起

态度原创

本地
艺术
亲子
数码
公开课

本地新闻

《中国匠人——锦绣中国》即日上线:解读千年丝线的东方美学密码

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

这3个关于孩子发烧的问题,很多家长都不清楚

数码要闻

【首发】蓝宝石PURE极地 & NITRO氮动RX 9060 XT重磅测评

公开课

李玫瑾:为什么性格比能力更重要?