网易首页 > 网易号 > 正文 申请入驻

谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化

0
分享至

新智元报道

编辑:润 alan

【新智元导读】Transformer模型是否能够泛化出新的认知和能力?最近,谷歌的研究人员进行了有关实验,对于这一问题给出了自己的答案。

Transformer模型是否能够超越预训练数据范围,泛化出新的认知和能力,一直是学界争议已久的问题。

最近谷歌DeepMind的3位研究人员认为,要求模型在超出预训练数据范围之外泛化出解决新问题的能力,几乎是不可能的。

LLM的终局就是人类智慧总和?

论文地址:https://arxiv.org/abs/2311.00871

Jim Fan转发论文后评论说,这明确说明了训练数据对于模型性能的重要性,所以数据质量对于LLM来说实在是太重要了。

研究人员在论文中专注于研究预训练过程的一个特定方面——预训练中使用的数据——并研究它如何影响最终Transformer模型的少样本学习能力。

研究人员使用一组来作为输入和标签, 来对新输入的标签进行预测。要训练模型做出这样的预测,需要在形式的许多序列上拟合模型。

研究人员使用包含多种不同函数类别的混合对Transformer模型进行预训练,以便在上下文中学习,并展示了所表现出的模型选择行为(Model Selection Phenomena)。

他们还研究了预训练Transformer模型在与预训练数据中的函数类别 「不一致 (out-of-distribution)」的函数上的情境学习行为。

通过这种方式,研究人员研究了预训练数据组成与Transformer模型对相关任务进行少量学习的能力之间的相互作用和影响后发现:

1. 在所研究的机制中,有明确的证据表明,模型在上下文学习过程中可以在预训练的函数类别中进行模型选择,而且几乎不需要额外的统计成本。

预训练数据中各个稀疏程度的线性函数都被很好地覆盖的情况下,Transformer可以进行近似最优的预测。

2. 但几乎没有证据表明,模型的上下文学习行为能够超出其预训练数据的范围。

当组合函数主要来自一个函数类时,预测合理。当两个类同时显著贡献时,预测失效。

对于预训练数据中极为罕见的高低频正弦函数,模型的泛化会失败。

研究过程细节

首先,为了避免产生误解,这里先声明本实验所采用的模型:类似于GPT-2,包含12层,256维嵌入空间。

之前提到了文章使用不同函数混合的方法进行研究,

那么我们不禁要问:「当提供支持预训练混合的上下文示例时,模型如何在不同的函数类之间进行选择?」

之前的研究表明,在线性函数上预训练的Transformer在对新的线性函数进行上下文学习时表现几乎最优。

于是研究人员采用两个线性模型来进行研究:一个在密集线性函数上训练(其中线性模型的所有系数都是非零的),另一个在稀疏线性函数上训练(假设20个系数中只有2个是非零的)。

每个模型分别对新的密集线性函数和稀疏线性函数执行相应的线性回归和套索回归(Lasso)。此外,还将这两个模型与在稀疏线性函数和密集线性函数的混合上预训练的模型进行了比较。

上图显示,在以D(F) = 0.5*D(F1)+0.5*D(F2)的比例混合两个函数的情况下,新的函数在上下文学习中的表现与仅在一个函数类上预训练的模型相似。

而在新的混合函数上预训练的模型与前人研究中所展示的模型(理论上最优)相似,因此可以推断该模型也几乎是最优的。

上图中的ICL学习曲线向我们表明,这种上下文模型选择能力相对于提供的上下文示例数量相对一致。

我们还可以看到,与纯粹基于该函数类预训练模型相比,对于给定函数类,这种使用权重来进行预训练数据混合的ICL学习曲线几乎与最佳基线样本复杂度相匹配。

上图还表明,Transformer模型ICL泛化存在分布不均。尽管密集线性类和稀疏线性类都是线性函数,但我们可以看到上图(a)中的红色曲线性能较差,而相应的,图(b)中的蓝色曲线性能较差。

这表明该模型能够执行模型选择,以选择是否仅使用预训练组合中一个基函数类或另一个基函数类的知识进行预测。

事实上,当上下文中提供的示例来自非常稀疏或非常密集的函数时,预测几乎与分别在仅稀疏或仅密集数据上预训练的模型所做的预测相同。

模型的局限性

之前的实验展示了混合预训练数据的情况,下面我们来探索一些明确脱离所有预训练数据的函数。

作者在这里研究了模型沿两个轴的ICL泛化能力:从未见过的函数,以及函数的极端版本(频率比预训练中通常看到的频率高得多或低得多的正弦曲线)上的性能。

在这两种情况下,研究人员几乎没有发现分布外泛化的证据。

上图显示,Transformer在中等稀疏度水平(nnz=3到7)下的预测与预训练时提供的任何函数类的任何预测都不相似,而是介于两者之间。

因此,可以假设该模型具有一些归纳偏差,可以组合预训练的函数类。

但是,人们可能会怀疑该模型可以从预训练期间看到的函数组合中产生预测。

所以作者在具有明显不相交的函数类的背景下检验这一假设,研究了对线性函数、正弦函数和两者的凸组合执行 ICL 的能力。

上图显示,虽然模型在线性函数和正弦曲线的混合上进行预训练(即D(F) = 0.5*D(F1)+0.5*D(F2))能够分别对这两个函数中的任何一个做出良好的预测,但它无法拟合两者的凸组合的函数。

然而,我们仍然可以假设:当上下文中的示例接近在预训练中学习的函数类时,模型能够选择用于预测的最佳函数类。

在图 5 中,研究人员扫描了凸组合中线性函数和正弦波的相对权重。在这里,研究人员观察到,当组合函数主要来自一个函数类或另一个函数类时——即通过预训练期间学习的函数类很好地近似——上下文预测是合理的。

但是,当这两个函数对凸组合有显著贡献时,模型会做出不稳定的预测,而上下文示例并不能很好地证明其合理性。这表明模型的模型选择能力受到与预训练数据的接近程度的限制,并表明功能空间的广泛覆盖对于广义的上下文学习能力至关重要。

前面的凸组合是专门构造的,因此模型在预训练中从未见过类似的函数。

网友热议

面对文章的结论,Jim Fan给出了略带嘲讽的评价:

「本文相当于:尝试只在狗和猫的数据集上训练ViT。使用100B狗/猫图像和1T 参数!现在看看它是否能识别飞机——令人惊讶的是,它不能!」

但是有好事的网友把这个事情拿去问了下ChatGPT,它自己却回答说,自己可以超越训练数据输出新的内容。

而网友对于Transformer的这个局限还是很宽容的,毕竟,人类也不行。

AIGC的火热引起人们对于模型能力的广泛研究,对于我们无法完全了解的、却广泛应用于社会和生活中的「 人工智能 」,知道它的边界在哪里也很重要。

参考资料:

https://arxiv.org/abs/2311.00871

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奥运落选赛大冷!菲律宾战胜世界第6 中国男篮苦主准3双 出线在望

奥运落选赛大冷!菲律宾战胜世界第6 中国男篮苦主准3双 出线在望

环太平洋老正太
2024-07-04 18:05:39
江苏严查个人境外消费,金额大于申报收入的需补个税,已有市民收到短信

江苏严查个人境外消费,金额大于申报收入的需补个税,已有市民收到短信

爆角追踪
2024-07-04 18:54:50
俄罗斯推出新版和平方案,大幅度让步,缓兵之计还是真打不动了

俄罗斯推出新版和平方案,大幅度让步,缓兵之计还是真打不动了

史政先锋
2024-07-04 22:09:04
体制内,该裁员了

体制内,该裁员了

基本常识
2024-07-02 22:27:02
菲律宾绑架案凶手落网!丈夫被捕女人怀孕,和受害者视频照片曝光

菲律宾绑架案凶手落网!丈夫被捕女人怀孕,和受害者视频照片曝光

林大师热点
2024-07-04 20:42:28
朝鲜宣布出兵乌克兰

朝鲜宣布出兵乌克兰

华人星光
2024-07-03 17:13:09
湖南水灾像一面照妖镜,揭开了人性的丑陋,公信力丧失真的太可怕

湖南水灾像一面照妖镜,揭开了人性的丑陋,公信力丧失真的太可怕

娱乐小可爱蛙
2024-07-04 21:21:31
《野孩子》撤档与王俊凯无关,著名编剧公开其撤档的原因

《野孩子》撤档与王俊凯无关,著名编剧公开其撤档的原因

素素娱乐
2024-07-04 07:19:03
拆迁全面叫停?已明确:2024年起,20年以上的房子统统这样处理

拆迁全面叫停?已明确:2024年起,20年以上的房子统统这样处理

老赵说房指南
2024-07-04 19:23:31
蔡振华:我为乒乓球而生,成为优秀运动员、教练我都做到了,这一生我问心无愧

蔡振华:我为乒乓球而生,成为优秀运动员、教练我都做到了,这一生我问心无愧

鲁中晨报
2024-07-04 16:51:02
森林北和朋友聚餐,8岁女儿首露面,长相漂亮不输汪峰女儿!

森林北和朋友聚餐,8岁女儿首露面,长相漂亮不输汪峰女儿!

古希腊掌管月桂的神
2024-07-04 12:08:59
中金30岁孕妇跳楼,浙大气质女神,丈夫曝原因,网友表示无法共情

中金30岁孕妇跳楼,浙大气质女神,丈夫曝原因,网友表示无法共情

果娱
2024-07-04 16:27:32
网传将设金融从业人员年薪300万上限,适用所有国有券商、公募基金和银行

网传将设金融从业人员年薪300万上限,适用所有国有券商、公募基金和银行

互联网大观
2024-07-04 20:44:19
中金去世女员工朋友圈被扒,9天前还惦记公司未来,薪资降到3.5万

中金去世女员工朋友圈被扒,9天前还惦记公司未来,薪资降到3.5万

社会酱
2024-07-04 17:28:44
英国又要换首相了?新首相或是他:草根出身的律师,希望“周五不加班”的顾家男人

英国又要换首相了?新首相或是他:草根出身的律师,希望“周五不加班”的顾家男人

红星新闻
2024-07-04 18:46:15
男篮又创耻辱:单节只得6分+半场三分10中1 姚明观战一脸愁容抢镜

男篮又创耻辱:单节只得6分+半场三分10中1 姚明观战一脸愁容抢镜

厝边人侃体育
2024-07-04 18:22:44
魏新河的底裤被扒光了,谁蒙羞?

魏新河的底裤被扒光了,谁蒙羞?

李万卿
2024-07-04 18:07:03
普京:俄乌共享克里米亚

普京:俄乌共享克里米亚

西楼饮月
2024-07-04 18:56:35
“中金跳楼女员工”丈夫发声,30岁已孕,浙大毕业难敌财富缩水

“中金跳楼女员工”丈夫发声,30岁已孕,浙大毕业难敌财富缩水

辣媒专栏记录
2024-07-04 18:50:08
巴基斯坦弃婴被农民工带回河南,现在成大网红,自豪国籍

巴基斯坦弃婴被农民工带回河南,现在成大网红,自豪国籍

一度历史观
2024-07-04 13:38:38
2024-07-05 04:06:44
新智元
新智元
AI产业主平台领航智能+时代
11236文章数 65546关注度
往期回顾 全部

科技要闻

何小鹏第三次闯入险滩

头条要闻

国家体育总局原副局长蔡振华:这一生我问心无愧

头条要闻

国家体育总局原副局长蔡振华:这一生我问心无愧

体育要闻

我不用当体育老师了,我去踢欧洲杯了!

娱乐要闻

胡歌打败范伟,又一个内娱黑幕?

财经要闻

万科系互金平台爆雷?不少万科员工被坑

汽车要闻

限时优惠至高2.4万 新款卡罗拉售11.68万起

态度原创

艺术
游戏
家居
亲子
旅游

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

沙特电竞世界杯LOL:三射手阵容极致摇摆,T1 2-1淘汰BLG

家居要闻

艺术栖居 撞色不羁

亲子要闻

原本是今天放暑假的,又被临时通知要上多一天课的小可怜,网友 别哭了小朋友,老师比你还伤心

旅游要闻

香港到深圳 首辆开行纯电旅游巴士“安徽造”

无障碍浏览 进入关怀版