网易首页 > 网易号 > 正文 申请入驻

Scaling Law“暴力美学”真的失效了吗?

0
分享至

文|适道

近期,围绕Scaling Law的讨论不绝于耳。

起因是,The information在一篇文章指出,OpenAI下一代旗舰模型Orion(或称GPT-5)相较于现有模型,能力提升"有限"(代码能力甚至不如现有模型),远不如GPT-3到GPT-4的跃升,而且Orion在数据中心的运行成本更高。为此,OpenAI不得不连夜转变策略。

如果其所言非虚,就不会只有OpenAI一家被困扰。

果不其然,Google也"出事"了。其下一代Gemini模型原本应该是一次重大升级,但有员工透露:近期在大幅增加资源投入后,模型性能未达到领导层预期,团队连夜调整策略。

与此同时,Anthropic被曝已暂停推进Opus 3.5的工作,官网还撤下了"即将推出"字样。

"三巨头"接连碰壁,让人联想到:Scaling Law可能失效了?

Scaling Law,即尺度定律,称得上AI行业的大模型第一性原理。

2020年,OpenAI在论文Scaling Laws for Neural Language Models提出该定律。其核心的观点是,影响大模型性能的三大要素:计算量、数据集大小、模型参数量。当不受其他两个因素制约时,模型性能与每个单独的因素都存在幂律关系。

只要Scaling Law成立,意味着"更大更好""大力出奇迹的暴力美学"——大模型的能力可以通过堆更多的算力、搞更多的参数,喂更多的数据得到大幅提升。

如今,当模型规模和成本大幅增加,但实际性能却提升"有限"时,Scaling Law神话是否会被终结?

正方:Scaling Law神话终结

Ilya Sutskever:扩展训练的结果,已经趋于平稳。

作为Scaling Law的早期倡导者之一,前OpenAI首席科学家Ilya Sutskever表示,扩展训练的结果,已经趋于平稳。即,传统的无监督Pre-training已达极限。

他说,2010年代是 Scaling的时代,现在我们再次回到发现奇迹的时代。每个人都在寻找下一个奇迹。现在重要的是扩大"正确"的规模。

何谓"正确"?Ilya表示,SSI正在研究一种全新的替代方法,来扩展预训练。

虽然他没有透露新方法是什么,但根据OpenAI和Google的尝试,或许可以窥探一二。

OpenAI的研究人员开发推理模型(reasoning models)等新技术,用于弥补传统训练方法的局限性。

Google也效仿这一思路。近几周,DeepMind在Gemini团队内组建了一个由首席研究科学家Jack Rae和前Character.AI联创Noam Shazeer领导的小组,专注于开发类似能力。

此外,DeepMind团队还在手动优化模型性能,包括调整超参数(hyperparameters)等变量。这些超参数决定了模型处理信息的方式,例如,迅速在训练数据中建立概念或模式之间的联系。研究人员通过"模型调优"测试不同的超参数,以确定哪些变量将带来最佳效果。

Arvind Narayanan & Sayash Kapoor:合成数据作用不大

今年6月,普林斯顿大学计算机科学教授Arvind Narayanan与其博士生Sayash Kapoor发表了一篇文章AI scaling myths。文章指出,Scaling"崇拜论"是建立在一系列误解之上。

第一,什么是"更好的"模型?具有"涌现能力"的模型。

Scaling仅仅将困惑度(perplexity)下降进行了量化,即模型能够预测下一个单词。然而,对最终的用户而言,困惑度几乎毫无意义——真正重要的是模型规模增长时,模型呈现出的"涌现能力",即模型随着大小增加而获得新能力的趋势。

问题在于,"涌现能力"不受任何类似定律的支配。

为什么"涌现能力"不能无限持续?这一问题直指关于LLM能力的核心争议:LLM究竟能否进行外推,还是只会学习训练数据中已有的任务?现有证据尚不完整,不同研究者各执一词。但Arvind Narayanan团队倾向于怀疑态度。在一些专门测试LLM解决新任务能力的基准测试中,其表现往往较差。

如果LLM无法超越训练数据中的内容,就会进入每一个传统的机器学习模型最终都会进入的平台期。

第二,更多的数据从哪里来?

有人认为,新的数据源(例如将YouTube转录为文本)可以增加一两个数量级的可用数据量。确实,YouTube包含约1500亿分钟的视频内容。然而,考虑到其中大部分视频缺乏可用的音频(例如音乐、静止图像或游戏画面),经过去重、质量过滤后,实际可用的训练数据远少于Llama 3所使用的15万亿tokens。

退一步说,关于"数据耗尽"的讨论并不合理。训练数据永远有,只是成本越来越高,比如版权、监管等等。

对于LLM而言,我们可能还有几个数量级的扩展空间,也可能扩展已经结束了。如今,研究的重点已从构建更大数据集,转向提高训练数据的质量。通过精心的数据清理和过滤,可以用更小的数据集构建出同样强大的模型。

第三,合成数据不是万能魔药。

还有一个观点,利用现有模型生成训练数据。

这个观点同样存在误区——开发者并未(也无法)利用合成数据显著增加训练数据的总量。

一篇论文详细列出了合成数据在训练中的用途——主要集中在弥补特定领域的不足,例如数学、编程、低资源语言的优化。同样,英伟达最近推出的Nemotron 340B模型,专注于生成合成数据,是将对齐作为其主要用途。虽然它也有一些其他用途,但取代现有预训练数据源并不在其中。

换句话说,盲目靠生成大量合成数据,无法达到高质量人类数据所具备的效果。

尽管如此,合成训练数据在某些场景中取得了巨大成功,例如2016年AlphaGo 击败围棋世界冠军,以及其后续版本 AlphaGo Zero 和 AlphaZero 的表现。这些系统通过自我对弈学习,后两者甚至能自己生成高质量棋局。

自我对弈是"系统2-->系统1蒸馏"的经典案例,即通过一个缓慢且昂贵的"系统 2"生成训练数据,用于训练快速且廉价的"系统 1"模型。

这种方法在围棋这样完全封闭的环境中表现出色,将其推广到游戏之外的领域仍然是一个有价值的研究方向。在某些重要领域(如代码生成)中,这一策略或许可以发挥作用。然而,我们不能指望在更开放的任务(如语言翻译)上实现类似的无限自我改进。可以预见,通过自我对弈实现大幅提升的领域将是特例,而非普遍规律。

反方:Scaling Law没有墙

OpenAI CEO Sam Altman:there is no wall

前方The information扰乱军心,后方Sam Altman在X平台上发言——there is no wall。

近期,他在Reddit的Ask Me Anything上也表示,OpenAI将在今年晚些时候发布"非常好的版本"。

只不过,鉴于"草莓"炒作的影响、Ilya Sutskever的威望,以及OpenAI的当前表现,Altman的话难免有"挽尊"之嫌。

微软AI主管Mustafa Suleyman:不会有任何放缓

Suleyman在近期采访中表示:模型的规模既在变大,也在变小,这种趋势会持续下去。去年开始流行一种新方法,称为蒸馏。这类方法利用大型、高成本模型来训练小型模型。这种监督效果相当不错,目前已有充分的证据支持这一点。因此,规模仍然是这场竞争中的关键因素,未来还有很大的发展空间,数据量也将持续增长。至少在接下来的两三年内,Scaling Law在提供超预期表现方面的进度不会有任何放缓。

微软CEO Satya Nadella:是定律,并且一直有效

今年10月21日,在微软AI之旅伦敦站活动上,Satya Nadella在演讲中表示:Scaling Law是经验观察所得,但它被我们称作定律,并且一直有效。

微软CTO Kevin Scott:让其他人想去吧

今年7月,微软首席技术官Kevin Scott在接受红杉资本合伙人采访时表示:尽管其他人可能这样想,但是我们在规模化上并没有遇到边际收益递减的情况。

前谷歌CEO Eric Schmidt:没有证据显示

11月14日,前谷歌CEO Eric Schmidt在播客中表示:没有证据表明Scaling Law已经开始停止。他预测在未来五年,人工智能系统的能力将是现在的100倍,能够在物理和数学领域进行推理。

Abacus.AI CEO Bindu Reddy:是技术太成熟了

Bindu Reddy表示,所谓的AI减速实际上无关紧要。主要原因在于AI技术发展的潜力已经几乎在各类基准测试中得以体现。当达到100/100的高分时,就很难再找到新的突破方向。因此,AI 市场的"放缓"更多地反映了技术成熟度,而非创新能力的不足。(你信吗?)

Scaling Law 2.0:token越多,精度也要越高

无论各位如何"挽尊",都掩盖不了大模型"减速"的事实——感受不到当初的惊艳。

或许,还有其他办法。

近期,来自哈佛大学、斯坦福大学、麻省理工等机构的合作团队发表了一篇题为Scaling Laws of Precision的论文,引发疯狂讨论。

研究提出:精度在模型扩展规律中比之前认为的更加重要,可以显著影响语言模型的性能。在以往描述模型性能随参数量和训练数据量变化的扩展规律,基本忽略了精度这一因素。随着模型规模的不断扩大,低精度的量化或将不再有效。

首先,通过实验,研究人员制订了新的精度缩放定律。另一项重要发现则提出了预训练期间计算的最优精度。根据该研究,当同时优化参数数量、数据和精度时,这一精度通常与计算预算无关。

其次,普遍采用的16位模型训练法并非最优,因为很多位是多余的。然而,使用4位进行训练则需要不成比例地增加模型大小,以维持损失缩放。研究人员的计算表明,对于较大的模型而言,7-8位是计算最优的。

当模型大小从一开始就固定时,情况就会发生变化:更大且更好的模型应以更高的精度进行训练——例如,使用16位的Llama 3.1 8B模型。实际的计算节省还取决于硬件对更低精度的支持。此外,这里研究的模型(参数最多达17亿个)尚未在最大的实际规模上进行测试。不过,这些一般趋势仍然适用于更大的模型。

CMU教授 Tim Dettmers表示,这是长久以来最重要的一篇论文。他认为,人工智能的大部分进步都来自计算能力的提升,而(最近)这主要依赖于低精度路线的加速(32- > 16 - > 8位)。现在看来,这一趋势即将结束。再加上摩尔定律的物理限制,大模型的大规模扩展可以说要到头了。他预计,随着低精度带来的效率提升达到极限,将出现从纯规模扩张向专用模型和人本应用的转变。

AGI路漫漫。不过,大家无需灰心。

退一万步,正如OpenAI研究人员Steven Heidel 所言,就算现在LLM 停滞了,在当今模型的基础上,还有至少十年的产品等着你去开发。

是不是又干劲十足了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女顾客投诉男人光膀子健身,老板直接禁止女性进入,评论区已吵翻

女顾客投诉男人光膀子健身,老板直接禁止女性进入,评论区已吵翻

谭谈社会
2026-05-24 17:53:33
只差临门一脚!美伊协议曝光,以色列被踢出局

只差临门一脚!美伊协议曝光,以色列被踢出局

上游新闻
2026-05-24 22:12:11
贝席泪别曼城!瓜迪奥拉哭了,队友对手列队欢送,全场起立鼓掌

贝席泪别曼城!瓜迪奥拉哭了,队友对手列队欢送,全场起立鼓掌

奥拜尔
2026-05-25 00:27:10
李小孩的“小绿瓶”,看起来很平凡,为啥禁止出境展览?

李小孩的“小绿瓶”,看起来很平凡,为啥禁止出境展览?

收藏大视界
2026-05-24 17:41:29
凌晨1点,湖北一派出所所长,带人徒手扒小麦……

凌晨1点,湖北一派出所所长,带人徒手扒小麦……

环球网资讯
2026-05-25 07:34:39
“再不认罪命就没了”,5次审讯打断一条胳膊,报案人是杀人凶手

“再不认罪命就没了”,5次审讯打断一条胳膊,报案人是杀人凶手

易玄
2026-05-23 11:39:45
一个时代渐落幕!詹姆斯无缘连续22年入选最佳阵容 出勤率差5场

一个时代渐落幕!詹姆斯无缘连续22年入选最佳阵容 出勤率差5场

醉卧浮生
2026-05-25 07:00:14
每瓶仅含0.01克,喝几千瓶才抵一个桃!“饮料一哥”也翻车了?杭州多家超市在售,你可能也喝过

每瓶仅含0.01克,喝几千瓶才抵一个桃!“饮料一哥”也翻车了?杭州多家超市在售,你可能也喝过

都市快报橙柿互动
2026-05-24 20:48:16
创造历史,阿森纳成为英超历史上首支整个赛季0红0送点的球队

创造历史,阿森纳成为英超历史上首支整个赛季0红0送点的球队

懂球帝
2026-05-25 01:16:26
比院士、杰青造假更恐怖的真相:团队里没有任何一个实干的人

比院士、杰青造假更恐怖的真相:团队里没有任何一个实干的人

天天热点见闻
2026-05-23 08:26:34
骑马造势的车企原董事长落马了

骑马造势的车企原董事长落马了

中国新闻周刊
2026-05-24 23:46:09
“男性相亲避雷表”横空出世!网友:百发百中,基本没有猜错的

“男性相亲避雷表”横空出世!网友:百发百中,基本没有猜错的

火山詩话
2026-05-25 06:33:21
政治不碰、社会不议,就连企业也不让评,当下自媒体到底还能写点啥?

政治不碰、社会不议,就连企业也不让评,当下自媒体到底还能写点啥?

稿得轻松
2026-05-24 08:52:07
山西矿难遇难者家属讲述:父亲年过半百,我们心疼他,一直劝他别干了,他总说再干两年,多攒攒钱

山西矿难遇难者家属讲述:父亲年过半百,我们心疼他,一直劝他别干了,他总说再干两年,多攒攒钱

大风新闻
2026-05-24 16:51:03
匪夷所思!53岁袁立手术后,居然发文将康复归功于“天父庇佑”

匪夷所思!53岁袁立手术后,居然发文将康复归功于“天父庇佑”

火山詩话
2026-05-25 08:02:19
周冬雨“拔萝卜”的瓜!

周冬雨“拔萝卜”的瓜!

八卦疯叔
2026-05-23 11:01:00
活久见!因女生投诉男子光膀健身不雅,浙江一健身房禁止女性入店

活久见!因女生投诉男子光膀健身不雅,浙江一健身房禁止女性入店

火山詩话
2026-05-24 12:20:45
首个“台独”政党宣示考虑成为中华人民共和国一部分,提了个条件

首个“台独”政党宣示考虑成为中华人民共和国一部分,提了个条件

深挖全球热点
2026-05-25 03:37:35
只要我够慢,规则就追不上!张雪机车这波“阳谋”把赛会整不会了

只要我够慢,规则就追不上!张雪机车这波“阳谋”把赛会整不会了

长江浊酒客
2026-05-24 18:15:03
90后女教师穿JK上课露底裤,被偷拍后成网红,怒怼家长:穿衣自由

90后女教师穿JK上课露底裤,被偷拍后成网红,怒怼家长:穿衣自由

蝴蝶花雨话教育
2026-05-25 00:05:18
2026-05-25 09:40:49
蓝鲸新闻 incentive-icons
蓝鲸新闻
财经信息服务平台
132991文章数 193899关注度
往期回顾 全部

科技要闻

神舟二十三号航天员乘组顺利进驻“天宫”

头条要闻

骑马造势的车企原董事长落马 2个月前曾公开出席活动

头条要闻

骑马造势的车企原董事长落马 2个月前曾公开出席活动

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

退市!33年“A股不死鸟”落幕

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

时尚
旅游
亲子
健康
军事航空

伊姐周日热推:电视剧《盛唐奇案》;电视剧《我的王室死对头》......

旅游要闻

潍坊昌邑:金色花海已上线

亲子要闻

小叔子比老公小28岁,整天就知道粘着我

外泌体 ≠ 生长因子!它们之间究竟有何区别?

军事要闻

俄军出动“榛树”导弹袭击乌克兰

无障碍浏览 进入关怀版