网易首页 > 网易号 > 正文 申请入驻

Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya

0
分享至

白小交 发自 凹非寺
量子位 | 公众号 QbitAI

什么?Scaling Law最早是百度2017年提的?!

Meta研究员翻出经典论文:

大多数人可能不知道,Scaling law原始研究来自2017年的百度,而非三年后(2020年)的OpenAI。

此研究由吴恩达主持,来自百度硅谷人工智能实验室 (SVAIL) 系统团队。

他们探讨了深度学习中训练集大小、计算规模和模型精度之间的关系,并且通过大规模实证研究揭示了深度学习泛化误差和模型大小的缩放规律,还在图像和音频上进行了测试。

只不过他们使用的是 LSTM,而不是Transformer;也没有将他们的发现命名为「Law」

再回头看,其中一位作者Gregory Diamos给自己当年在百度的介绍还是LLM Scaling Law Researcher

又有一网友发现,OpenAI论文还引用了2019年这位作者Gregory Diamos等人的调查。但却不知道他们2017年就有了这么一项工作。

网友们纷纷表示这篇论文非常值得一读,而且完全被低估。

来赶紧看看这篇论文。

深度学习Scaling是可预测的

在深度学习领域,随着模型架构的不断探索、训练数据集的不断增大以及计算能力的不断提升,模型的性能也在不断提高。

然而,对于训练集大小、计算规模和模型精度之间的具体关系,一直缺乏深入的理解。

本文通过大规模的实证研究,对多个机器学习领域(如机器翻译、语言建模、图像分类和语音识别)进行了测试,发现了一些规律:

泛化误差(模型在新数据上的表现误差)与训练集大小呈现幂律关系,即随着训练集的增大,泛化误差会以一定的幂次下降。

模型大小与与数据大小也存在Scaling(缩放)关系,通常模型大小的增长速度比数据大小的增长速度慢。

具体来说,结合以往工作,团队将注意力集中在准确估计学习曲线和模型大小的缩放趋势上。

按照一般测量方法,是选择最先进的SOTA模型,并在训练集的更大子集(碎片)上训练这些模型的 “超参数缩减 ”版本,以观察模型的准确性如何随着训练集的大小而增长。

因此针对这四个领域,机器翻译、语言建模、图像分类和语音识别,找到了他们在大型数据集上显示出 SOTA 泛化误差的模型架构。

这里的 “大型数据集 ”是指规模可以缩小 2-3 个数量级,但仍足以进行有价值的模型架构研究的训练集。他们为某些 ML 领域选择了一种以上的模型架构,以比较它们的扩展行为。

机器翻译

团队注意到,随着训练集规模的增大,优化变得更加困难,而且模型会出现容量不足的情况,因此经验误差会偏离幂律趋势。

词语言模型

这一结果表明,最佳拟合模型随训练分片大小呈次线性增长。

字符级语言模型

为了测试字符级语言建模,他们训练了深度为 10 的循环高速公路网络(RHN),结果发现该网络在十亿单词数据集上能达到最先进的(SOTA)准确率。

图像分类

图像分类同样呈现出幂律学习曲线和模型大小的缩放关系。并且还表明,在非常小的训练集上,准确率会在接近随机猜测的水平上趋于平稳。

语音识别

团队训练了一系列跨度较大的模型尺寸,所以针对每个训练数据大小得出的模型尺寸缩放结果,其意义不像在语言模型(LMs)或图像分类中那么明显。

随着数据量的增加,大多数模型会经历幂律泛化改进,直至数据量接近其有效容量。在这种情况下,参数为 170 万的模型的准确率在大约 170 小时的音频数据时开始趋于平稳,而参数为 600 万的模型在大约 860 小时的音频数据时趋于平稳(也就是说,大约是前者的 5 倍,这与模型尺寸的差异情况类似)。更大的模型(例如,参数为 8700 万的模型)在更大的数据集规模下,其泛化误差也更接近最佳拟合趋势。

最后对于这一发现,他们表示,这些比例关系对深度学习的研究、实践和系统都有重要影响。它们可以帮助模型调试、设定准确度目标和数据集增长决策,还可以指导计算系统设计,并强调持续计算扩展的重要性。

博客致谢中还有Ilya的名字

此次研究主要是由当年吴恩达主持下,百度硅谷人工智能实验室 (SVAIL) 系统团队。

当时的一群合著者们已经各自去到各个机构实验室、大厂继续从事大模型相关的研究。


在当年博客致谢中,还出现了Ilya的名字,感谢他们参与了这一讨论。

两年后,也就是2019年,其中一位作者Gregory Diamos又带领团队探讨了深度学习的计算挑战。

后面的OpenAI论文正是引用了这篇论文的调查讨论了Scaling Law。

值得一提的是,Anthropic CEODario Amodei在百度研究院吴恩达团队工作过,他对Scaling Law的第一印象也是那时研究语音模型产生的。

Amodei刚开始研究语音神经网络时有一种“新手撞大运”的感觉,尝试把模型和数据规模同时扩大,发现模型性能随着规模的增加而不断提升。

最初,他以为这只是语音识别系统的特例。但到了2017年,看到GPT-1的结果后意识到这种现象在语言模型上同样适用。

当年(2015年)他一作发表的论文Deep Speech,合著者中这位Sharan Narang正是两年后这篇论文的主要作者之一。如今后者先后去到了谷歌担任PaLM项目TL大模型负责人,然后现在是Meta当研究员。


如今这一“冷知识”再次出现在大家的视野,让不少人回溯并重温。

这当中还有人进一步表示:真正的OG论文使用了seq2seq LSTM,并且确定了参数计算曲线。

当年的一作正是Ilya Sutskever。

参考链接:
[1]https://arxiv.org/abs/1512.02595[2]https://arxiv.org/abs/1909.01736
[3]https://research.baidu.com/Blog/index-view?id=89
[4]https://www.linkedin.com/in/gregory-diamos-1a8b9083/[5]https://www.linkedin.com/in/dario-amodei-3934934/
[6]https://x.com/jxmnop/status/1861473014673797411?s=46&t=iTysI4vQLQqCNJjSmBODPw

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女人的生理性喜欢,一生只有两次:一次懵懂,一次余生

女人的生理性喜欢,一生只有两次:一次懵懂,一次余生

青苹果sht
2026-03-04 06:23:30
连夜逃离北京前,美团把最“毒”的树罩上了

连夜逃离北京前,美团把最“毒”的树罩上了

设计癖
2026-03-28 22:20:06
网传湖北一女子身后夹纸条提醒抽烟者,因用词不当引网友热议

网传湖北一女子身后夹纸条提醒抽烟者,因用词不当引网友热议

丫头舫
2026-03-28 21:48:57
上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

静若梨花
2026-03-01 16:25:46
美军集结地遭袭击伤亡惨重!美媒:美国军力遭受二战后最严重削弱

美军集结地遭袭击伤亡惨重!美媒:美国军力遭受二战后最严重削弱

花颜蕴韵
2026-03-29 10:37:14
公开批评或抵制J.K. 罗琳的明星名单

公开批评或抵制J.K. 罗琳的明星名单

下水道男孩
2026-03-28 23:25:19
“老虎”伍兹被捕,违法总是要付出代价的,不分国别!

“老虎”伍兹被捕,违法总是要付出代价的,不分国别!

阿废冷眼观察所
2026-03-29 03:51:22
毛主席提议落选的国旗,网友感叹:寓意很伟大,但确实不合适

毛主席提议落选的国旗,网友感叹:寓意很伟大,但确实不合适

微史纪
2026-03-28 12:49:01
蔡正元进牢了,菜单被扒得比判决书还细,这事真就这么耐人寻味

蔡正元进牢了,菜单被扒得比判决书还细,这事真就这么耐人寻味

观星赏月
2026-03-29 14:24:35
无论本赛季火箭到底能够走多远,下赛季务必要完成这三大改变!

无论本赛季火箭到底能够走多远,下赛季务必要完成这三大改变!

田先生篮球
2026-03-28 11:08:07
1-0,58岁塞尔维亚籍主帅发威:率中国男足掀翻大洋洲劲旅

1-0,58岁塞尔维亚籍主帅发威:率中国男足掀翻大洋洲劲旅

侧身凌空斩
2026-03-28 16:54:31
张水华与“冠军车”合影,接受采访尽显高情商,宠粉狂人超接地气

张水华与“冠军车”合影,接受采访尽显高情商,宠粉狂人超接地气

杨华评论
2026-03-29 12:51:29
深夜,账号“活”过来了?上海女子睡梦中账号自动发评论,平台回应:你误触了

深夜,账号“活”过来了?上海女子睡梦中账号自动发评论,平台回应:你误触了

上观新闻
2026-03-29 14:16:12
拔萝卜带泥!逃往美国的恒大“二把手”,邻居却是另一名潜逃富豪

拔萝卜带泥!逃往美国的恒大“二把手”,邻居却是另一名潜逃富豪

二大爷观世界
2026-03-14 18:43:53
4月1日起全国执行!电动车摩托车3必带3不带,违规最高可罚1万!

4月1日起全国执行!电动车摩托车3必带3不带,违规最高可罚1万!

老特有话说
2026-03-29 13:48:14
19岁男子KTV上班,三名女孩来喝酒,男子下体过度使用成永久创伤

19岁男子KTV上班,三名女孩来喝酒,男子下体过度使用成永久创伤

丫头舫
2025-09-22 20:39:00
全球最幸福国家排名出炉,美国只能排23位,第1名再被同一国拿下

全球最幸福国家排名出炉,美国只能排23位,第1名再被同一国拿下

安珈使者啊
2026-03-29 10:07:32
对手:我希望梅西带阿根廷卫冕世界杯!然后再退役!

对手:我希望梅西带阿根廷卫冕世界杯!然后再退役!

历史第一人梅西
2026-03-29 15:24:58
细思极恐!张雪峰8个月前悄悄和母校告别,幼儿园到中学都走一遍

细思极恐!张雪峰8个月前悄悄和母校告别,幼儿园到中学都走一遍

火山詩话
2026-03-28 06:05:06
人怕出名猪怕壮!2026春晚才过三个多月,撒贝宁迎来杨帆相同遭遇

人怕出名猪怕壮!2026春晚才过三个多月,撒贝宁迎来杨帆相同遭遇

荣亭小吏
2026-03-27 22:13:26
2026-03-29 16:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12362文章数 176427关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

中国警告美国:勿将"冲突战乱"引入亚太地区

头条要闻

中国警告美国:勿将"冲突战乱"引入亚太地区

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

艺术
游戏
数码
时尚
本地

艺术要闻

2025江南如画——中国油画作品展 | 入选作品选刊(二)

微软或将推出XGP新订阅档位 专注于Xbox第一方游戏

数码要闻

OPPO Pad mini打造小屏旗舰巅峰!搭载 8.8 英寸 2.8K 高刷屏+骁龙 8 Gen5

伊姐周六热推:电视剧《家事法庭》;电视剧《白日提灯》......

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

无障碍浏览 进入关怀版