网易首页 > 网易号 > 正文 申请入驻

o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低

0
分享至

小交 发自 凹非寺
量子位 | 公众号 QbitAI

o1/o3带火的推理计算Scaling,原来谷歌早在今年8月就曾探讨过。



当时,来自斯坦福、牛津以及谷歌DeepMind的团队提出通过重复采样来扩展推理计算量——

结果在编码任务中将性能最多提高40%。

他们发现小模型通过生成多种答案/样本,其任务表现可能比一些大型模型单次尝试还要好。

比如,DeepSeek-Coder通过重复采集5个样本,性能优于GPT-4o,而成本却仅为后者的三分之一。

这篇论文讲了什么?

这篇论文取名Monkey,灵感来自于无限猴子定理。

一只猴子在打字机键盘上随机敲击键盘无限长的时间,几乎肯定会打出任何给定的文本。



而在大模型的语境下,只要采的样够多,那么大模型总能找到正确解。

本文遵循的重复采样程序,首先通过大模型中采样,为给定的问题生成许多候选解。

其次再选择特定领域的验证器Verifier(比如代码的unittests),从生成的样本中选择最终答案。

重复采样的有效性取决于两个关键特性。

  • 覆盖率,随着样本数量的增加,我们可以利用生成的任何样本解决多少问题。
  • 精确度,在从生成的样本集合中选择最终答案的情况下,我们能否识别出正确的样本?

他们关注的是yes or no的任务,在这些任务中,答案可以直接被打分为对或者错,主要指标是成功率——即能够解决问题的比例。

通过重复采样,考虑这样一种设置,即模型在尝试解决问题时可以生成许多候选解。

因此,成功率既受到为许多问题生成正确样本的能力(即覆盖率)的影响,也受到识别这些正确样本的能力(即精确度)的影响。

基于此,确定了五种数学和编程任务:GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite。

结果显示,在多个任务和模型中,覆盖率随样本数量增加而提升,在某些情况下,重复采样可使较弱模型超越单样本性能更好的强模型,且成本效益更高

比如在使用Gemma-2B解决CodeContests编程问题时。随着样本数量的增加,覆盖率提高了300倍以上,从一次尝试的0.02%提高到10000次尝试的7.1%。解决来自GSM8K和MATH的数学单词问题时,Llama-3模型的覆盖率在10,000个样本的情况下增长到95%以上。

有趣的是,log(覆盖率)与样本数之间的关系往往遵循近似的幂律。

在Llama-3和Gemma模型中,可以观察到覆盖率与样本数呈近似对数线性增长,超过几个数量级。



在不同参数量、不同模型以及后训练水平(基础模型和微调模型)下,都显示通过重复采样Scaling推理时间计算,覆盖率都有一致的提升。



此外,他们还证明了这种Scaling还能降本增效,以FLOPs作为成本指标,以LIama-3为例。

计算公式如下:



比较 Llama-3-8B-Instruct 和 Llama3-70B-Instruct 的成本(以推理 FLOPs 数量衡量)和覆盖率。当FLOPs预算固定时,在 MiniF2F、GSM8K和 MATH 上,Llama-3-8B-Instruct的覆盖率总是高于更大(更贵)的 70B 模型。然而,在 CodeContests 中,70B 模型几乎总是更具成本效益。



对比API成本,当采样较多时,开源 DeepSeek-Coder-V2-Instruct 模型可以达到与闭源模型GPT-4o相同的问题解决率,而价格仅为后者的三分之一。



有趣的是,他们发现对于大多数任务和模型,覆盖率与样本数之间的关系可以用指数幂律来模拟。



因此总结,这篇文章以重复采样为轴心,在推理时扩展计算量,从而提高模型性能。

在一系列模型和任务中,重复采样可以显著提高使用任何生成样本解决问题的比例(即覆盖率)。当可以识别出正确的解决方案时(通过自动验证工具或其他验证算法),重复采样可以在推理过程中放大模型的能力。

与使用较强、较昂贵的模型进行较少的尝试相比,这种放大作用可使较弱的模型与大量样本的组合更具性能和成本效益。

来自斯坦福牛津谷歌

这篇论文是来自斯坦福、牛津大学以及谷歌DeepMind团队。TogetherAI提供计算支持。

其中可以看到有谷歌杰出科学家Quoc V. Le。



有网友表示,这有点像更简单的静态版o3。



o3在评价器的指导下,通过回溯动态搜索程序空间,而这种方法则依赖于静态采样和事后评价(投票、奖励模型等)。两者都能扩展推理计算,但O3的适应性更强。
o3会反复探索解决方案,不断完善路径,而重复采样会并行生成输出,没有反馈回路。如何取舍?o3的计算密集度更高,但在需要结构化推理的任务中表现出色。这种方法在编码/数学方面更具成本效益。

不过也有网友指出了背后的局限性。



我们不能一味地增加采样数量来提高性能。在某些时候,模型会出现停滞,生成的样本也会开始重复。
无论成本如何,都有一个极限,一个模型无法超越的最大思维水平。

参考链接:
[1]https://arxiv.org/abs/2407.21787
[2]https://x.com/_philschmid/status/1870396154241843312
[3]https://x.com/rohanpaul_ai/status/1834446350810849510

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海金山区政府“一把手”调整

上海金山区政府“一把手”调整

鲁中晨报
2024-12-26 11:52:05
张一鸣太猛了,抖音电商拿下全国第一

张一鸣太猛了,抖音电商拿下全国第一

电商报APP
2024-12-24 09:28:28
全红婵哥哥回应蹭热度带货:可以说是蹭,妹妹知道也比较支持我

全红婵哥哥回应蹭热度带货:可以说是蹭,妹妹知道也比较支持我

直播吧
2024-12-24 19:18:10
无视穆斯林球迷批评,萨拉赫再次在社媒上庆祝圣诞节

无视穆斯林球迷批评,萨拉赫再次在社媒上庆祝圣诞节

懂球帝
2024-12-26 03:45:27
2-0!国足对手杀疯了:连赢2大亚洲冠军,提前1轮出线,成为首队

2-0!国足对手杀疯了:连赢2大亚洲冠军,提前1轮出线,成为首队

侃球熊弟
2024-12-26 04:14:09
人到70古来稀!70岁后,还能做到这3件事,说明身体还年轻

人到70古来稀!70岁后,还能做到这3件事,说明身体还年轻

华人星光
2024-12-24 14:51:38
大虾遇到面包糠,味道太赞了,很多广东人都爱吃这道菜,香酥脆嫩

大虾遇到面包糠,味道太赞了,很多广东人都爱吃这道菜,香酥脆嫩

猪猪之家
2024-12-25 11:30:03
《极盗车神》演员哈德森·米克车祸去世年仅16岁,曾抢救40个小时

《极盗车神》演员哈德森·米克车祸去世年仅16岁,曾抢救40个小时

开开森森
2024-12-26 09:56:18
梅西瓜帅再联手?曼城球迷恳求球王:请帮帮我们吧 哈兰德需要你

梅西瓜帅再联手?曼城球迷恳求球王:请帮帮我们吧 哈兰德需要你

风过乡
2024-12-26 07:25:47
马来西亚11月主流品牌及车型销量排行榜

马来西亚11月主流品牌及车型销量排行榜

后视镜里de未来
2024-12-25 10:46:26
詹姆斯31+10:创多项圣诞大战历史第一纪录 单核率湖人险胜太强

詹姆斯31+10:创多项圣诞大战历史第一纪录 单核率湖人险胜太强

醉卧浮生
2024-12-26 11:34:10
俄圣彼得堡发生大爆炸,巴沙尔恐怕会妻离子散,人财两空了

俄圣彼得堡发生大爆炸,巴沙尔恐怕会妻离子散,人财两空了

金召点评
2024-12-23 15:28:20
逆流,只会悲伤成河!人大教授:两道全国考研政治题会让余孽不爽

逆流,只会悲伤成河!人大教授:两道全国考研政治题会让余孽不爽

瑜说还休
2024-12-24 07:18:15
山姆要抢迪卡侬生意?

山姆要抢迪卡侬生意?

体育产业生态圈
2024-12-26 10:09:07
章子怡的红貂,没那么简单

章子怡的红貂,没那么简单

清唱
2024-12-24 19:41:42
直播时被网友提示不要谈论现役运动员,张继科:我想说啥说啥

直播时被网友提示不要谈论现役运动员,张继科:我想说啥说啥

懂球帝
2024-12-25 19:58:17
勇士老板彻底坐不住了!113-115被绝杀!这5人全部交易,一个不留

勇士老板彻底坐不住了!113-115被绝杀!这5人全部交易,一个不留

毒舌NBA
2024-12-26 11:34:53
2019 年上海,宋佳与彼时还未爆火的张颂文小聚

2019 年上海,宋佳与彼时还未爆火的张颂文小聚

视点历史
2024-11-24 19:17:24
揭开哈马斯操控下的加沙卫生部,死亡数据造假,欺骗全球舆论

揭开哈马斯操控下的加沙卫生部,死亡数据造假,欺骗全球舆论

百年潮
2024-12-24 21:00:35
84年楚青手捧粟裕骨灰,在南京军区被一人刁难,王必成破口大骂

84年楚青手捧粟裕骨灰,在南京军区被一人刁难,王必成破口大骂

星河逍遥游
2024-12-22 13:36:00
2024-12-26 13:27:04
量子位 incentive-icons
量子位
追踪人工智能动态
9821文章数 175802关注度
往期回顾 全部

科技要闻

小米正搭建GPU万卡集群,大力投入AI大模型

头条要闻

70后李汉卿履新 曾多次被中纪委点名抽调协助查办专案

头条要闻

70后李汉卿履新 曾多次被中纪委点名抽调协助查办专案

体育要闻

再见,中超最后的超级巨星

娱乐要闻

刀郎演唱会再次爆火,登顶top榜单,背后的原因耐人寻味

财经要闻

四大行股价创新高 40家银行仍“破净”

汽车要闻

新物种iCAR V23的“尤里卡时刻”

态度原创

本地
房产
家居
数码
公开课

本地新闻

好吃潮州|尝一口,这里的美食有点“潮”

房产要闻

重磅榜单出炉!2025,海口楼市格局又将大变!

家居要闻

现代简约 提升温馨质感

数码要闻

开源CRT模拟着色器发布:在现代显示器上重现经典CRT显示效果

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版