网易首页 > 网易号 > 正文 申请入驻

在对AI“审美疲劳”中,奇点悄悄来了......

0
分享至

自生成式AI爆火已有两年,而近期进展似乎不尽人意,大模型鲜有突破性创新,应用层面也未出现杀手级应用,资本市场对“泡沫论”和估值过高争议不断......人们仿佛对AI已经“祛魅”,AI发展真的变慢了吗?

在质疑和期待声中,周五“AI领头羊”OpenAI发布了一个名为MLE-bench的基准测试,专门用来测试AI Agent的机器学习工程能力,建立起一个衡量大模型机器学习能力的行业标准。

而这一标准的建立正是在o1亮相之后,上月OpenAI甩出一记重大更新,推理能力超越人类博士水平的o1系列模型面世,实现大模型在推理能力上的一次飞跃。

测试结果显示,在MLE-bench的基准测试下,o1-preview在16.9%的竞赛中获得了奖牌,几乎是第二名(GPT-4o,8.7%)的两倍,是Meta Llama3.1 405b的5倍,也是claude 3.5的2倍。


值得一提的是,o1模型除了推理能力跃升,最关键突破是开启新Scaling Law,同时形成所谓的“数据飞轮”,拥有可以进行“自我进化”的能力。

英伟达CEO黄仁勋此前表示,AI正在设计下一代AI,进展速度达到了摩尔定律的平方。这意味着在接下来的一到两年内,将会看到惊人的、意想不到的进步。OpenAI创始人Altman直言AI新范式进步曲线变得更陡峭,拥有进化能力后可能更快速地实现向下一级的跃迁。

“自我进化”能力预示着AI发展“奇点”正加速到来,正如有分析指出,OpenAI现在对奇点的理解不仅仅是一种理论,而是作为一个非常真实的、可能成为现实的现象,尤其是通过AI智能体(Agents)来实现。

针对“AI发展是否真的变慢了”这一问题,从以上行业最新进展和科技大佬观点来看,市场反而低估了AI发展斜率。

自我进化,迈向奇点

OpenAI在最新的论文中指出:

如果人工智能智能体能够自主进行机器学习研究,它们可能会带来许多积极的影响,例如加速医疗保健、气候科学等领域的科学进步,加速模型的安全和对齐研究,并通过开发新产品促进经济增长。智能体进行高质量研究的能力可能标志着经济中的一个转折。

对此,有分析理解称:

OpenAI现在不再将奇点理论仅仅视为一种理论,而是作为一个非常真实的、可能成为现实的现象,尤其是通过智能体(agents)来实现。

此外,OpenAI对o1的命名也体现了这一点,OpenAI将计数器重置为1,标志着开启一段AI新纪元。而o1的最大突破不仅在于推理能力的提升,更在于拥有“自我学习”的能力,此外开启新的Scaling Law。

最关键的突破是,o1拥有“自我进化”的能力,向通往AGI的路上迈出一大步。

前文提及o1在推理过程中会生成中间步骤,而中间步骤包含大量高质量的训练数据,这些数据可以被反复利用进一步提升模型性能,形成不断“自我强化”的良性循环。

正如人类的科学发展进程,通过提取已有的知识,挖掘出新的知识,从而不断地产生新的知识。

英伟达高级科学家Jim Fan称赞称,o1未来发展会像飞轮快速运转起来,就像AlphaGo自我博弈以提升棋艺:

Strawberry很容易形成“数据飞轮”,如果答案是正确的,整个搜索轨迹就成为一个小型的训练样本数据集,其中包含正面和负面的反馈。
这反过来会改进未来版本GPT的推理核心,就像AlphaGo的价值网络——用来评估每个棋盘位置的质量,随着MCTS(蒙特卡洛树搜索)生成越来越精细的训练数据而改进一样。


o1模型还代表了大模型领域新范式的突破——开启推理阶段新Scaling Law。

AI领域的Scaling Law(缩放定律)规则,一般是指随着参数量、数据量和算力的增加,大模型的性能能够不断提高。然而,毕竟数据是有限的,AI出现越训练越傻的迹象,Pre-Training(预训练)带来的scaling up边际收益开始递减。

o1在很大程度上突破这一瓶颈,通过post training(后训练)的方式,增加推理过程和思考时间,同样明显提升了模型性能。

相对于传统的预训练阶段scaling Law,o1开启推理阶段新Scaling Law,即模型推理时间越长,推理效果会更好。随着o1开启大模型领域范式创新,会引领AI领域研究重点的转向,行业从“卷参数”迈入“卷推理时间”的阶段,MLE-bench的基准测试正体现了这一衡量标准的转变。

随着大模型推理性能飞跃,芯片算力能力也将相应地升级,黄仁勋在9月的T-Mobile大会上,直接预告算力提速50倍,把o1模型的响应时间从几分钟缩短到几秒:

最近,Sam提出了一个观点,这些AI的推理能力将变得更加聪明,但这需要更多的算力。目前,在ChatGPT中的每个提示都是一个路径,未来将在内部有数百个路径。它将进行推理,进行强化学习,试图为你创造更好的答案。
这就是为什么在我们的Blackwell架构将推理性能提高了50倍。通过将推理性能提高50倍,那个现在可能需要几分钟来回答特定提示的推理模型,可以在几秒钟内回应。因此这将是一个全新的世界,我对此感到兴奋。

加速式地向前发展意味着“奇点正在到来”,正如Altman在此前发布了一篇长文中称,未来在医疗领域,超级智能可以帮助医生更准确地诊断疾病,制定个性化的治疗方案;在交通领域,可以优化交通流量减少拥堵和事故的发生;在教育领域,为每一位孩子配备AI学习伙伴,让教育资源公平化。

市场可能低估了AI发展斜率

对于市场对AI的担忧,业内大佬反驳称,AI叙事节奏正在加速推进。

在Salesforce举办的一场活动上,黄仁勋表示:

科技走入正反馈循环,AI正在设计下一代AI,进展速度达到了摩尔定律的平方。这意味着在接下来的一到两年内,我们将会看到惊人的、意想不到的进步。

在上月的T-Mobile大会上,Altman直言AI新范式进步曲线变得更陡峭,将更快速地实现向下一级的跃迁;

新范式时刻曲线时间上变得更陡峭,模型无法解决的问题几个月后就能解决;我认为现在的新推理模型类似于我们在GPT-2时期,你会在未来几年内看到它发展到与GPT-4 相当的水平。在接下来的几个月内,你也会看到显著的进步,我们降从o1-preview升级到o1正式版。o1交互方式也将发生变化,不再只是聊天。

从OpenAI五级AGI路线图来看,我们正处于AGI level 2,Altman表示从L1到L2花了一段时间,但我认为L2最令人兴奋的事情之一是它能够相对快速地实现L3,预计这种技术最终将带来的智能体将非常强大。

L1:聊天机器人(ChatBot),具有对话能力的AI;
L2:我们刚刚达到的推理者(Reasoner),像人类一样能够解决问题的AI;
L3:智能体(Agent),不仅能思考,还可以采取行动的AI系统;
L4:创新(Innovator),能够协助发明创造的AI;
L5:组织者(Organization),可以完成组织工作的AI;

微软CTO斯科特在高盛大会上提到,AI革命比互联网革命更快:

我不认为我们正在经历收益递减,我们正在取得进步,人工智能的崛起仍处于早期阶段。我鼓励人们不要被炒作冲昏头脑,但人工智能正在变得越来越强大。我们所有在最前沿工作的人都可以看到,还有很多力量和能力未被释放。
虽然人工智能革命和互联网,以及智能手机的出现等以前的技术突破有相似之处,但这一次不同,至少在建设方面,所有这一切可能比我们在以前的革命中看到的发生得更快。

o1模型“自我进化”的原理是什么?

具体来看,o1模型之所以表现如此惊艳,背后在于AI学会通过强化学习(RL)利用思维链(CoT)技术来处理问题。

所谓的思维链技术是指模仿人类思考过程,相比之前大模型的快速响应,o1模型在回答问题前会花时间进行深度思考,内部生成一个很长的思维链,逐步推理并完善每个步骤。


有分析将其类比为《思考,快与慢》里的系统二:

系统一:无意识地快思考,依赖于直觉和经验,快速做出反应,例如刷牙、洗脸等动作。
系统二:深思熟虑,带有逻辑性地慢思考,例如解决数学题或计划长期目标等复杂的问题。

o1模型像是系统二,在回答问题前会进行推理,生成一系列思维链,而之前的大模型更像是系统一。

通过思维链式地拆解问题,在解答复杂问题过程中,模型可以不断验证、纠错,尝试新策略,从而显著提升模型的推理能力。

o1模型另一个核心特征是强化学习,可以进行自主探索、连续决策。正是通过强化学习训练,大模型学会完善自己的思考过程,生成思维链。


强化学习在大模型中的应用,是指智能体学习在环境中采取行动,并根据行动结果获得反馈(试错和奖励机制),从而不断优化策略。而之前的大模型预训练采用的是自监督学习范式,通常是设计一种预测任务,利用数据本身的信息训练模型。

简而言之,以前的大模型是学习数据,o1更像是在学习思维。

通过强化学习和思维链的方式,o1不仅在量化的推理指标上有了显著提升,在定性的推理可解释性上也有了明显改善。

不过,o1模型只是在特定任务上取得了突破,在文本生成等偏文科向领域并不具备优势,而且o1只是将人的思维过程展现出来,尚不具备真正的人类思考和思维能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网红还是黑社会?纹身、炫富、拉帮结派,这些“毒疮”早该铲除了

网红还是黑社会?纹身、炫富、拉帮结派,这些“毒疮”早该铲除了

界史
2025-03-12 18:15:23
大S豪宅法拍正式倒计时!具俊晔慌了 韩国价值千万房产紧急抛售!

大S豪宅法拍正式倒计时!具俊晔慌了 韩国价值千万房产紧急抛售!

二月侃事
2025-03-13 13:46:49
倒计时3天!315晚会内部名单流出,第一个塌房的竟然是...

倒计时3天!315晚会内部名单流出,第一个塌房的竟然是...

阿纂看事
2025-03-13 09:06:50
网友透露在日本偶遇小S,晒照片为证,原来大S真的在自欺欺人

网友透露在日本偶遇小S,晒照片为证,原来大S真的在自欺欺人

阿纂看事
2025-03-13 17:24:04
美股英特尔股价大涨18%,创2020年3月以来最大涨幅

美股英特尔股价大涨18%,创2020年3月以来最大涨幅

每日经济新闻
2025-03-13 21:51:09
美国发出全球通缉令,逮捕中国芯片科学家陈正坤,现在怎么样了?

美国发出全球通缉令,逮捕中国芯片科学家陈正坤,现在怎么样了?

华人星光
2025-02-12 12:50:27
24岁女舞蹈老师骑电动车直行,被校车追尾辗轧不幸身亡;涉事大学:事故正在调查处理

24岁女舞蹈老师骑电动车直行,被校车追尾辗轧不幸身亡;涉事大学:事故正在调查处理

大风新闻
2025-03-13 13:35:07
杭州彩民独揽双色球2.59亿巨奖!彩票站老板:他差点错过购买时间

杭州彩民独揽双色球2.59亿巨奖!彩票站老板:他差点错过购买时间

蓝色海边
2025-03-13 16:20:20
湖人独行侠黄蜂三方交易方案 加福德再联手东契奇 欧文和鲍尔互换

湖人独行侠黄蜂三方交易方案 加福德再联手东契奇 欧文和鲍尔互换

篮球话题团
2025-03-14 01:35:02
38岁知名男演员官宣结婚!网友:恭喜

38岁知名男演员官宣结婚!网友:恭喜

深圳晚报
2025-03-13 12:27:27
普京:希望在30天停火期,乌克兰不会动员训练士兵,不会接受武器

普京:希望在30天停火期,乌克兰不会动员训练士兵,不会接受武器

仗剑看世界
2025-03-14 00:50:34
对手退赛!全英羽毛球公开赛女单比赛:中国选手韩悦晋级8强

对手退赛!全英羽毛球公开赛女单比赛:中国选手韩悦晋级8强

直播吧
2025-03-13 23:47:29
凌晨2点!郑钦文vs斯瓦泰克,比赛时间有变,CCTV5更新节目单

凌晨2点!郑钦文vs斯瓦泰克,比赛时间有变,CCTV5更新节目单

大秦壁虎白话体育
2025-03-13 16:53:27
台湾同胞幽默喊话解放军,对开战提了九个要求,节假日不能出兵

台湾同胞幽默喊话解放军,对开战提了九个要求,节假日不能出兵

车马点兵V
2025-03-13 22:38:01
新规打中了七寸?当心供应链暴雷成为强迫劳动的贸易摩擦工具

新规打中了七寸?当心供应链暴雷成为强迫劳动的贸易摩擦工具

鲁八两
2025-03-13 14:09:06
据说杜特尔特被强行送往荷兰海牙国际刑事法庭,中美俄三国不承认

据说杜特尔特被强行送往荷兰海牙国际刑事法庭,中美俄三国不承认

玲子日记
2025-03-13 11:36:24
大陆刚对台表态,不到48小时,台岛吴志中警告:台湾不是乌克兰

大陆刚对台表态,不到48小时,台岛吴志中警告:台湾不是乌克兰

小果趣味体育
2025-03-13 19:57:52
杜特尔特被抓“抓”,马斯科遭到反噬,政治地位不稳

杜特尔特被抓“抓”,马斯科遭到反噬,政治地位不稳

娱乐督察中
2025-03-14 03:08:29
不打了!无限期暂时退出NBA!这可是湖人的首发主力

不打了!无限期暂时退出NBA!这可是湖人的首发主力

篮球实战宝典
2025-03-13 23:25:25
感觉现在全世界最“后悔”的就是国际法庭了,配合逮捕抓杜特尔特

感觉现在全世界最“后悔”的就是国际法庭了,配合逮捕抓杜特尔特

玲子日记
2025-03-13 03:57:52
2025-03-14 04:59:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
127394文章数 2648373关注度
往期回顾 全部

科技要闻

传腾讯向英伟达采购数十亿元规模H20芯片

头条要闻

普京:俄同意停火30天建议 或将与特朗普讨论落实问题

头条要闻

普京:俄同意停火30天建议 或将与特朗普讨论落实问题

体育要闻

奇怪的点球大战又增加了 但赢的人始终不变

娱乐要闻

金秀贤公司原本要求金赛纶赔70亿

财经要闻

中国央行:择机降准降息

汽车要闻

宾利限量版Batur Black Rose 3D打印玫瑰金彰显奢华

态度原创

数码
旅游
家居
手机
公开课

数码要闻

英伟达:RTX 50 系列 GPU 出货量为上代同期两倍

旅游要闻

“小伙泰山陪爬年入30万”引热议 当事人回应:已考虑退出

家居要闻

爱的港湾 简约而不简单

手机要闻

苹果憋了 5 年的大招?iPhone 17 Pro 模具流出

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版