网易首页 > 网易号 > 正文 申请入驻

大模型开始学习像人类般思考,通往AGI到哪一步了?

0
分享至

2个月前,大模型数学能力弱的问题广泛引起关注,市面上多款大模型甚至无法做对“9.11和9.9哪个大”的简单数学题。2个月后,业内正在逐步解决大模型数学能力限制的问题。

北京时间9月13日凌晨,OpenAI在没有预告的情况下发布了一个新的推理(reasoning)模型系列,包括o1-preview、o1和o1-mini三个型号。这便是OpenAI传闻已久的具有高级推理能力的“草莓项目”。据OpenAI介绍,新系列模型在数据和编码方面表现出色,在国际数学奥林匹克竞赛(IMO)的资格考试中得分83%。

尝试突破数学能力限制的不只OpenAI。谷歌DeepMind团队此前也推出了Al系统AlphaProof,用于解决复杂的数学问题。

突破数学能力极限是AI技术演进、通往AGI(通用人工智能)路上的新一步。在考文垂大学教授、英伟达人工智能技术中心全球主管Simon See(西蒙·西)看来,业界在提升AI数学能力背后,包括了将LLM(大语言模型)结合其他更多技术的努力,结合不同技术的努力产生了一种通往AGI(通用人工智能)的潜在动力。

如何解决数学能力限制?

“对复杂的推理任务而言,这是一个重大进步,代表人工智能能力的一个新水平。”OpenAI在介绍o1系列模型时写到。OpenAI CEO Sam Altman(萨姆·奥尔特曼)也在社交平台上表示,该新模型是一个新范式的开始,即AI能够进行通用复杂推理。

数学能力增强是该系列模型的一个重要特点。OpenAI介绍,新系列模型更新后的性能类似于博士生在物理、化学、生物学中完成具挑战性的基准任务,在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o仅正确解决了13%的问题,而该新模型得分为83%。

就新模型如何实现更好的数学、编程能力,OpenAI介绍,公司用大规模强化学习算法“教会”模型在数据高效训练时用思维链进行高效思考,类似于人类在回答困难问题之前思考很长时间,随着强化学习增加和思考时间增加,o1性能不断提高。OpenAI研究人员Noam Brown称,o1为大模型缩放(scaling)开辟了新维度,让大模型不再受预训练的瓶颈限制,现在也可以扩展推理计算。而就推理能力增强后的作用,OpenAI则表示,可用于医疗保健领域注释细胞测序数据、物理研究领域生成复杂数学公式等。

谷歌DeepMind则是通过结合LLM之外的其他技术来增强AI系统的最终表现。AlphaProof也基于强化学习,是用于数学推理的系统。该系统训练自身用以证明Lean编程语言(一种用于帮助验证定理的编程语言),且结合了训练语言模型与AlphaZero强化学习算法。据谷歌介绍,Lean使该系统在涉及数学推理证明时可以验证正确性。遇到问题时,AlphaProof会生成候选解决方案,再通过在Lean中搜索可能的证明步骤来进行证明或反驳。

不论技术原理是否有相同点,AlphaProof和OpenAI o1相比以往的模型,都趋于进行深度思考,而不仅依赖于LLM预测并迅速生成下一token(词元)的能力。

如何通往AGI?

此前有大模型研发人员告诉记者,大模型数学能力弱的一个原因是没有用到大量高质量的数学数据训练模型,随着数据质量提升,数学能力弱的问题可以解决。不过,除了训练数据的原因,业内分析LLM数学能力差也是因为通过预测下一token的方式并不真正智能。从近期动态看,包括OpenAI和谷歌DeepMind在内,业界正从AI系统运行机制上解决数学和推理能力差的问题,实际上是在通过各种技术弥补LLM运行方式的不足,在某种程度上让LLM的思考方式变得更像人类。

就LLM的能力局限、如何解决诸如数学能力等问题、如何从现有的LLM迈向AGI,业内仍在探讨问题根源和解决方案,多名业内资深人士近日在沙特数据和人工智能管理局主办的GAIN SUMMIT世界人工智能峰会上进行了探讨。峰会上,Simon See表示,现在的人工智能是“狭隘”的,很多人认为LLM会成为实现AGI的动力,但人们其实没真正理解它是如何工作,现在仍处于开发LLM的边缘。现在还有很多问题需要解决,例如不能建立越来越大的模型,因为无法提供无限的能源。

“我们现在就是有大量数据,将模型训练得足够大,就涌现出了能力。在我看来,依靠单一技术不可行,现在业内正在努力的方向包括让LLM结合其他知识和技术如新的符号、微积分等来进行理解和推理。”Simon See表示,不同技术的结合近期取得巨大进步,DeepMind的AlphaProof便结合了Lean编程语言、语言模型等,使AI能用于数学证明。让LLM结合各种技术,使AI系统拥有通往AGI的潜在动力。

Alpha Intelligence Captal联合创始人兼管理合伙人Antoine Blondeau(安东尼·布朗多)也认为,机器最终比人类更出色已成定局,但达成这个结果需要一定时间,还有大量科学工作要做。他判断,AI将不会是一个单一模型,可能是多种模型的结合,机器最终将要学会像人一样会观察、证明或反驳、概括,在现实世界中学习。

就目前LLM的机制和局限,Antoine Blondeau认为,人类从生活中学习,其中95%是从“带声音的视频”中学习,我们生活的本质基本就是“打开视频”,另外5%是来自文本例如书籍。人类会从视频中学习到语义,例如出现5根手指的时候,意味着可能是人类或其他动物,人类还会从视频中理解时间的顺序和事件因果。但机器从视频中学习的时候,它的任务则是预测下一个像素,这不是人类的方式。如果我们无法让机器像人类这般如此学习,机器就很难达到更高的智能水平。

机器学习知名科学家、大模型初创公司Boson AI创始人兼CEO Alex Smola(亚历克斯·斯莫拉)点出LLM运行方式的局限也与token预测有关。他表示,LLM可预测下一个token(词元)的能力已被用于理解图像、声音、制作声音,在过去12个月,所有东西似乎都变成了token。

“某种程度上我们已经开始耗尽可用的token数量。粗略估算,或许已有100万亿tokens,这可能是人类所能用于建造LLM的tokens。现在还有很多视频、音频供给,某种程度上这将发挥作用,这还依靠英伟达或其他公司生产能处理这些模态的芯片。”Alex Smola表示,在可见的未来,LLM核心可能是序列建模(sequence modeling),现在能看到数据、硬件的收敛,概率模型也朝着相似的结构演进,可以看看相关探索接下来几年能走多远。

结合技术进展并展望未来,Antoine Blondeau认为实现AGI可能是在10年或20年内,现在演进的速度很快。Simon See认为要达到AGI,或许能在这10年内实现这一进程的80%,但他判断最后的20%将非常具有挑战性且需要更长时间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网友:我的天哪,全乱了!这开封夜骑效应已扩散到整个大西北了…

网友:我的天哪,全乱了!这开封夜骑效应已扩散到整个大西北了…

火山诗话
2024-11-09 12:35:22
曹德旺:当你一天赚到两三万后,你就会发现,勤劳根本发不了大财

曹德旺:当你一天赚到两三万后,你就会发现,勤劳根本发不了大财

清风拂心
2024-11-09 16:00:03
中国工程院院士评价国内芯片企业:明知道外国的规定不合理、不平等,却还要买外国的芯片,跟着人家走

中国工程院院士评价国内芯片企业:明知道外国的规定不合理、不平等,却还要买外国的芯片,跟着人家走

逍遥漠
2024-11-07 18:01:18
这种“加绒裤”被爆有毒!重则导致白血病,大部分家里都有!

这种“加绒裤”被爆有毒!重则导致白血病,大部分家里都有!

寒士之言本尊
2024-11-09 14:17:21
重庆反腐!蹇泽西被查

重庆反腐!蹇泽西被查

新京报
2024-11-09 10:11:10
昆明卖臭肉学校再因卫生问题被罚!供水人员未取得体检合格证

昆明卖臭肉学校再因卫生问题被罚!供水人员未取得体检合格证

南方都市报
2024-11-09 13:39:49
又要“退群”,特朗普准备再次让美国退出《巴黎协定》,拜登3年前才重新加入

又要“退群”,特朗普准备再次让美国退出《巴黎协定》,拜登3年前才重新加入

极目新闻
2024-11-09 14:20:25
直接点名高位股!沪深交易所重磅出击...

直接点名高位股!沪深交易所重磅出击...

金石随笔
2024-11-09 00:49:21
又投中9个三分!他这样打下去,库里的NBA纪录不保了

又投中9个三分!他这样打下去,库里的NBA纪录不保了

篮球大视野
2024-11-09 16:47:37
万安县公示3位95后漂亮女干部,都是在职大专学历?官方回应了!

万安县公示3位95后漂亮女干部,都是在职大专学历?官方回应了!

古希腊掌管松饼的神
2024-11-09 15:34:38
美国局势大变!特朗普突然对中国发表重要言论,普京始料未及

美国局势大变!特朗普突然对中国发表重要言论,普京始料未及

君君文谈
2024-11-09 20:18:46
盖尔.加朵承认陪睡!曾代言boss直聘,和老爹视频火辣画面曝光!

盖尔.加朵承认陪睡!曾代言boss直聘,和老爹视频火辣画面曝光!

古希腊掌管月桂的神
2024-11-08 23:04:42
多名高管被带走,涉上亿元?网易最新回应

多名高管被带走,涉上亿元?网易最新回应

澎湃新闻
2024-11-08 13:28:08
TMZ:前NBA球员德隆蒂-韦斯特因非法侵入再度被捕

TMZ:前NBA球员德隆蒂-韦斯特因非法侵入再度被捕

直播吧
2024-11-09 19:32:03
深圳被曝出动大量城管整治摆摊,有摊贩爬上车顶抗拒执法

深圳被曝出动大量城管整治摆摊,有摊贩爬上车顶抗拒执法

映射生活的身影
2024-11-09 20:11:46
2023年黑龙江出生率全国垫底,再创历史新低

2023年黑龙江出生率全国垫底,再创历史新低

界面新闻
2024-11-09 21:14:25
56岁陈红断崖式衰老,扎丸子头也不显年轻,网友:没比倪萍好多少

56岁陈红断崖式衰老,扎丸子头也不显年轻,网友:没比倪萍好多少

木子爱娱乐大号
2024-11-09 16:28:56
深夜,大跳水!

深夜,大跳水!

中国基金报
2024-11-09 08:15:49
风口浪尖!马卡:姆巴佩陷入多重困境,进球荒+无缘法国队名单

风口浪尖!马卡:姆巴佩陷入多重困境,进球荒+无缘法国队名单

直播吧
2024-11-09 16:40:18
正式批准10万亿,政府化债到底是个啥意思?

正式批准10万亿,政府化债到底是个啥意思?

远方青木
2024-11-09 00:12:09
2024-11-10 00:48:50
第一财经资讯
第一财经资讯
第一财经官方账号
204748文章数 616952关注度
往期回顾 全部

科技要闻

特斯拉盘中飙涨超10%,市值突破1万亿美元

头条要闻

美媒披露马斯克与泽连斯基通话细节:特朗普开的免提

头条要闻

美媒披露马斯克与泽连斯基通话细节:特朗普开的免提

体育要闻

约基奇为什么点名要威少当队友?

娱乐要闻

竟然,无黎姿

财经要闻

12万亿元化债新政 这七个问题很关键

汽车要闻

NZP能否完成极氪智驾最后一块拼图?

态度原创

艺术
游戏
家居
房产
公开课

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

贴吧热议Faker曾因压力抑郁:谁曾想他还能再拿两冠

家居要闻

简约温馨 尽享舒适睡眠

房产要闻

11.11 超燃购房礼来袭,海口海上大平层,掀桌子了!

公开课

AI如何揭开大自然和宇宙的奥秘

无障碍浏览 进入关怀版