网易首页 > 网易号 > 正文 申请入驻

又一机构发布推理模型,大模型从Scaling Law转向多样化探索

0
分享至

自9月OpenAI发布全新AI推理大模型GPT-o1后,国内企业机构也开始了密集的更新,同步到推理模型的进程。

11月25日晚,上海人工智能实验室向社会用户开放了书生·浦语大模型,并在大模型界面发布了强推理模型InternThinker。据悉,InternThinker模型具有长思维能力,并能在推理过程中进行反思和纠正,从而在数学、代码、推理谜题等多种复杂推理任务上取得更优结果。


这个月已有多个推理模型的发布。11月16日,月之暗面Kimi宣布推出新一代数学推理模型k0-math,号称数学能力对标OpenAI o1系列。11月20日,DeepSeek发布推理模型DeepSeek-R1-Lite,称模型通过强化学习训练,在数学、代码和复杂逻辑推理任务上表现媲美o1-preview。

发布推理模型已成当前AI行业的一大趋势,上海人工智能实验室青年科学家陈恺在接受第一财经采访时表示,“目前大模型的头部机构都有研发和发布推理模型的计划,因为推理能力是大模型智能水平的重要体现,也是面向复杂应用场景的必备能力。”

强大的推理能力是迈向通用人工智能的重要基础。从应用层面来看,陈恺认为,模型推理能力的进一步提升将会带来更多的智能应用场景,可以和人更好地协作进行思考和解决高难度任务,从而推动大模型在生产力方面的应用。

在具体应用上,陈恺举例表示,一般的大模型可以在读完一份财报之后帮忙整理其中的关键信息,如果是具备强推理能力的模型,未来就可以像分析师一样帮助分析财报中的数据,给出合理的研究和预测。

在提升模型推理能力方面,陈恺提到,目前主要的难点是高密度监督数据,例如高难度的问题和更详细的思维链,这些数据在自然文本中占比很小,需要研究有效的构造方法。此外,推理能力目前的提升路径依赖有效的强化学习,在强化学习中如何提升模型的搜索效率,如何训练泛化且可靠的奖励模型以便于获取反馈也是难点。

OpenAI 9月发布的o1模型展示出强大的推理能力,在提升模型推理能力的研究中,据介绍,实验室采用的是相对独立的路线,通过设计元动作思考范式来引导模型的搜索空间,基于通专融合的方式进行数据合成,并通过构建大规模沙盒环境获取反馈,从而提升模型的性能。

具体来说,人在学习解决复杂推理任务时,并非从海量的样本中进行单点知识的学习,而是思维模式的学习——在解决问题的过程中,通过回忆相关知识点,对正确的解题过程进行理解、记忆,对错误解题等过程进行反思和修正,即对自我的认知过程进行觉察和调节,该能力也被称作元认知能力。

受元认知理论的启发,实验室的研究团队设计了一系列元动作来引导模型解决问题的过程,如对问题的理解、知识回忆、规划、执行、总结等。模型在面对复杂任务时,会显式且动态地选择元动作,再进一步展开相关动作的具体思维过程。通过这种设计,利用部分训练任务,可强化模型对关键元动作组合的使用,提升模型学习效率。

随着大模型的不断发展,陈恺认为,目前行业的研究方向从按照Scaling Law(尺度定律)简单地放大模型参数量和数据,转向了更多样化的探索。他预测,未来一部分资源投入会从预训练转向后训练,包括使用更多的推理算力来换取模型更好的性能,以及强化学习的大规模应用。

此前在发布推理模型时,谈及Scaling Law是否还有效,月之暗面Kimi创始人兼CEO杨植麟也提到了Scaling law 的范式转换,他认为,过去大模型的路径是“next token prediction”,但预测下一个词有局限性,是一个静态的数据集,没办法探索更难的任务,接下来大模型的目标是通过强化学习让AI具备思考的能力。

“接下来还能持续scale,只是过程不一样。”杨植麟认为,预训练还有半代到一代模型的空间,这个空间可能会在明年释放出来,但是他判断,接下来最重点的还是强化学习。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
汪小菲携夫人厦门参加会议,马筱梅黑色西装显干练 网友:转变了

汪小菲携夫人厦门参加会议,马筱梅黑色西装显干练 网友:转变了

晴晴给你讲故事
2024-11-30 12:29:41
人形机器人产业链投资布局 2024,未来2万亿高增长市场

人形机器人产业链投资布局 2024,未来2万亿高增长市场

小佩棋不蹦迪
2024-11-29 15:36:49
这几年美国经济为何如此强劲?

这几年美国经济为何如此强劲?

流苏晚晴
2024-11-20 19:30:19
又当又立!优衣库创始人声明不用新疆棉,反手被中华区销售额打脸

又当又立!优衣库创始人声明不用新疆棉,反手被中华区销售额打脸

吭哧有力
2024-11-29 14:10:16
明日十一月初一,提醒家人:1要晒,吃2样,忌3事,为一年收好尾

明日十一月初一,提醒家人:1要晒,吃2样,忌3事,为一年收好尾

神牛
2024-11-30 13:19:00
赢麻了!穆帅客场大逆转,罗马三换主帅,五轮不胜,想念穆里尼奥

赢麻了!穆帅客场大逆转,罗马三换主帅,五轮不胜,想念穆里尼奥

涛哥聊球
2024-11-30 11:03:21
韩娱的恋幼审美已经不藏了?她这乳牙还没换完就出道对打张元英了

韩娱的恋幼审美已经不藏了?她这乳牙还没换完就出道对打张元英了

新氧
2024-11-28 11:37:33
狂撒1000亿,三六零,浴火重生!

狂撒1000亿,三六零,浴火重生!

飞鲸投研
2024-11-29 20:10:01
成都蓉城发布官方声明,回应与张岩的纠纷!

成都蓉城发布官方声明,回应与张岩的纠纷!

中超伪球迷
2024-11-30 15:02:05
意义重大!中俄关系史无前例,中国“收回”海参崴,发展速度迅猛...

意义重大!中俄关系史无前例,中国“收回”海参崴,发展速度迅猛...

占豪
2024-11-30 00:37:57
他是建国以来「最狠屠夫」,1万多名军警联合搜山才把他制服

他是建国以来「最狠屠夫」,1万多名军警联合搜山才把他制服

探灵人周明
2023-12-20 16:20:04
去了三里屯才发现:紧身裤不兴了!满街都在穿“宽腿裤+勃肯鞋”

去了三里屯才发现:紧身裤不兴了!满街都在穿“宽腿裤+勃肯鞋”

时尚穿搭生活馆
2024-11-23 21:38:13
国央企基层,正在用形式主义对抗官僚主义

国央企基层,正在用形式主义对抗官僚主义

身在国企心在江湖
2024-07-13 07:50:55
临沂也出现“二向箔云”?气象台:非自然形成 可能是某种飞行器的尾迹

临沂也出现“二向箔云”?气象台:非自然形成 可能是某种飞行器的尾迹

闪电新闻
2024-11-30 16:32:53
已打了900多天,各国终于觉察到不对:中国的选择没错

已打了900多天,各国终于觉察到不对:中国的选择没错

智凌纵横
2024-11-11 22:30:03
司机晒出10年前未付款订单,乘客灵魂发问:这钱要还吗?

司机晒出10年前未付款订单,乘客灵魂发问:这钱要还吗?

网约车观察室
2024-11-28 10:43:26
胡锡进帮优衣库说好话,直言外媒这次太坏了

胡锡进帮优衣库说好话,直言外媒这次太坏了

映射生活的身影
2024-11-30 03:05:08
樊振东回上海交大,穿校服,新发型,网友:别忘了领三好学生证书

樊振东回上海交大,穿校服,新发型,网友:别忘了领三好学生证书

湘楚风云
2024-11-30 00:13:04
来分享一个比较笨的选股方法,但基本上能做到100%的获利

来分享一个比较笨的选股方法,但基本上能做到100%的获利

流苏晚晴
2024-11-25 19:47:29
两个月累死两位领导!

两个月累死两位领导!

地产八卦
2024-11-29 21:38:14
2024-11-30 17:27:00
第一财经资讯
第一财经资讯
第一财经官方账号
206414文章数 617166关注度
往期回顾 全部

科技要闻

"AGI不是大杀器,是普通人每天在用的产品"

头条要闻

泽连斯基任命新陆军总司令 乌方消息人士透露更多信息

头条要闻

泽连斯基任命新陆军总司令 乌方消息人士透露更多信息

体育要闻

穆雷与德约科维奇能凑成王炸组合吗?

娱乐要闻

恶意炒作!李行亮麦琳和好后口碑崩塌

财经要闻

雪松爆雷前实控人张劲在香港抛售房产

汽车要闻

比亚迪方程豹豹8推送首次OTA 新增暴力模式

态度原创

游戏
时尚
教育
旅游
本地

索尼PS提醒:黑五特卖最后周末!你买了哪些游戏呢?

40岁+女性必看!冬日穿搭这3个小技巧,演绎恰到好处的高级感

教育要闻

刚整理!山东专科综评科目、分值!一文带你了解!

旅游要闻

驻意大利使馆提醒旅意中国公民注意风险防范

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

无障碍浏览 进入关怀版