网易首页 > 网易号 > 正文 申请入驻

Kimi、豆包领跑,国产AI迎来新格局

0
分享至

一道步骤难懂的数学奥赛试题、一场组会中的“头脑风暴”、一个需要做大量“功课”才能做出的生活决策——当大模型能像人类一样思考时,你会发现,这一切都将在一次回车的敲下后迎刃而解。

“什么样的场景最适合让AI锻炼思考能力?我们认为是数学场景。”11月16日,月之暗面创始人杨植麟发布了新一代数学能力可对标OpenAI o1系列的数学推理模型k0-math在中考、高考、考研以及包含竞赛题的MATH等数学基准测试中,k0-math初代模型成绩已经超过o1-mini和o1-preview模型。

“这可以说是,在OpenAI o1发布后,国内首个摸索出并实现o1思路的公司。”对于k0-math的推出,一位国内头部互联网公司的大模型技术人员表示,k0-math模型采用的全新强化学习和思维链(CoT)推理技术,正是业内普遍认为OpenAI o1系列的技术关键所在,国内多家互联网巨头均在破解这一“新思路”,但在k0-math发布时,尚未有其他类似模型问世。

在“百模大战”开战的一年多里,新技术、新团队、新应用不断涌现,战况也随之频繁变动。从月之暗面、零一万物等“新AI六小龙”和字节跳动、阿里等互联网大厂团队在混战中脱颖而出,到如今应用最广的AI智能助手陆续上线,可以观察到的是,豆包和Kimi的领先让AI智能助手领域逐渐呈现出了“两超多强”的新格局。


新模型登场

Kimi对标o1

“如果你有100枚硬币,每枚硬币正面朝上。每次翻转包含当前正面朝上的硬币和它相邻的两枚硬币。最少需要翻转多少次才能使所有硬币反面朝上?”

仿佛一个数学天才型选手,Kimi数学版在40秒钟里完成了对该题的问题分解、3种思路尝试、解法验证并正确作答的全套解题流程。

值得注意的是,其中,“意识到逐个翻转硬币不可行,我开始思考如何最大化每次翻转的效果”“意识到翻转之间隔两枚硬币会导致重叠,我考虑增加间隔”等对思维链推理的展示,均是模型自我思考能力的体现。

今年9月,被Open AI创始人Sam Altman喻为“新范式开始”的o1诞生,以模仿人类思维过程进行的强化学习和思维链技术,突破了AI推理瓶颈。自此,行业的技术焦点也从预训练转向了推理和强化学习。

11月16日,Kimi率先交出国内首份答卷。据介绍,相较于以尽快提供答案为关键目标的常规模型,新推出的k0-math模型在做题过程中会花更长的时间来推理,包括思考和规划思路,并且在必要时自行反思改进解题思路,提升答题的成功率。

发布会上,月之暗面公布了k0-math的目前测评得分:在业界最常使用的数学能力基准测试MATH中,k0-math模型得分93.8分,超过o1-mini的90分和o1-preview的85.5分,且k0-math这一成绩仅次于o1完全版的94.8分。

在两个难度更大的竞赛级别的数学题库OMNI-MATH和AIME基准测试中,k0-math初代模型的表现分别达到了o1-mini最高成绩的90%和83%。

从线上AI社区的讨论中选取一道数学题进行实测,Kimi数学版用时2分10秒完成了对该题的正确解答。从线上该帖的评论区反馈来看,在求解该题时,o1-mini和o1-preview在用时上有约30秒的优势,但多次测试均未得出正确答案。

















“该数学推理模型上的技术也可以被放进更多的场景里,例如让Kimi探索版去做更多的探索。”正如杨植麟在发布会上所言,全新技术范式带来的推理能力提升,也能泛化到更多日常任务上。

编辑就“找到北上广深的各个市辖区内,有重点初中,还有直升高中并且每年至少20个清北,告诉我这个区最适合的学区房”这一较为复杂的指令,对Kimi探索版、Kimi普通版和另两款知名AI产品进行测试。


测试结果显示,Kimi探索版在搜索量、搜索内容和生成内容上优势明显,甚至出现了对1311个网页的分析,直观感受到Kimi探索版在意图增强、信源分析和链式思考上的能力提升。


豆包、Kimi的领先

分水岭明显

Kimi领先的每一步,都在一次次搜索中被用户清晰地感知着。“以前2、3个小时才能看懂的文章,用Kimi几分钟就能得到所有关键信息,现在也会在实验中让探索版给出研究设计、方法论选择上的建议。”一位江南大学的在读工科博士表示。

基于Kimi对学术研究、市场分析等专业应用场景的不断深耕和所体现出的明显优势,其用户群体涵盖了学生、科研人员、职场人士和内容创作者等知识需求型人群。月之暗面也表示,Kimi探索版发布后,受到了程序员、科学家、咨询顾问、投资人、律师等专业人群的喜爱。

从用户体量来看,根据量子位智库统计的数据,截至今年10月,在国内现有的68款AI智能助手产品中,只有豆包和Kimi迈过“5000万大关”,其中豆包历史累计下载量破亿,Kimi智能助手下载总量超过5700万。

榜单中,排名第3、4位的产品下载总量各超过2000万。同时,10月新增用户超1400万的Kimi还在将身后的差距逐渐拉大,有望成为“破亿俱乐部”的下一位成员。

第三方平台点点数据也显示,今年10月,ChatGPT、豆包和Kimi智能助手位列全球AI APP苹果端下载量前三,占据了全球苹果端AI APP下载量的51%。

在用户黏性方面,量子位智库指出,我国AI智能助手产品今年10月的留存率基本与上月持平,豆包和Kimi仍稳居前二,两者平均三日留存率超27%,平均七日新增留存率约18%。而其他AI助手产品的平均三日留存率均在25%以下。

此外,从用户活跃度来看,Kimi的10月日活用户量也仅次于豆包。月之暗面公布的数据显示,截至今年10月,Kimi的月活已超3600万人,而且数据仍在持续增长。

从用户体量、活跃度和黏性等多个重要维度来观察,豆包和Kimi已处于第一领跑集团,并与随后各梯队间出现鲜明的分水岭。

“竞争本身并不产生价值,我们做好模型思考推理能力,给用户带来价值,做正确的事情,而不是专门做不一样的事情。”在k0-math的发布会上,杨植麟谈及和以交互能力见长的豆包的竞争时,再度以“聚焦”作为回应。

学会“聚焦”,这是杨植麟过去一年中的一个大课题。如今,这个“创业明星”和他的团队决定眼看前方,继续以加速度向月之暗面迈步前去。

记者|杨昕怡

编辑|蒙锦涛

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大瓜!新东方女老师私生活混乱,和男学生发生关系,被曝后吞J道歉

大瓜!新东方女老师私生活混乱,和男学生发生关系,被曝后吞J道歉

派大星纪录片
2024-11-25 17:13:12
武磊接班人!18岁海港新星5场轰9球 81岁徐根宝:比武磊更全面

武磊接班人!18岁海港新星5场轰9球 81岁徐根宝:比武磊更全面

念洲
2024-11-25 16:37:11
悲催!网传比亚迪一员工在网上发工资条信息被处罚,员工表示不服

悲催!网传比亚迪一员工在网上发工资条信息被处罚,员工表示不服

火山诗话
2024-11-25 05:21:44
民心所向!派出所民警欧打学生事件反转,全国网民赠送锦旗致敬…

民心所向!派出所民警欧打学生事件反转,全国网民赠送锦旗致敬…

火山诗话
2024-11-25 19:31:24
郑钦文临时换帅!将同商竣程前教练合作,里巴无缘执教战澳网

郑钦文临时换帅!将同商竣程前教练合作,里巴无缘执教战澳网

全景体育V
2024-11-25 21:33:55
特斯拉再降价 限时交付尾款 Model Y立减1万元

特斯拉再降价 限时交付尾款 Model Y立减1万元

北青网-北京青年报
2024-11-25 10:52:06
内讧升级!张本智和向日本乒协开出条件,不答应就拒绝参赛

内讧升级!张本智和向日本乒协开出条件,不答应就拒绝参赛

十点街球体育
2024-11-25 20:33:37
英媒:如果中俄关系断裂,特朗普愿意将乌克兰交给俄罗斯

英媒:如果中俄关系断裂,特朗普愿意将乌克兰交给俄罗斯

大风文字
2024-11-25 17:16:51
985毕业男子捡垃圾8年实现财务自由,开4家店,拥有300平旧货仓库

985毕业男子捡垃圾8年实现财务自由,开4家店,拥有300平旧货仓库

小鱼儿会飞了
2024-10-21 22:39:40
某知名电视台发不出工资?女子自曝:34岁做了8年编导被裁,所在部门被一锅端

某知名电视台发不出工资?女子自曝:34岁做了8年编导被裁,所在部门被一锅端

可达鸭面面观
2024-11-25 21:30:30
河南民企协会发文支持胖东来:很多人批评胖东来,却不敢提胖东来的高额待遇

河南民企协会发文支持胖东来:很多人批评胖东来,却不敢提胖东来的高额待遇

极目新闻
2024-11-25 21:30:03
美国国务院在特朗普胜选后进行内部“心理疏导”,布林肯遭质问

美国国务院在特朗普胜选后进行内部“心理疏导”,布林肯遭质问

参考消息
2024-11-25 18:11:05
马斯克对洛克希德·马丁公司的F-35战斗机提出批评

马斯克对洛克希德·马丁公司的F-35战斗机提出批评

证券时报
2024-11-25 08:24:04
香港警方抓获跨境卖淫团伙,3名日本AV女星“赴港外卖”被逮捕

香港警方抓获跨境卖淫团伙,3名日本AV女星“赴港外卖”被逮捕

这里是东京
2024-11-25 15:29:20
上海楼市全军覆没,上海楼市黄浦区房价从96000元涨至103000元

上海楼市全军覆没,上海楼市黄浦区房价从96000元涨至103000元

有事问彭叔
2024-11-25 22:39:56
为何重提发展燃油车?因为担忧中国制造被孤立!

为何重提发展燃油车?因为担忧中国制造被孤立!

柏铭锐谈
2024-11-25 12:26:05
挪威史上最大规模性虐待丑闻!妇科医生20年强奸87名患者,偷录6000小时检查视频

挪威史上最大规模性虐待丑闻!妇科医生20年强奸87名患者,偷录6000小时检查视频

红星新闻
2024-11-25 19:55:10
继卫生巾之后,麻辣烫也塌房了!网友:吃的用的都塌房,天都塌了

继卫生巾之后,麻辣烫也塌房了!网友:吃的用的都塌房,天都塌了

柚子新媒
2024-11-25 18:00:42
重磅消息,法国马克龙已下令,法国军队做好全面战争准备!

重磅消息,法国马克龙已下令,法国军队做好全面战争准备!

星辰故事屋
2024-11-25 11:17:02
米莱治下的阿根廷,现在怎样了?

米莱治下的阿根廷,现在怎样了?

西楼饮月
2024-11-25 18:43:37
2024-11-26 02:27:00
每日经济新闻
每日经济新闻
中国主流财经全媒体平台。
1093458文章数 2706913关注度
往期回顾 全部

科技要闻

特斯拉又降价,知情人士:冲刺今年销售目标

头条要闻

挪威史上最大规模性丑闻 妇科医生20年强奸87名患者

头条要闻

挪威史上最大规模性丑闻 妇科医生20年强奸87名患者

体育要闻

杨瀚森这态度,是打不了NBA的...

娱乐要闻

爆料郑雨盛和女模特,女方非正常怀孕

财经要闻

刘煜辉最新演讲全文:蛇的策略

汽车要闻

特斯拉限时优惠:Model Y仅23.99万起 还能5年0息

态度原创

艺术
本地
时尚
家居
公开课

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

城市24小时|领跑万亿城市,武汉“开挂”了?

灰色大衣,配高领衫才时髦!

家居要闻

素韵留白 极简空间的空灵之境

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版