网易首页 > 网易号 > 正文 申请入驻

杨植麟发布Kimi新模型:数学对标o1,中考高考考研成绩全第一

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

kimi全面开放一周年之际,创始人杨植麟亲自发布新模型——

数学模型k0-math,对标OpenAI o1系列,主打深入思考。

在MATH、中考、高考、考研4个数学基准测试中,k0-math成绩超过o1-mini和o1-preview。



在demo展示中,k0-math思考过程全面展示,解题过程可能会非常长。

它会一边自言自语“我卡壳了”,一边不断尝试用各种思路。

以下面这道AIME竞赛题目为例,k0-math通过不断探索和试错,尝试了八九次做法后,最终得出了正确结果。



杨植麟现场直言,很简单的问题有时它也会反复思考。

比如遇到简单的“1+1等于几”,它要“先可视化一下”,“再检查一遍”、“用数学方式来确认”、“再用另一种方法来验证”,最终才能“信心满满”得出最终答案1+1=2:



再比如4046/476等于多少,它其实一开始就得到了答案,但又进行反思经过一系列验证推出等于8.5:



在杨植麟看来,这是一个机遇,也是一个局限。预计在下一阶段的模型迭代中,会逐步改善这个问题,让模型能够自己知道何时需要深入思考。



发布k0-math也反映出月之暗面现在的着重点——提升模型的深入思考能力基于强化学习的Scaling Law

杨植麟表示最近Kimi探索版还运用强化学习技术创新搜索体验,提升了意图增强、信源分析和链式思考三大推理能力。

k0-math模型和更强的Kimi探索版,未来几周就将分批陆续上线Kimi网页版和Kimi智能助手APP。

除新产品外,杨植麟现场还一并回答了大伙儿感兴趣的诸多问题,包括接下来的研发重点、对多模态的看法、预训练情况等。

Kimi探索版推理能力提升

Kimi探索版意图增强能力提升,指的是它可以将抽象的问题和模糊的概念具体化,拓展用户的真实搜索意图。

例如,当互联网产品经理调研某产品的用户忠诚度,Kimi探索版会思考当用户搜索“忠诚度”时,本质上是想做数据的分析,然后找到可以体现忠诚度的维度,将这个比较模糊和抽象的概念,转化为更加具体的“活跃度、留存率、使用频率、使用时长”等关键词。

然后通过机器更擅长的海量并行搜索,查找更全面和准确的答案。



Kimi 探索版信源分析能力也有提升,会从大量的搜索来源结果中,分析筛选出更具权威性和可靠性的信源。

现在在答案中还提供溯源链接了,可一键定位信源具体出处,精确到段落级别,让条信息都有据可查。



最后链式思考能力提升,指的是Kimi探索版可以更好地基于思维链推理能力处理产品、公司、行业等研究问题。

例如,当程序员做技术选型,想要了解“react中有哪些状态管理库,最好用的是什么”。

Kimi首先会拆解问题,找到react的状态管理库有哪些,然后分别搜索每个状态管理库的优缺点、使用场景和推荐理由,最后分析总结找到的所有高质量信息,推荐一个最适合大多数情况的状态管理库和理由。

“思考决定模型上限”

Q:强化学习过程中,如何解决数据、算力、算法平衡问题?

A:我觉得AI的发展就是一个荡秋千的过程,你会在两种状态之间来回切换。

一种状态是算法、数据非常ready,但是算力不够。所以你要做的事情就是做更多的工程,把infra做得更好,它就能够持续的提升。

我觉得其实从transformer诞生到GPT-4,更多的矛盾就是怎么能够Scale,但是可能在算法和数据上没有本质的问题。

今天当Scale差不多的时候,你会发现我再加更多的算力,并不一定能直接解决这个问题,核心是因为你没有高质量的数据,小几十G的token是人类互联网积累了20多年的上限。

这个时候要做的事情,就是通过算法的改变,让这个东西不会成为瓶颈。现在可以理解成我们遇到的问题或者整个行业遇到的问题,也许你直接加更多的卡它不一定能看到直接的提升,所以你要通过这个方式的改变让它把这个东西释放出来。

所有的好算法就是跟Scaling做朋友,如果你的算法能够释放Scaling的潜力,它就会持续变得更好。

我们从很早就开始做强化学习相关的东西,我觉得这个也是接下来很重要的一个趋势,通过这种方式去改变你的目标函数,改变你的学习的方式,让它能持续的Scale。

Q:非transformer会不会解决这种问题?

A:不会,因为它本身是一个学习算法或者是没有学习目标的问题。

Q:你们这个产品如果一两周之后放到Kimi探索版里,用户可以选择使用,还是你们会根据用户的提问来分配是否用这个模型?在不同的模式下,每个用户一段时间内可以用多少次?以及目前Kimi主要的收入是在打赏,不是付费订阅,你们怎么平衡成本问题?

A:我们接下来的版本大概率会让用户自己去选择。

早期通过这种方式可以更好地分配或者更好满足用户的预期,我们也不想让它1+1等于多少,想半天。

所以我觉得早期可能会用这样的方案。

但是我觉得这里面最终可能还是一个技术问题。两个点,一个点是能够动态的给它分配最优的算力。如果模型足够聪明,它应该知道什么样的问题需要想多久,就跟人一样,不会1+1也想半天。

我们现在已经一定程观察到度简单的问题它的思考时间也会更短,但是可能还不是最优,这是我们通过算法迭代去再提升的。

长期来讲我觉得第二个点是成本也在不断下降。比如说今年如果达到去年GPT-4模型的水平,可能只需要十几B的参数就能做到,去年可能需要一百多B。

Q:你们预训练的情况现在是怎么样的?你着重讲了Scaling Law,比较好奇像你这么聪明的人会不会被Scaling Law这个事情给限制住?

A:我先说第一个问题,我觉得预训练还有空间,半代到一代的模型。这个空间会在明年释放出来,明年我觉得领先的模型会把预训练做到一个比较极致的阶段,今天比如说我们去看最好的模型它大概有这样的空间可以去压榨。

但是我们判断接下来最重点的东西会在强化学习上,就是范式上会产生一些变化。但是它还是Scaling,并不是它不用Scale,只是说你会通过不同的方式去Scale,这是我们的判断。

你说Scaling law会不会是一个天花板或者是上限,这个相对来说我比较乐观一点。

核心就在于原来你用静态数据集,静态数据集其实是比较简单粗暴的使用方式,现在用强化学习的方式很多情况下是有人在参与这个过程的,但是人没有办法给你标注那么多数据,不可能把每道题具体的思路都标出来,所以你其实用AI本身把人的东西加上一个杠杆。

比如说你标100条数据,就能产生非常大的作用,因为剩下的都是它在自己思考,我觉得更多的会用这种方式去解决。

具体从做法上来看,我觉得确定性是比较高的,很多时候是真正把它调出来的过程,所以我现在觉得这个大概率可以通过这种方式去做出来,所以我觉得它上限是很高的。

Q:想问一下多模态的问题,Sora大概马上要发了。

A:我们也做,几个多模态的能力在内测。

我是这样看的,我觉得AI接下来最重要的是思考和交互这两个能力。思考的重要性远大于交互,不是说交互不重要,我觉得思考会决定上限,交互我觉得是一个必要条件,比如说vision的能力,如果没有vision的能力没法做交互。

所以我觉得它两个不太一样,就看要做这个任务标注任务的难度有很大,到底需要一个博士去标,还是每个人都可以标,哪个东西更难找到这样的人,那个东西就是AI的上限。

所以我觉得多模态肯定是必要的,但是我觉得是思考决定它的上限。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普的大清算开始了,一家五口一个没留,比拜登更慌的人是谁?

特朗普的大清算开始了,一家五口一个没留,比拜登更慌的人是谁?

保德全
2024-11-16 19:00:02
不出5年,中国贬值最快的不是房子、人民币,而是这3样东西

不出5年,中国贬值最快的不是房子、人民币,而是这3样东西

罗晓晓说事
2024-09-20 21:46:23
泽连斯基劝日韩:中国能保障日本韩国的安全,你们应该做中国盟友

泽连斯基劝日韩:中国能保障日本韩国的安全,你们应该做中国盟友

米君文史
2024-11-15 22:17:43
对中国出手,特朗普团队莱特希泽的“关税计划”,传疯了!

对中国出手,特朗普团队莱特希泽的“关税计划”,传疯了!

魏家东
2024-11-16 08:14:25
离开俞敏洪“单飞”的董宇辉,面相都变了,郭德纲的话再次应验了

离开俞敏洪“单飞”的董宇辉,面相都变了,郭德纲的话再次应验了

猫小狸同学
2024-11-01 19:30:03
窦靖童:妈妈钱多到用不完,但穷苦潦倒的爸爸,却成她如今的心病

窦靖童:妈妈钱多到用不完,但穷苦潦倒的爸爸,却成她如今的心病

三公子娱乐丫
2024-11-16 09:55:02
起风了,网友根本不在乎公职人员的安全,反而质疑不断,咋回事?

起风了,网友根本不在乎公职人员的安全,反而质疑不断,咋回事?

眼光很亮
2024-09-12 13:01:24
千亿暴雷!道士隋广义被警方控制,合伙人卷30亿元跑美国

千亿暴雷!道士隋广义被警方控制,合伙人卷30亿元跑美国

土澳的故事
2024-11-17 01:18:17
赵本山儿子赵大牛12万巴黎世家棉袄穿出30块地摊货感,网友:绝了

赵本山儿子赵大牛12万巴黎世家棉袄穿出30块地摊货感,网友:绝了

娱不咸
2024-10-31 20:20:02
利空突袭!雪上加霜 周一A股怎么走?

利空突袭!雪上加霜 周一A股怎么走?

风风顺
2024-11-17 03:52:44
当42岁王子文与30岁陈梦站在一起,我才明白什么叫顶级自律

当42岁王子文与30岁陈梦站在一起,我才明白什么叫顶级自律

八卦南风
2024-11-08 16:44:05
郑爽近照流出!滞留美国又胖又秃,欠款1.2亿,依附白人男友生活

郑爽近照流出!滞留美国又胖又秃,欠款1.2亿,依附白人男友生活

火之文
2024-11-15 15:28:57
当年计划生育的海报,没想被00后完全采纳,教育在此刻完成了闭环

当年计划生育的海报,没想被00后完全采纳,教育在此刻完成了闭环

校长侃财
2024-11-04 09:53:38
到底是谁想出来的“流放宁古塔计划”啊,要被评论区笑死了

到底是谁想出来的“流放宁古塔计划”啊,要被评论区笑死了

笑熬浆糊111
2024-11-17 00:05:19
中国能迅速崛起,离不开这三大国家的帮助?其中一个令人意外

中国能迅速崛起,离不开这三大国家的帮助?其中一个令人意外

王大健美食日常
2024-11-16 18:45:12
惺惺相惜,安赛龙称赞李诗沣打得很好,后者留言:向偶像学习

惺惺相惜,安赛龙称赞李诗沣打得很好,后者留言:向偶像学习

懂球帝
2024-11-17 09:25:07
太排面!何庆魁80大寿,宴席奢华,赵本山送大礼,高秀敏女儿也在

太排面!何庆魁80大寿,宴席奢华,赵本山送大礼,高秀敏女儿也在

娱圈小愚
2024-11-17 08:47:23
李庚希力压马丽赵丽颖拿下金鸡影后,引诸多争议,她凭的是什么?

李庚希力压马丽赵丽颖拿下金鸡影后,引诸多争议,她凭的是什么?

辣条小剧场
2024-11-17 06:52:25
马斯克吹响了“中国统一”的号角

马斯克吹响了“中国统一”的号角

趣说世界哈
2024-11-15 11:32:04
善恶终有报!63岁在美国捡垃圾的吕丽萍,已经活成了一个“笑话”

善恶终有报!63岁在美国捡垃圾的吕丽萍,已经活成了一个“笑话”

华人星光
2024-08-30 16:53:59
2024-11-17 09:50:44
量子位
量子位
追踪人工智能动态
9614文章数 175693关注度
往期回顾 全部

教育要闻

高考作文中识徐枫灿,她长得漂亮就算了,还会开飞机还会开武直20

头条要闻

马斯克或遭调查:曾与普京和俄官员进行过多次通话

头条要闻

马斯克或遭调查:曾与普京和俄官员进行过多次通话

体育要闻

双手沾满鲜血的童年,塑造了NBA最拼命的球员

娱乐要闻

金鸡奖:赵丽颖未获奖,王骁拿奖

财经要闻

央行化债,是“换水” 而不是“放水”

科技要闻

马斯克新官上任再起诉OpenAI!指控其垄断

汽车要闻

越野拉满 东风猛士917高地雄狮售69.9万元

态度原创

房产
手机
本地
艺术
公开课

房产要闻

最新房价!海口新房,年内新低!但二手房,开始回暖!

手机要闻

双十一销量前三,销售额前三出炉,苹果成双冠王

本地新闻

重庆记忆|山城特色“过山车”上天入地穿花海

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版