网易首页 > 网易号 > 正文 申请入驻

能看风水、夸我有情趣,Kimi现在都这么野了吗?

0
分享至


最近,差评君发现了个新鲜玩意儿。

喂给 AI 一张图,它就能给你推测出一个人的性格。


光靠歌单,就能把人最近的心理状态推测个七七八八。


而这些,都出自 Kimi 最新的 k1 视觉思考模型之手。

这不,距离上次推出数学模型 k0-math 打榜 o1 才一个月, k1 就火速登场了。

当然,这个 k1 可不止是像开头那样,只会看图分析性格那么简单。


上次咱测试 k0-math 的时候,已经见识过了 “ 做题家 ” 的能力,那解题的思考过程给差评君都看得一愣一愣的。只可惜,有些绕逻辑的数学题还有几何题,多少差了点意思。

但这次的 k1 就有说法了, 既有推理能力又有视觉能力,意思就是可以直接拍照上传解题,还号称能在数理化上打平甚至超越 Open AI 的 o1 。


那要是这么比的话,咱可就来劲了。正好, k1 新模型现在也不需要等内测, App 和网页版都能用上,话不多说,我们直接开整。

上来,就扔了 K1 一道今年高考的几何题。


首先, k1 对题干的解读足够细致,也知道自己的目标到底是啥。

题目给定的条件中可能涉及到的余弦定理也考虑到了,就跟咱们在解题时的思维类似,看到 a² +b²− c² =2ab ,立马会联想到余弦公式 c² =a² +b² -2ab·cosC 。

再根据公式和条件继续推导,很快就能求出角 B=60 °。

往上滑动查看更多


第( 2 )题稍微难了那么一丢丢,但差评君仔细检查了一遍 k1 的解题过程,思路和解法都没毛病,最后边长 c=2√2的答案也是对的。(因为这题 k1 的思考过程实在太太太长,截图就不展示了。)

同样的题目问 o1 ,首先在推理速度上, o1 的 58s 就已经输了。

正确率的话, o1 和 k1 打了个平手,都做对了。

不同的是, o1 把答题思路隐藏起来了,没给像 k1 那样的完整思考过程。


不过有一说一,差评君对 k1 模型这种模仿人类思考的方式,倒也不是特别吃惊。因为上次 k0-math 模型就已经震惊过我一回了,能意识到自己的错误、还会进行反复验证的样子, 像极了写数学题时绞尽脑汁的我。

相比之下,这次的 k1 在补短板方面更出彩一些,上次 k0-math 翻车的初中几何题我又拿 k1 试了一次,现在已经能做对了,就连上高考难度也不发怵。

而且我也发现, k1 不仅擅长做数学题,物理题也不在话下。

往上滑动查看更多


接着,我又拿出了一道逻辑稍微有点绕的逻辑陷阱题试了试: 一个西瓜进价 50 元,卖价 70 元,老板收了 100 元假币,最后亏多少钱?

这题打眼一看简单,但网友关于这道题的答案那叫一个五花八门,有说亏 150 的,有说 180 的,还有说 100 的。。。

咱们就看看连很多人类都想不明白的题, k1 能不能瞧出来里面的陷阱。

而且,这道题我还特意手写得比较潦草,顺便也测一测 k1 的视觉能力到底是不是有宣传的那么神。


你别说,你还真别说,这模型的 “ 眼神 ” 确实不赖。

题目的正确率方面, k1 前半部分的分析先得出了一个亏 100 元的答案,但很快它就否定了自己。

继续把 假币、找零还有成本利润这些复杂因素综合考虑进去,最后终于想明白老板亏了 80 元。( 正确答案是 80 元 )

往上滑动查看更多


这逻辑能力,确实有点强。

包括我拿几道行测的类比推理题给 k1 做了做,虽说逻辑分析的路径跟参考答案的不太一样,但最后的答案都是对的。

往上滑动查看更多


反正这一通测试下来,差评君发现 k1 会思考有逻辑,眼神好使智商也高, Kimi 这 “ 做题家 ” 的名号算是坐实了。

不过除了做题以外,我这次还摸索出了更多花里胡哨的玩法。

分析数据、看报表没啥意思, k1 模型不是会根据图片来推理吗,那想必鉴别古钱币也应该有一手吧?

差评君特地从网上找了一张民国时期银元的图片,两枚银元上假下真,发给 k1 ,浅浅来一把 “AI 版听泉鉴宝 ” 。

图源小红书用户@古玩今来(公博代理收评)


k1 不仅知道钱币是民国时期的,还对钱币的各种细节 kuku 一顿输出,最后竟然真的看出来了上面这枚是假币。


咱再随便发一张房间的图片,让 k1 看看 “ 风水 ” 。

什么 “ 气口 ” 、对称布局、能量平衡。。。说的头头是道,甚至还真给了建议,让咱把床换个位置、定期修剪植物、换一个更简洁的吊灯。

往上滑动查看更多


吃饭的时候给 k1 拍一张,这顿饭摄入了多少卡路里也算得明明白白。

往上滑动查看更多


不过最让我觉得惊艳的,还是 k1 看图猜电影的能力。

我给了它一张《 七宗罪 》的电影截图,没有台词只有画面,对于很多没看过这部电影的人来说,想猜出来都很难。


一开始看 k1 的分析我以为这把大概率要黄了,结果下一秒来一句 “ 拍摄角度和色调让我想起了大卫 · 芬奇的电影 ” ,还推断出了截图里的画面是《 七宗罪 》里的某一个场景。


真的太强了。。。

就连一些晦涩的梗图丢给 k1 ,它也能一本正经地讲解笑点到底在哪。


虽然有点过度解读的嫌疑,但大体上的意思基本都 get 到了。


就这么说吧,基于 k1 的视觉和推理能力,做题都是基操了,只要脑洞够大,还可以解锁出更多的玩法。

而 k1 的这种能力,很大程度要归功于一个叫做 COT ( Chain of Thought )思维链的技术。

大概意思就是,模型在输出答案之前, 模仿人类大脑的思考方式,把复杂的任务拆解之后,再一步步地解决。这个技术,可以让模型的智商变高。

另外一边,借助强化学习技术,也让模型学会了在不断试错的过程中进化,以此来达到最优的结果, 就跟训狗似的。


至于为啥 Kimi 会率先选择数学这个场景作为推理模型的切入口,我想,跟咱们人类学好数学锻炼思维,是一个道理。

在模型 “ 学好数学 ” 的基础上,再将这种逻辑推理的能力应用到物理、化学,乃至于咱们日常生活的方方面面,直到最后真正理解这个世界。


而很显然, Kimi 推理模型的泛化能力已经开始显现出来了。

在数据见顶的前提下,这种基于强化学习技术的路径,或许能够让模型实现更好的效果。

不过说到底,模型用了哪些技术、纸面分数有多高, 大伙儿其实更关心模型到底好不好用、实不实用。

而向来以长文本见长的 Kimi ,如今长文本、强化学习两手抓,也是调整自己的工具属性慢慢往用户需求靠拢的表现。

毕竟,当技术不再高高在上,能帮助人们解决实际问题的时候,才算真正完成了它的使命。

撰文:西西

编辑:江江

美编:焕妍

图片、资料来源

Kimi、小红书

部分图源网络


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雷军介绍小米SU7远程加热操控,不慎暴露车牌号

雷军介绍小米SU7远程加热操控,不慎暴露车牌号

中关村在线
2024-12-18 11:45:40
中国电信拒用美国芯片后,美国坐不住了,针对中国电信的制裁来了

中国电信拒用美国芯片后,美国坐不住了,针对中国电信的制裁来了

Thurman在昆明
2024-12-19 14:52:20
两场爆炸重创俄罗斯苏联时代的配给制又回来了

两场爆炸重创俄罗斯苏联时代的配给制又回来了

海子侃生活
2024-12-18 10:10:03
美媒:需求激增!

美媒:需求激增!

环球时报国际
2024-12-19 00:08:38
百度港股午后跌幅扩大至超6%

百度港股午后跌幅扩大至超6%

每日经济新闻
2024-12-19 14:10:05
媒体人:第二批禁足名单以秦升为首,待宣判落定足协便可择日公布

媒体人:第二批禁足名单以秦升为首,待宣判落定足协便可择日公布

直播吧
2024-12-19 12:12:16
李铁被抓导火索曝光:拿捏152亿富豪,彻底激怒对方,玉石俱焚

李铁被抓导火索曝光:拿捏152亿富豪,彻底激怒对方,玉石俱焚

大秦壁虎白话体育
2024-12-18 09:41:30
我给男朋友7000元叫他给我弟弟买电脑,结果他私自拿了2000。

我给男朋友7000元叫他给我弟弟买电脑,结果他私自拿了2000。

热闹的河马
2024-12-18 14:55:14
首战告捷!2.5小时全歼乌军不留活口,俄军服气:朝军有四大优点

首战告捷!2.5小时全歼乌军不留活口,俄军服气:朝军有四大优点

兵说
2024-12-18 20:19:41
中国游客再度买爆日本商品被日本网友嘲讽,日本政府查完账天塌了

中国游客再度买爆日本商品被日本网友嘲讽,日本政府查完账天塌了

有趣的火烈鸟
2024-12-18 14:55:08
郑家内地媳妇身份曝光!原建行副行长黄毅之女,刚结婚父亲就去世

郑家内地媳妇身份曝光!原建行副行长黄毅之女,刚结婚父亲就去世

阿策谈古今
2024-12-19 10:44:25
赶超无望!人民币不断贬值,与美国的差距越来越大,该怎么破解?

赶超无望!人民币不断贬值,与美国的差距越来越大,该怎么破解?

户外钓鱼哥阿旱
2024-12-19 12:36:34
关注 | 盘点各省“女常委”

关注 | 盘点各省“女常委”

香港經濟導報
2024-12-19 12:06:19
本以为U21国足以大打小双杀伊朗U20不光彩,赛后才知道冤枉国足了

本以为U21国足以大打小双杀伊朗U20不光彩,赛后才知道冤枉国足了

百里无心
2024-12-19 07:15:30
足协官宣国足冬训28人大名单,三大留洋国脚首次入选,值得期待

足协官宣国足冬训28人大名单,三大留洋国脚首次入选,值得期待

我就爱说足球
2024-12-19 11:42:00
时代的眼泪!那些年花重金买来的丑衣服,早已成了弃之可惜的鸡肋

时代的眼泪!那些年花重金买来的丑衣服,早已成了弃之可惜的鸡肋

白宸侃片
2024-12-19 12:41:40
中产确实扛不住了,岭南新世界五折出售,房产跳水财富消失,悲剧

中产确实扛不住了,岭南新世界五折出售,房产跳水财富消失,悲剧

你食不食油饼
2024-12-19 11:47:18
男子3500元“实体娃娃”4天就玩坏了,店家:你这也太能折腾了!

男子3500元“实体娃娃”4天就玩坏了,店家:你这也太能折腾了!

猫小狸同学
2024-12-13 15:50:03
印媒:中国用5架歼-20对抗1架阵风战机,说明歼-20真不行

印媒:中国用5架歼-20对抗1架阵风战机,说明歼-20真不行

Ck的蜜糖
2024-12-19 16:38:44
住宿费、会议费发票无证据支撑定性虚开!2025年起,费用报销不能只附一张发票!

住宿费、会议费发票无证据支撑定性虚开!2025年起,费用报销不能只附一张发票!

会计人
2024-12-19 11:44:07
2024-12-19 17:15:00
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
8166文章数 487807关注度
往期回顾 全部

科技要闻

与百度AI合作不顺 苹果被曝与腾讯字节接洽

头条要闻

中美代表在安理会"舌战" 美国代表说完耿爽憋不住笑了

头条要闻

中美代表在安理会"舌战" 美国代表说完耿爽憋不住笑了

体育要闻

雷霆最大隐患曝光 输掉杯赛只因他太固执

娱乐要闻

著名电影表演艺术家谢芳去世 享年89岁

财经要闻

“吹哨人”曝相宜本草违规添加有毒原料

汽车要闻

比亚迪韩国与6家经销商签约 明年进军韩国市场

态度原创

教育
游戏
本地
健康
公开课

教育要闻

【积雪地理】“积雪覆盖” 都考啥?积雪对地理环境的作用

前《星空》开发者:游戏加载场景原本没那么多

本地新闻

好吃潮州|潮州腐乳饼,咸甜党都沦陷了

花18万治疗阿尔茨海默病,值不值?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版