网易首页 > 网易号 > 正文 申请入驻

DeepSeek给普通人的启示

0
分享至

来源:很帅的投资客 shuai_investor

作者:很帅的狐狸

大家好,我是很帅的狐狸

最近几天被DeepSeek给刷屏了。

因为它用非常低的成本训练了个R1模型,其性能甚至可以比肩OpenAI的顶级推理模型o1。

这直接干崩了英伟达的股价(市场开始质疑训练AI其实不用烧那么多钱囤卡)。

截图/雪球APP

不过让我觉得最有意思的,并不是它对英伟达股价的冲击,也不是中美AI差距的缩窄,而是它的训练方法,给了我很大的启发(在个人学习上)

先简单介绍两句R1模型——

R1跟我们平时用来润色文案、总结文章的普通大语言模型不大一样,它具备一定的推理能力

它跟OpenAI的o1类似,可以通过增加「思维链」(自言自语)来提高推理能力,让答案质量变高(特别是理工科题目)——

截图/DeepSeek

而要让大语言模型具备推理能力(也就是有「思维链」的过程),过往的做法,一般是在基础模型上,通过SFT(监督微调)

这个过程类似学生刷题,老师给了大量的思维链的范例(参考问题和标准答案),然后告诉学生——

学生刷的题够多了,自然就学会了用「思维链」的方式来回答。

而DeepSeek在训练R1-Zero(R1的试错版本)时,则是创造性地使用了RL(强化学习的训练方式。

这个过程更像是婴儿的学习方式——

你跟婴儿大量地说话,TA会尝试给你一个回复,你会给TA的回复一个反馈,TA会通过反馈学到知识。

比如说颜色的识别——

一开始,婴儿是一张白纸,自然也没有「颜色」这个概念。

比如,我会指着一个蓝色杯子,问我女儿那是什么颜色。

她如果说蓝色,我就会跟她笑笑说你好棒;她如果说其他的颜色,我就说哎呀错了。

这时我再拿出个蓝色的衣服,问她是什么颜色。

她如果还是回答蓝色以外的颜色,我同样还是会给她「回答错了」的反馈。

慢慢的,她会总结出规律——

她会提炼出「颜色」这个维度(不同频率段的可见光在视觉上的呈现),并且认识了什么样的颜色是蓝色。

过往强化学习一般用在游戏策略之类的复杂、开放式任务上

因为训练时并没有被提供「标准答案」,所以AI有时候可以提出非常具有创造性的解决方案。

比如2016年AlphaGo对战李世石时,就下出了职业棋手都看不懂的「第37手」。

截图/纪录片《AlphaGo》

事后,这一手被棋圣聂卫平评价为值得「脱帽致敬」

这也是为什么我们会觉得小孩子往往更具备创造力——他们没有那么多「标准答案」的条条框框

稍微来个表格对比下两种训练方式(来源:DeepSeek生成)——

这对我们有什么启发呢?

从小接受九年义务教育的我们,在高考制度的压力下,大多数人已经没法像一张白纸那样去进行强化学习了。

但是!在完全不熟悉的领域,其实我们跟白纸也没什么差别。

举个例子,比如我以前在麦肯锡做咨询的时候,虽说绝大部分项目都是金融机构组的,但是我也做了一些其他行业的项目(地产/能源/医药/物流等等)。

而在其他项目上时,我有个发现:很多在金融业里司空见惯的做法,在其他行业里却是他们从来没想过的「创新」。

所以我们也看到越来越多的创业成功例子,其实是完全不懂行业的人「反常识」式的创新做出来的。

比如马斯克之前从来没有做过火箭,所以才会坚持行业大部分人觉得是「异想天开」的火箭回收计划。

当然,也不是那么多人都有办法转行、在完全陌生的行业从零开始。

所以最最简单的,是反向操作:多看看不同领域的书,看看其他领域有没有什么方法论,可以应用到本行业。

另外,我还有个简单的锻炼方法可供参考。

这是一个同在创业的好友分享的方法,他每天饭后会抽1到2个小时做这个思考训练——

一个人找个空旷的地方散步,选择一个自己以前从没系统性思考过的问题,不一定和自己的工作相关,可以是跨行业的,也可以是生活方面的。

像我以前写的「解题者」系列文章也是类似的,可在文末点击相关链接回顾。

  • 从财务角度思考人际关系

  • 跟餐饮行业的人学投资

  • 用营销学做个人品牌

  • 从投资的角度聊健身

  • 用财务的角度看亲密关系

  • 用决策科学来择偶

当然,关于DeepSeek的这篇论文,还有更有意思的

通过强化学习训练出来的R1-Zero(R1的试错版本),已经具备了比肩o1的推理能力。

但是!DeepSeek也发现,R1-Zero会有中英文混杂、可读性差等问题。

这就像一个天才儿童,自创了一套答题的方法,但它之前没看过「标准答案」,没有系统学过数学的规范表达,所以只能「语无伦次」地表达。

而在这一点上,跟我育儿的直接体验也非常类似——

因为我们给女儿提供的是双语教育,家里是我说英文,其他人基本说中文,所以她也会大量地中英文混杂,而且句子也说得不是很完整。

为了解决这个问题,DeepSeek重新训练了模型(也就是后来的R1)。

DeepSeek给了R1一些冷启动数据

这么做之后得到了现在正式推出的R1,解决了「语无伦次」的问题。

类比我女儿的学习,因为她也会大量观察大人之间的对话(相当于给了一些冷启动数据)。

她会发现,她妈妈会时不时跟我说英文,跟其他人说中文。

所以随着她逐渐长大,她现在只跟我说英文,跟其他人说中文。

写到这里,我开始在想,人类会不会也是高维生命训练出来的AI?

这里也推荐一个有意思的项目——Spore(币圈割韭菜项目,不代表推荐投资,只是概念很有意思)。

这个项目做了个AI智能体,AI可以自己发推、发币,给自己赚电费。

而且AI还可以 不断分裂后代,并遗传一些特征,也可以产生变异,后代也可以发推、发币、跟其他AI交互,尽可能让自己有生存和繁衍的可能(AI也会因为交不起电费而死亡)。

截图/Spore

今天就说到这儿吧,今天除夕了也,预祝大家新春快乐!

「Greed is good.」

「很帅的投资客」的所有内容皆仅以传递知识与金融教育为目的,不构成任何投资建议。一切请以最新文章为准。

✍ 图文/@狐狸君raphael,曾供职于麦肯锡金融机构组,也在 Google 和 VC 打过杂。华尔街见闻、36氪、新浪财经、南方周末、Linkedin等媒体专栏作者,著有畅销书《风口上的猪》《无现金时代》。

参考资料/

《I calculated the effective cost of R1 Vs o1 and here's what I found : r/LocalLLaMA》《DeepSeek登顶中美苹果应用商店免费应用排行榜》《DeepSeek创始人梁文锋:中国AI不可能永远跟随 必然有人站到技术的前沿|人工智能_新浪科技_新浪网》《英伟达为中国“降规”:H800变身为H20|gpu|英特尔|hbm|骁龙+移动平台_网易订阅》《与AI互动的信息时代黎明:吃掉自尊心才能拓展认知边界-虎嗅网》《AlphaGo之父说,关于围棋,人类3000年来犯了一个错!》《大模型的“神之一手” - 知乎》《天才创始人对谈AI教父Hinton:多模态是AI的未来,医疗将发挥AI最大的潜力-36氪》《专访AlphaGo”教练":要不要和中国选手比一场_新闻频道_中国青年网》《仅凭500万美元的AI模型 DeepSeek是如何震惊硅谷的?_新浪财经_新浪网》《中國DeepSeek撼動AI生態?美分析師質疑成本》《"DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via》《Reinforcement Learning"》《强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作》《Does DeepSeek spell doomsday for Nvidia and other AI stocks? Here’s what to know. - MarketWatch》《一夜之间,美国AI圈都在讨论DeepSeek,股民们焦虑“这是在做空英伟达吗?” - 华尔街见闻》《DeepSeek新模型大揭秘,为何它能震动全球AI圈 - 华尔街见闻》《Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释 - 华尔街见闻》《Meta genai org in panic mode | Artificial Intelligence - Blind》《DeepSeek-V3 Technical Report》《DeepSeek利空算力?》《消融实验(Ablation Study)概念、目的、步骤、示例、意义和实例(图像分类模型的消融实验)-CSDN博客》

点个在看支持一下❤️

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
普京果然说到做到,四次归还领土,最后一次归还面积最大

普京果然说到做到,四次归还领土,最后一次归还面积最大

秋枫凋零
2026-05-18 12:19:52
太现实了!击败樊振东不到24小时,F·勒布伦:我的偶像是王楚钦

太现实了!击败樊振东不到24小时,F·勒布伦:我的偶像是王楚钦

郝小小看体育
2026-05-20 00:39:31
北京这周还有雨!明晚开始,预计持续时间——

北京这周还有雨!明晚开始,预计持续时间——

BRTV新闻
2026-05-20 16:27:19
动手了!中国海警抵近中业岛,人员冲上礁,海警船随时戒备

动手了!中国海警抵近中业岛,人员冲上礁,海警船随时戒备

阿龙聊军事
2026-05-19 05:19:21
330 米巨舰即将合拢?美媒坐不住了:中国造舰速度,彻底打脸西方

330 米巨舰即将合拢?美媒坐不住了:中国造舰速度,彻底打脸西方

眼界看视野
2026-05-20 13:50:03
杨瀚森洛杉矶特训效果明显!强化冲击内线+防挡拆,亲承打世预赛

杨瀚森洛杉矶特训效果明显!强化冲击内线+防挡拆,亲承打世预赛

篮球资讯达人
2026-05-20 15:56:01
国少挺进2026年U-17亚洲杯四强,韩媒感慨,“日韩对决”化为泡影

国少挺进2026年U-17亚洲杯四强,韩媒感慨,“日韩对决”化为泡影

兰亭墨未干
2026-05-19 16:18:54
国家发改委安排5000万元支持湖南省严重洪涝灾害灾后应急恢复

国家发改委安排5000万元支持湖南省严重洪涝灾害灾后应急恢复

新京报
2026-05-20 12:05:40
看到中塔签永久协议,俄罗斯提出一大胆想法,要建中俄中亚大三角

看到中塔签永久协议,俄罗斯提出一大胆想法,要建中俄中亚大三角

近史博览
2026-05-20 13:57:47
蒋友青:我不认识蒋万安,平时完全没来往!他们之间发生了什么?

蒋友青:我不认识蒋万安,平时完全没来往!他们之间发生了什么?

凡人侃史
2026-05-12 14:37:12
2026年下半年,走出低谷、财富悄然积累,厚积薄发的三个星座

2026年下半年,走出低谷、财富悄然积累,厚积薄发的三个星座

小晴星座说
2026-05-19 19:09:48
68岁北理工方岱宁院士离世:上一次他上热搜是被一个年轻女人亲脸

68岁北理工方岱宁院士离世:上一次他上热搜是被一个年轻女人亲脸

江山挥笔
2026-05-19 22:20:01
心疼!马筱梅凌晨晒汪小菲背影,大S曾经也晒过,爱与不爱真的很明显

心疼!马筱梅凌晨晒汪小菲背影,大S曾经也晒过,爱与不爱真的很明显

八卦王者
2026-05-20 09:58:31
外交部:世卫大会拒绝所谓涉台提案充分表明国际社会支持一个中国原则的格局牢不可破

外交部:世卫大会拒绝所谓涉台提案充分表明国际社会支持一个中国原则的格局牢不可破

新京报
2026-05-19 15:42:13
张柏芝给19岁Lucas提国产新车,拒买豪车当妈心思藏不住

张柏芝给19岁Lucas提国产新车,拒买豪车当妈心思藏不住

农村黄煮任
2026-05-18 14:22:07
张本一家移居德国,小智改为张本斯卡,美和也改了,可冈山不放人

张本一家移居德国,小智改为张本斯卡,美和也改了,可冈山不放人

佳佳说奇事故事
2026-05-20 16:45:19
魏建军拒回应魏牌V9X领先ID. ERA 9X多少代 上汽大众高管点赞

魏建军拒回应魏牌V9X领先ID. ERA 9X多少代 上汽大众高管点赞

快科技
2026-05-20 11:24:10
《主角》苟存忠死在戏台的真相!看懂3层算计,才懂他的狠与温柔

《主角》苟存忠死在戏台的真相!看懂3层算计,才懂他的狠与温柔

怂熊剧场
2026-05-20 03:00:07
日本羽毛球女神无缘亚运会 韩媒:中国运动品牌天价合约瞬间不香了

日本羽毛球女神无缘亚运会 韩媒:中国运动品牌天价合约瞬间不香了

林子说事
2026-05-20 16:01:08
“见过最廉价的兜底”,一份趁热吃的山姆烤鸡,让家长被全网群嘲

“见过最廉价的兜底”,一份趁热吃的山姆烤鸡,让家长被全网群嘲

妍妍教育日记
2026-05-20 16:49:27
2026-05-20 17:24:49
图解金融 incentive-icons
图解金融
图解金融,你的金融视界
5507文章数 26718关注度
往期回顾 全部

科技要闻

一文看懂谷歌I/O2026:谷歌打响智能体大战

头条要闻

杨梅被"一刀切"禁入 福建杨梅协会会长恳求给果农生路

头条要闻

杨梅被"一刀切"禁入 福建杨梅协会会长恳求给果农生路

体育要闻

不再美丽的阿森纳,终于成为英超冠军

娱乐要闻

王菲“没事儿”,成年人学不来的松弛

财经要闻

白酒榜|汾酒营收净利双增 口子窖"造富"

汽车要闻

焕新极氪009上市41.38万起 齐家版让MPV回归家庭

态度原创

教育
家居
艺术
亲子
健康

教育要闻

5月22日至23日补报名! 山东夏季学考(合格考)

家居要闻

日常印记 静谧温馨

艺术要闻

18幅 玫瑰花与女子画作

亲子要闻

社会化:成长的必经之路,还是大型PUA?

专家:别把PRP当作“自体干细胞”

无障碍浏览 进入关怀版