网易首页 > 网易号 > 正文 申请入驻

李沐重返母校,上交大秒变追星现场,大模型趋势无保留分享

0
分享至

金磊 假装发自 上交大
量子位 | 公众号 QbitAI

什么是顶流?

AI大神李沐回母校做演讲,直接让上交大变成了大型追星现场——

现场可谓是人人从从众众,先来感受一下这个feel:



正式演讲前的场外已经是排起了大长龙,现场更是座无虚席。

即便是演讲结束,李沐老师也是被热情的上交大学子围得里三层外三层



许多学生更是把经典的《动手学深度学习》这本书拿了过来让李沐老师签名



如此场景,甚至上交大计算机科学与工程系教授俞勇都在朋友圈发出了这样的感慨:

第一次亲眼看到追“星”的盛况。



△图源:俞勇教授朋友圈,已授权

对此,李沐老师也回应俞勇老师:

母校老师同学太热情了。



而李沐老师此次回母校的演讲,归结两个关键词,就是LLM趋势个人职业选择



△图源:小红书用户“昭曦”

尤其是正值李沐老师创业一年半(BosonAI)之际,他在现场基于自己的经历,总结了三个不同阶段中“每天在想的基本目标”:

  • 大公司:你要想如何升职加薪
  • 博士:你要想如何毕业
  • 创业:你要想如何“退出”(要么上市,要么卖掉)



△图源:B站用户“Kimoyee”

金句之多,内容之精彩,引得在场师生掌声、笑声,声声不断。

那么李沐老师具体都讲了什么?我们继续往下看。

(PS:完整演讲视频见文末)

谈LLM趋势

首先对于LLM的整体构成,李沐认为主要分为三大方面,分别是数据算力算法



而整个LLM的过程非常像炼丹,“数据”就是找材料的环节。

就好比小说里很多主角去深山里找材料一样,搞数据是个很难的过程,是个体力活。

之后的“算力”就是炼“数据”,火量大一点、设备先进一点,能炼出来的东西就越好。

至于“算法”就相当于丹方,但这点与小说是不同的,因为它每年都在快速进步、变化,并且对细节的把控显得格外重要。

对于LLM与上一次深度学习较大的区别,李沐认为:

之前的深度学习“炼丹”是比较稳定的。
但现在LLM“炼丹”,(开发者或用户)是希望有灵魂在里面的,它能够解决很多问题。

接下来,李沐便针对上述的三大方面进行了详细的讲解。



在LLM硬件方面,李沐认为最难且最重要的是带宽(bandwidth)。

这是因为现在大模型的训练很难通过一个机器来搞定,而要做分布式,那么瓶颈就会出现在带宽上了。

毕竟现在基本上都会是多个服务器机架甚至是集群,即便两个机架间隔1米,但由此带来的哪怕几纳秒的延迟也是不能忍的。

带宽之后,LLM硬件难点便是内存(Memory)。

大模型在训练过程中,是把超大的数据压缩到了一起,使得模型的体量动辄便是几百个G,运行时的中间变量也会变得很大,因此需要很大的内存:

在未来,很有可能一个200G内存的芯片是走不动的。
这就意味着我们的模型大小一定程度上会被受限在某个尺寸;内存不够,模型就大不了。

在带宽、内存之后,便来到了算力(Compute),对此,李沐认为:

摩尔定律依旧有效。



而模型到了一定尺寸之后,资源(Resources)又成了问题,也就是供电。

李沐基于自身经验分享到,发现自己造一个电厂,比付电费的成本要低。

至于价格,当算力翻倍的时候,价格目前不一定会保持不变,可能是1.4倍的价格;但当市场竞争足够,长期来看可以做到价格不变。

至于芯片的替代品(Alternatives),李沐认为谷歌的TPU、英特尔的Habana、AMD和Azure的芯片在做推理时是OK的;但训练方面,可能还需要几年的时间。

李沐在此做了个小总结:

模型训练每年会以2倍的速度变得更便宜、更快、更大。
今年训练的大模型,到明年的价值就会减半。



模型方面,李沐从语言(Language)、语音(Voice)、音乐(Music)、图像(Image)和视频(Video)等不同模态方面做了介绍,并认为多模态是当下的一个趋势。



李沐还给目前不同模态的现状打了个分:

  • 语言模型:80-85分左右,目前是gets good的状态。
  • 音频模型:70-80分左右,目前是good enough的状态。
  • 视频模型:目前还是比较弱的。

基于此,李沐给出了一个推论:

在长文本上的人机交互变得越发流行。



至于大模型的应用(Applicaitions),李沐认为它们本质应该是可以为用户提供无限的人力资源



而这些应用目前在白领和蓝领职场上“上岗”或“协作”的效果如何,李沐做了个表格。

从结果上来看,只有白领、文科属性的简单工作是hold得住的。



对于应用的总结,李沐认为:

只要数据足够,万物即可被自动化。



基于李沐创业一年半的经历,他也分享了几点技术上的思考。

首先,预训练(pre-training)和后训练(post-training)是同等重要的。



其次,没有真正的垂直领域模型;再垂直的模型,它的通用能力也是差不了的。



以及,在大模型评测方面,李沐认为现在的评测太简单了,即使各种刷榜,但用起来的时候就能感受到真实效果。

因此他认为评测这件事虽然很重要,但真正做起来却很难。



除此之外,李沐还分享了几个观点:

  • 数据定义了大模型的能力上限
  • 自建GPU不会比租GPU便宜太多
  • 大部分机器学习时代的经验,依旧适用于大模型时代



而除了技术之外,李沐在这次演讲中也给上交大的师生们分享了自己在职场上的心得。

谈个人“打卡式人生”

了解李沐的人或许对他的个人经历比较熟知了。

本科和研究生就读于上海交通大学,而后赴香港科技大学和CMU深造,在伯克利和斯坦福担任助理教授。

也曾任职于百度和亚马逊等科技大厂,最近的一年半则是创业BosonAI(第二次创业)。

李沐回顾自己的过往,在现场戏称为“打卡式人生”——什么样的地方都转过了一遍了。



那么李沐在经历了种种之后,是一种什么体验?

这也正是我们文章开头提到的“每天在想的基本目标”(精彩的内容必须再提一遍):

  • 大公司:你要想如何升职加薪
  • 博士:你要想如何毕业
  • 创业:你要想如何“退出”(要么上市,要么卖掉)



基于这三个大方面,李沐基于自己的经验,将各自阶段的优点缺点罗列了出来。

例如对于“打工人”这个角色,李沐的PPT刚出来,上交大的学子们便笑了出来:



读博士期间的优点和缺点是这样的:



聊到创业的优点,李沐形象地将这个过程比喻为:

可以体验当(合法)海盗的乐趣,哪儿有钱就去抢一把,没抢到就死掉了。



但李沐此次演讲的两个大part并非是割裂的,相反,是可以非常自然的做一个“有机结合”

他认为应该从“动机”出发去解决一个问题:

  • 有学术价值:那就去做对LLM的理解(PhD/教职)
  • 有商业价值:那就去做LLM上的新应用(创业)
  • 有成长价值:那就去做LMM上的产品落地(打工人)



最后,李沐老师也给了上交大学生一点Tips:





而谈到创业归来,就在前几天,李沐在知乎写的一篇文章《创业一年,人间三年》非常火爆。



不仅是李沐自述了创业一年来的进展,也在三言两语之间,展现了大佬创业的势能——

一开始没打算直接做大模型,但张一鸣建议要创业就直接大模型;买卡需要排队等不及只好给老黄写信,没想到老黄就给安排了;刚创业做游戏的“老蔡”就来交流过了——米哈游那个老蔡;在斯坦福和快手创始人宿华散步,感叹创业心得……

总之,千字短文,但细节之精彩,故事之有趣,值得多读几遍:

《创业一年,人间三年》

https://mp.weixin.qq.com/s/0JSbU4hvr_zrWIjbPV7FXA

One More Thing

目前已经有B站网友Kimoyee将李沐老师此次的演讲视频上传,感兴趣的小伙伴们可以文末链接“深度学习”下哦~



参考链接:
[1]https://www.xiaohongshu.com/explore/66c926d9000000001f01929c
[2]https://www.xiaohongshu.com/explore/66c81dd5000000001f014761
[3]https://www.bilibili.com/video/BV1vBWDepECq/?spm_id_from=333.337.search-card.all.click

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日媒:大空翼等身黄金像近日在日本展出,使用800枚金箔打造

日媒:大空翼等身黄金像近日在日本展出,使用800枚金箔打造

直播吧
2024-11-28 09:51:22
56岁邱淑贞突现尼泊尔拜佛,胸部明显下垂,丈夫沈嘉伟痴情相待

56岁邱淑贞突现尼泊尔拜佛,胸部明显下垂,丈夫沈嘉伟痴情相待

吐不满的痰娱
2024-11-28 16:21:35
姆巴佩缘何在皇马四面楚歌?老佛爷签了一个被宠坏的孩子

姆巴佩缘何在皇马四面楚歌?老佛爷签了一个被宠坏的孩子

雪狼侃体育
2024-11-28 23:37:14
农村基督教堂泛滥!发鸡蛋吸引老年人,背后究竟有什么意图?

农村基督教堂泛滥!发鸡蛋吸引老年人,背后究竟有什么意图?

通文知史
2024-10-27 17:20:03
【旧事】东北:那年今日,辽阜新舞厅烧死233人,只因17岁青年装B

【旧事】东北:那年今日,辽阜新舞厅烧死233人,只因17岁青年装B

年之父
2024-11-27 06:10:02
欧盟惊呆了,德国傻眼了!甚至连美国都压根没想到

欧盟惊呆了,德国傻眼了!甚至连美国都压根没想到

农村玲子
2024-10-21 10:49:26
网红印假条形码狂偷超市!本来无人发觉,没想到为了装高大上,她自爆了...

网红印假条形码狂偷超市!本来无人发觉,没想到为了装高大上,她自爆了...

英国那些事儿
2024-11-27 22:45:32
退出北约!绝不与中俄为敌,美国万万没想到,盟友突然就跑掉了

退出北约!绝不与中俄为敌,美国万万没想到,盟友突然就跑掉了

猫小狸同学
2024-11-24 17:55:02
5场抢10分!前中超名帅征服欧冠:奖金5270万,晋级无悬念

5场抢10分!前中超名帅征服欧冠:奖金5270万,晋级无悬念

叶青足球世界
2024-11-28 08:06:16
拜登被吓傻了!普京彻底被激怒,我国突然出手,俄乌将迎巨变!

拜登被吓傻了!普京彻底被激怒,我国突然出手,俄乌将迎巨变!

现代小青青慕慕
2024-11-28 08:54:46
彻底关停短视频账号!上海三甲医院“网红”医生坦言:感觉被利用

彻底关停短视频账号!上海三甲医院“网红”医生坦言:感觉被利用

康迅网
2024-11-28 13:35:40
王钰栋轰处子球!亚冠生死战传射建功,脱衣滑跪激情庆祝

王钰栋轰处子球!亚冠生死战传射建功,脱衣滑跪激情庆祝

奥拜尔
2024-11-28 22:07:59
亚冠激烈冲突!8人互相推搡,赵博被撞翻,对手2人染黄

亚冠激烈冲突!8人互相推搡,赵博被撞翻,对手2人染黄

奥拜尔
2024-11-28 20:53:44
再降1万!Model Y即将跌破20万,价格战越来越凶了!

再降1万!Model Y即将跌破20万,价格战越来越凶了!

少数派报告Report
2024-11-26 23:51:32
萧敬腾演唱会惊现“向佐”,网友:不愧“异姓兄弟”,太神似了!

萧敬腾演唱会惊现“向佐”,网友:不愧“异姓兄弟”,太神似了!

娱不咸
2024-11-28 11:53:30
朝鲜军队入俄惨败?再派十万大军过去,成功补足两个短板

朝鲜军队入俄惨败?再派十万大军过去,成功补足两个短板

时时有聊
2024-11-25 09:09:07
喜讯!中国男足新星顺利通过德甲球队试训,已得到新东家主帅认可

喜讯!中国男足新星顺利通过德甲球队试训,已得到新东家主帅认可

小海要说球
2024-11-28 20:23:55
38岁何洁暴瘦70斤!穿亮片短裙大秀细腰美腿,美到差点认不出

38岁何洁暴瘦70斤!穿亮片短裙大秀细腰美腿,美到差点认不出

南城无双
2024-11-27 12:38:10
91年,林立果未婚妻张宁,看望林豆豆夫妇,合影中张宁漂亮又时髦

91年,林立果未婚妻张宁,看望林豆豆夫妇,合影中张宁漂亮又时髦

历史伟人录
2024-11-28 12:02:20
奥斯汀说漏嘴,美军已部署仁爱礁?李显龙紧急访华,南海要出大事

奥斯汀说漏嘴,美军已部署仁爱礁?李显龙紧急访华,南海要出大事

视野聚椒
2024-11-27 15:54:16
2024-11-29 01:03:00
量子位
量子位
追踪人工智能动态
9675文章数 175717关注度
往期回顾 全部

教育要闻

小学成绩好不代表一切,初中成绩好才是关键!

头条要闻

大众宣布将出售其在新疆的业务 外交部回应

头条要闻

大众宣布将出售其在新疆的业务 外交部回应

体育要闻

道心破碎的姆巴佩,交出一张负分答卷

娱乐要闻

冯绍峰新恋情曝出!女方第一时间发文辟谣

财经要闻

洪灏:不要误解增量政策 不是数越大越好

科技要闻

讽刺谁?特斯拉称供应链付款周期缩至90天

汽车要闻

ID. CODE概念车/探岳L领衔 大众汽车携25款车亮相

态度原创

数码
游戏
艺术
房产
公开课

数码要闻

索尼或推黑色版PS Portal及配件 售价149.99美元起

《小丑牌》登Steam Deck榜单第四!紧随星露谷

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

房产要闻

湾区黄金枢纽之上,有灵魂与底蕴的「世界庄园」广佛新世界,打版第四代高质量住宅!

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版