网易首页 > 网易号 > 正文 申请入驻

英伟达AI科学家Jim Fan 2024年盘点(全文):DeepSeek是开源LLMs领域最大黑马

0
分享至

就在昨天,英伟达高级AI研究科学家Jim Fan在X上发布了年终推文。

他从机器人硬件、具身人工智能(机器人的大脑)、计算硬件、视频生成与世界建模、大语言模型(LLMs)、人工智能助力科学6个章节进行了年终盘点。

Jim Fan以一个既是亲历者又是引领者的视角,为我们展现了2024年AI领域的重大突破。

以下为其推文全文转译:

再提一次人工智能(AI),我们就要彻底告别2024年了。这一年真是跌宕起伏。这一年就像一个扩散模型——我们看着曾经的科幻想象逐渐清晰并成为现实。所以,让我们来庆祝一下——每人一句话,速战速决。准备好了吗?

共6章:机器人硬件、具身人工智能(机器人的大脑)、计算硬件、视频生成与世界建模、大语言模型(LLMs)、人工智能助力科学。

第1章 机器人硬件

我们是最后一代没有被先进机器人随处包围的人。未来,一切可移动的东西都将实现自动化。

1) 高端仿人机器人的崛起:这个世界是为我们人类构建的。所有的设施、电器和工具都是围绕我们的外形尺寸设计的。

- 特斯拉擎天柱(Tesla Optimus):很少有仿人机器人公司有勇气在户外进行现场互动演示。特斯拉在“我们,机器人”活动中做到了这一点。第三代手部有22个自由度,处于行业领先地位;

- 1X Neo:一款适合家庭使用的友好型仿人机器人,目标是在家庭中大规模部署;

- 波士顿动力e-Atlas:重型机器人领域的佼佼者,360度关节能做出一些超厉害的体操动作;

- Figure:从原型机到汽车工厂部署,迭代速度极快;

- 傅利叶智能(Fourier Intelligence):GR - 1机器人是少数实现大规模生产(数千台)并销往全球的机器人之一;

- Clone:采用类似《西部世界》风格设计的仿生肌肉和肌腱,为仿人机器人的实现提供了全新视角。

还有许多其他仿人机器人如雨后春笋般涌现,多得数都数不过来。

2) 廉价机器人硬件的兴起:价格比汽车还便宜,可扩展性强,在不久的将来,大多数中产阶级都能买得起。

- 宇树科技(Unitree)G1仿人机器人:售价约4万美元,重77磅,高50英寸。体型虽小,但灵活性很强;

- 宇树科技B2 - W:一款带4个轮子的机器狗,机动性超过地球上的大多数动物;

- ALOHA:一款极其便宜的斯坦福大学开源机器人,配备2个夹爪。可以通过远程操作来完成煎蛋或叠衣服等复杂动作。

3) 苹果Vision Pro:作为数据采集设备在机器人领域发挥着有趣的作用。 它能实时解析头部和手部姿势,并控制机器人模仿相应动作。

第2章 具身人工智能(机器人的大脑)

这里要给自己打个小广告,因为这是我的专业领域 ;)

1) 特斯拉全自动驾驶(FSD)v12:史上最大的物理人工智能数据飞轮,被压缩成一个强大的从感知到行动的神经网络。这是在长达十年的自动驾驶问题上的一次范式转变。

2) 英伟达推出GR00T项目,这是一项极具挑战性的计划,旨在为通用机器人打造人工智能大脑。黄仁勋在SAP中心登台时,身后就有10台仿人机器人。

3) HOVER:我们团队训练了一个包含150万个参数的基础模型,该模型学会了如何协调仿人机器人的电机运动,捕捉到了我们小脑每毫秒都在进行的“潜意识处理”过程。

4) DrEureka:我们团队训练了一只机器狗,让它仅在模拟环境中就能在瑜伽球上保持平衡并行走,然后能零样本迁移到真实硬件上。大语言模型会自动编写奖励函数并调整参数,这样我们一边看网飞(Netflix)一边就能完成工作。

5) pi0,来自初创公司Physical Intelligence:一个机器人视觉 - 语言 - 行动(VLA)模型,能出色地完成诸如叠衣服等多步骤任务。利用ALOHA的设置实现了低成本的数据扩展。

6) OpenVLA:斯坦福大学关于开源VLA模型的一项研究成果,基于Open X - Embodiment(OXE)数据集进行训练,该数据集汇集了世界各地实验室的机器人运动轨迹。

第3章 计算硬件

1) 性能提升:英伟达推出Blackwell架构,这是该领域的新巨头。DGX GB200在单个机架上的计算能力突破了1艾(10^18)次浮点运算。

2) 小型化:英伟达Jetson Nano Super,一款售价249美元的迷你盒子,具备67万亿次每秒(TOPS)的人工智能计算能力,专为在机器人等边缘设备上运行小型大语言模型而设计。这堪称英伟达的树莓派时刻!

3) 谷歌Willow芯片:量子计算机就像是多元宇宙中的图形处理器(GPUs)。它能在5分钟内解决随机线路采样(RCS)问题,而普通计算机处理该问题则需要10的24次方年。

第4章 视频生成与世界建模

1) Sora:于2月份发布消息,震惊世界,最终在12月推出,但由于等待时间过长,热度有所下降。它是首款高分辨率、长视频生成模型。Sora是一种基于文本条件的视觉世界软模拟模型。该模型通过一些去噪和梯度数学方法,自主学习复杂的渲染和直观的物理效果。

2) Veo:在OpenAI推迟发布相关产品之际,谷歌强势回归,其产品具备更精确的物理效果和精细的物体动态模拟。

3) 基于行动驱动的世界模型:

-GameNGen:没错,你真的可以在任何地方运行《毁灭战士》(DOOM),甚至是在扩散模型中;

-Oasis:没错,你真的可以在任何地方运行《我的世界》(Minecraft),甚至是在扩散模型中;

- GENIE - 2:在扩散模型中通过操纵杆控制运行更多游戏。

4) World Labs(由李飞飞领导的初创公司):展示了一款具有强大几何一致性的生成式3D基础模型,演示效果令人惊叹。

第5章 大语言模型(LLMs)

>> 能力前沿

1) Claude Sonnet - 3.5:很少有人预料到Anthr opic公司能推出排名第一的产品,但强大的Sonnet远超所有人的预期。

2) Gemini 1.5 pro,拥有1000万的上下文长度:仅通过500页的教程、一本词典和400个平行例句,就能从上下文中学会将英语翻译成卡拉芒语(新几内亚仅有不到200人使用该语言)。学习过程通过快速的神经激活即时发生,而不是依靠缓慢的梯度下降。

3) o1(“草莓”项目):推广了推理时扩展技术,并找到了广泛部署的方法。正如萨顿在“苦涩教训”中所说,只有两种技术能随着计算能力的提升实现无限扩展:学习和搜索。现在是时候将重点转向后者了。

4) o3:强化学习的回归。给我一个奖励函数,我就能改变世界。o3的核心在于将单点强化学习超级智能(如AlphaGo)扩展到更多实际有用问题领域(如数学和编程)。

5) 真正的通用人工智能(AGI)测试是完成这个序列:

4o -> o1 -> o3 -> (?)

>> 人机交互界面是一个被严重低估的话题。大语言模型的能力范围远远领先于能充分释放其潜力的用户界面/用户体验(UI/UX)设计。

6) 实时语音模型的兴起,比如GPT - 4o(高级语音模式)。它将传统的三个步骤——音频转文本(自动语音识别,即“ASR”)、文本生成响应(大语言模型)、响应转音频(文本转语音,即“TTS”)——简化为一个步骤。

7) NotebookLM:对大语言模型用户体验的最佳重塑之一:将任何内容播客化。降低了使用门槛:无需输入提示词,无需阅读。只需上传文件,然后聆听两串标记展开的内容即可。

>> 开源社区

8) llm.c:安德烈·卡帕西(Andrej Karpathy)用纯粹的C语言处理标记。不使用Python,不依赖框架,没有任何依赖项。纯粹是原始数学与底层硬件的对话。他用代码写诗。

9) Llama - 3:让你能在手掌间拥有GPT - 4的强大能力。

10) DeepSeek:今年开源大语言模型领域最大的黑马。它表明资源限制能促使你以惊人的方式实现自我重塑。

第6章 人工智能助力科学

1) 诺贝尔物理学奖:如今,我们都是物理学家。人工智能领域的博士们——读一读我的《转行指南》吧。机器学习现在就是“统计力学”。你们现在有资格冲击最高奖项了。

2) 诺贝尔化学奖:我倒要看看,你敢不敢再提一次诺贝尔……开个玩笑,恭喜德米斯(Demis)和AlphaFold团队。这是一生难遇的突破。先攻克人工智能,然后用人工智能解决一切问题!

3) Neuralink:一位脊髓损伤患者如今能够通过意念控制鼠标,实现浏览网页、直播、玩《文明6》,甚至在任天堂Switch上玩《马里奥赛车》。Neuralink将生物神经脉冲映射到人工神经脉冲,然后将像素映射到光标动作。太了不起却又被低估了。

结语

在这篇文章里,我不可能把所有精彩的人工智能时刻都列举出来。真不敢相信,距离ChatGPT首次亮相已经过去2年了,距离Transformer论文发表也已经过去7年了。这期间有大量的炒作、承诺,也有不少担忧。我竭尽全力为读者提高信息的信噪比。

最后,我想用威尔逊的一句话来结尾:

“人类真正的问题在于:我们拥有旧石器时代的情感、中世纪的制度和神一般的科技。”

好消息是,我们在创造科技,这意味着我们也能决定科技在我们的制度、社会和文化中扮演的角色。人工智能是人类未来不可避免的一部分。如果我们正确运用,它将成为一股强大的正能量。

祝大家新年快乐!


扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为干涉台海,美军先打巴拿马运河?美议员:航母将绕远16000公里

为干涉台海,美军先打巴拿马运河?美议员:航母将绕远16000公里

影孖看世界
2025-01-08 23:10:33
双预警齐发!烟台的雪还要下多久?最新天气预报

双预警齐发!烟台的雪还要下多久?最新天气预报

胶东在线
2025-01-08 19:20:20
广州海珠发生一起命案,现场多人围观,知情人曝是妻子出轨

广州海珠发生一起命案,现场多人围观,知情人曝是妻子出轨

南城无双
2025-01-08 16:43:52
一颗子弹都别想进台湾!大批军火将到,解放军一举轰动全球舆论

一颗子弹都别想进台湾!大批军火将到,解放军一举轰动全球舆论

傲骨真新
2025-01-07 09:00:09
她不幸去世!年仅42岁,生前曾劝大家“引以为戒”

她不幸去世!年仅42岁,生前曾劝大家“引以为戒”

开屏新闻客户端
2025-01-08 08:11:06
梁朝伟董洁往事还能瞒多久?爆两人房间满地成人用品!

梁朝伟董洁往事还能瞒多久?爆两人房间满地成人用品!

派大星纪录片
2024-12-16 17:52:45
西安赛格国际购物中心致歉!

西安赛格国际购物中心致歉!

上游新闻
2025-01-08 19:00:06
要求中国人向世界道歉,被央视封杀、开除的阿丘,如今竟活成这样

要求中国人向世界道歉,被央视封杀、开除的阿丘,如今竟活成这样

梦史
2025-01-08 11:28:00
“吉林一号”卫星影像看西藏6.8级地震前后变化

“吉林一号”卫星影像看西藏6.8级地震前后变化

环球网资讯
2025-01-08 15:14:36
国资委主任张玉卓:持续推动国有资本和国有企业做强做优做大 加快建设世界一流企业

国资委主任张玉卓:持续推动国有资本和国有企业做强做优做大 加快建设世界一流企业

财联社
2025-01-08 21:20:06
比亚迪巴西工厂施工方涉非法招工?外交部回应:中国政府一贯要求中资企业依法依规经营

比亚迪巴西工厂施工方涉非法招工?外交部回应:中国政府一贯要求中资企业依法依规经营

财联社
2025-01-08 16:04:07
工地往事:江西大姐的连衣裙,被车间主管剥了个精光

工地往事:江西大姐的连衣裙,被车间主管剥了个精光

三惊胖爷
2025-01-08 20:29:27
帕金森是吃出来的?再次劝告:不想患帕金森,这6种食物尽早戒口

帕金森是吃出来的?再次劝告:不想患帕金森,这6种食物尽早戒口

奇妙的本草
2025-01-07 18:00:09
河床官宣卢卡斯-马丁内斯回归,用中文“欢迎回家”预热

河床官宣卢卡斯-马丁内斯回归,用中文“欢迎回家”预热

懂球帝
2025-01-08 03:49:38
艺人李熙哲自杀离世,年仅40岁,7天前曾发文疑似向朋友求救

艺人李熙哲自杀离世,年仅40岁,7天前曾发文疑似向朋友求救

素素娱乐
2025-01-08 16:36:19
刚刚!鼋头渚 重要通知!

刚刚!鼋头渚 重要通知!

无锡eTV全媒体
2025-01-06 09:44:57
中方不用出手了?菲突传重磅消息,副总统踢出会议,马科斯慌了

中方不用出手了?菲突传重磅消息,副总统踢出会议,马科斯慌了

蓝泾看一看
2025-01-08 13:03:25
5-4夺冠,丁俊晖绝杀世界第一特鲁姆普,5-3:击败3届世锦赛冠军

5-4夺冠,丁俊晖绝杀世界第一特鲁姆普,5-3:击败3届世锦赛冠军

全能体育柳号
2025-01-08 07:34:32
老人不会无故得心梗!医生告诫:若想心血管健康,尽量避免4件事

老人不会无故得心梗!医生告诫:若想心血管健康,尽量避免4件事

荷兰豆爱健康
2025-01-06 19:37:27
白振宇,3个月内职务两次调整

白振宇,3个月内职务两次调整

新京报
2025-01-06 14:24:14
2025-01-09 05:51:00
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
178文章数 8关注度
往期回顾 全部

科技要闻

李开复第一个讲了出来,不再追求 AGI

头条要闻

38岁群演曾被骗至缅甸家属花百万救回:诈骗手段已升级

头条要闻

38岁群演曾被骗至缅甸家属花百万救回:诈骗手段已升级

体育要闻

消失3年后,国乒冠军成为一名大学老师

娱乐要闻

星星女友传来好消息:已和星星见面

财经要闻

2025年,年轻人的抠门远远不止反向消费

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

家居
教育
艺术
数码
公开课

家居要闻

诠释未来 置身星际之间

教育要闻

同事自嘲,看来,咱们也得不断学习啊

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

数码要闻

无线耳机狂卷CES:运动与AI成两大主旋律,听得清只是基本功

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版