网易首页 > 网易号 > 正文 申请入驻

专访「AI 教母」李飞飞:世界是三维的,我们需要尊重这一事实

0
分享至

在人工智能(AI)领域,斯坦福大学教授李飞飞被称为“AI 教母”。

她在深度学习革命中发挥了重要作用,多年来一直致力于创建 ImageNet 数据集和竞赛,该数据集和竞赛要求人工智能系统识别 1000 个类别的物体和动物。2012年,一个名为 AlexNet 的神经网络在 ImageNet 竞赛中获得了冠军,其出色的表现震惊了整个人工智能研究界。

从那时起,神经网络在互联网上提供的大量免费训练数据和可提供前所未有计算能力的 GPU 的推动下,开始取得突破

在 ImageNet 出现之后的 13 年里,计算机视觉研究人员掌握了物体识别技术,并开始研究图像和视频生成技术。李飞飞与他人共同创建了斯坦福以人为本人工智能研究院(HAI),并继续推动计算机视觉的发展。就在今年,她创办了一家初创公司--World Labs,该公司可以生成用户可以探索的 3D 场景。World Labs 致力于赋予人工智能“空间智能”,即生成 3D 世界、在 3D 世界中进行推理并与之互动的能力。

昨天,李飞飞在人工智能顶会 NeurIPS 上发表了题为“From Seeing to Doing: Ascending the Ladder of Visual Intelligence”的主旨演讲,阐述了她对机器视觉的愿景

主旨演讲链接:

https://neurips.cc/virtual/2024/invited-talk/101127

在演讲前,李飞飞接受了 IEEE Spectrum 高级编辑 Eliza Strickland 的专访。内容如下:

Eliza Strickland:为什么将演讲题目定为“攀登视觉智能的阶梯”(Ascending the Ladder of Visual Intelligence)?

李飞飞:我认为,直观地说,智能有不同程度的复杂性和先进性。在演讲中,我想表达的是,在过去的几十年里,尤其是深度学习革命的十多年里,我们在视觉智能方面所学到的东西令人惊讶。我们的技术能力越来越强。Judea Pearl 提出的“因果关系阶梯”也给了我启发。

演讲还有一个副标题,“从看到做”。人们对这一点还不够了解:无论是动物还是 AI 智能体,“看”都与互动和“做”密切相关。这和语言是不同的。语言从根本上说是一种交流工具,用来传递思想。在我看来,这些都是非常互补但同样影响深刻的智能模态。

ES:你的意思是说,我们会本能地对某些景象做出反应?

李飞飞:我说的不仅仅是本能。如果你看一下感知的进化和动物智能的进化,就会发现这两者之间有着深刻的联系。每当我们能够从环境中获得更多信息时,进化的力量就会推动能力和智能的发展。如果你不能感知环境,你与世界的关系就会非常被动;你是吃还是被吃,都是非常被动的行为。但是,一旦你能够通过感知从环境中获取线索,进化的压力就会真正增大,从而推动智能的发展。

ES:你认为这就是我们创造更深入的机器智能的方式吗?让机器感知更多环境?

李飞飞:我不知道“深入”是不是我想用的形容词。我认为我们正在创造更多的能力。我认为它正变得越来越复杂,越来越有能力。我认为,解决空间智能问题是迈向全面智能化的基础和关键一步,我对这一点深信不疑。

ES:我看过 World Labs 的演示。你为什么想研究空间智能并构建这些 3D 世界?

李飞飞:我认为空间智能是视觉智能的发展方向。如果我们真的要解决视觉问题,并将其与做某些事联系起来,有一个非常简单、一目了然的事实:世界是 3D 的。我们生活的世界不是平面的。我们的物理智能体,无论是机器人还是设备,都将生活在 3D 世界中。就连虚拟世界也变得越来越 3D 化。如果你与艺术家、游戏开发者、设计师、建筑师和医生交谈,即使他们是在虚拟世界中工作,其中大部分也是 3D 的。如果你能静下心来,认清这个简单而深刻的事实,那么毫无疑问,破解 3D 智能问题就是根本所在。

ES:我很好奇 World Labs 展示的场景是如何保持物体的持久性和遵守物理定律的。这感觉像是一个令人兴奋的进步,因为像 Sora 这样的视频生成工具仍然在摸索这些东西。

李飞飞一旦你认同了世界的 3D 性,很多事情就自然而然地发生了。例如,在我们发布在社交媒体上的一个视频中,篮球被投放到一个场景中。因为它是 3D 的,所以你可以拥有这种能力。如果场景只是 2D 生成的像素,篮球将无处可去。

ES:或者,就像在 Sora 中一样,它可能会出现在某个地方,但随后就消失了。在尝试推进这项技术的过程中,你们面临的最大技术挑战是什么?

李飞飞:没有人解决过这个问题,对吧?这非常非常难。在 World Labs 的演示视频中,你可以看到我们用一幅梵高的画,以统一的风格生成了它周围的整个场景:艺术风格、灯光,甚至街区会有什么样的建筑。如果你转过身去,它就变成了摩天大楼,那就完全没有说服力了。它必须是 3D 的。你必须在其中导航。因此,它不仅仅是像素。

ES:你能说说你用来训练它的数据吗?

李飞飞:很多。

ES:你在算力负担方面是否面临技术挑战?

李飞飞算力需求很大。这是公共部门无法负担的。这也是我很高兴能够以私营部门的方式来做这件事的部分原因。这也是我一直推动公共部门算力访问的部分原因,我的亲身经历强调了创新与充足资源的重要性。

ES:如果能赋予公共部门权力就更好了,因为公共部门通常更愿意为自己和人类的利益而获得知识。

李飞飞知识的发现需要资源的支持。在伽利略时代,是最好的望远镜让天文学家观测到了新的天体。是胡克(Robert Hooke)意识到放大镜可以改进成显微镜,并发现了细胞。每当有新的技术工具出现,都有助于知识的探寻。而现在,在人工智能时代,技术工具涉及算力和数据。对于公共部门来说,我们必须认识到这一点。

ES:假设我们可以让人工智能系统真正理解 3D 世界,这将给我们带来什么?

李飞飞它将为人们释放大量的创造力和生产力。我想用一种更高效的方式来设计我的房子。我知道很多医学用途都涉及到理解一个非常特殊的 3D 世界,也就是人体。我们总是在谈论未来人类将创造机器人来帮助我们,但机器人在 3D 世界中导航,它们需要空间智能作为大脑的一部分。我们还讨论了虚拟世界,它将允许人们参观地方、学习概念或娱乐。这些都使用 3D 技术,尤其是混合技术,我们称之为 AR。我想带着一副眼镜穿过公园,它能告诉我关于树木、小路和云的信息。我也想通过空间智能学习不同的技能。

ES:什么样的技能?

李飞飞:我举一个简单的例子,如果我在高速公路上爆胎了,我该怎么办?现在,我需要打开一个“如何换轮胎”的视频。但如果我能戴上眼镜,看到我的车发生了什么,然后在指导下完成这个过程,那就太酷了。你还可以考虑烹饪,你可以考虑雕刻——有趣的事情。

ES:你认为在我们有生之年,我们还能在这方面走多远?

李飞飞我认为这将在我们的有生之年发生,因为技术进步的步伐非常快。你们已经看到了过去 10 年带来的变化。这无疑预示着接下来会发生什么。

访谈链接:

https://spectrum.ieee.org/fei-fei-li-world-labs

原文作者:Eliza Strickland,IEEE Spectrum 高级编辑,主要报导人工智能、生物医学工程等主题。

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贾平凹之女西北大学副教授贾浅浅多篇论文被指大面积抄袭,部分段落照搬其父主编杂志所刊旧文,且未注明引用,存多处错字

贾平凹之女西北大学副教授贾浅浅多篇论文被指大面积抄袭,部分段落照搬其父主编杂志所刊旧文,且未注明引用,存多处错字

大象新闻
2026-04-05 00:48:06
中美俄意见达成一致:宁愿日本消失,也绝不能让他们拥有核武器

中美俄意见达成一致:宁愿日本消失,也绝不能让他们拥有核武器

混沌录
2026-04-05 16:44:07
云南3岁女童在家被眼镜王蛇咬伤全身瘫痪,假死3天奇迹生还

云南3岁女童在家被眼镜王蛇咬伤全身瘫痪,假死3天奇迹生还

大象新闻
2026-04-05 00:48:02
越南允许使用星链,至此,全球还有9个国家不能使用星链

越南允许使用星链,至此,全球还有9个国家不能使用星链

谭老师地理大课堂
2026-04-05 20:30:28
澳门世界杯:王楚钦首夺男单冠军的含金量有多高?

澳门世界杯:王楚钦首夺男单冠军的含金量有多高?

上观新闻
2026-04-06 04:45:04
1975年江青提议李讷任北京市委书记,毛主席当时是否批准了?

1975年江青提议李讷任北京市委书记,毛主席当时是否批准了?

楚风说历史
2026-04-05 08:50:03
今日!NBA湖人VS独行侠 东契奇伤停,詹姆斯PK弗拉格,央视无直播

今日!NBA湖人VS独行侠 东契奇伤停,詹姆斯PK弗拉格,央视无直播

晚池
2026-04-06 02:08:39
第84波打击!特朗普准备最后一击,伊朗向中国求援,中方斩钉截铁

第84波打击!特朗普准备最后一击,伊朗向中国求援,中方斩钉截铁

南宗历史
2026-04-01 19:11:48
只能庆祝几个小时的首胜!海牛保级战缓了口气

只能庆祝几个小时的首胜!海牛保级战缓了口气

体坛周报
2026-04-06 09:15:16
WTI原油期货涨幅扩大至3%,报114.964美元/桶

WTI原油期货涨幅扩大至3%,报114.964美元/桶

每日经济新闻
2026-04-06 06:20:05
山东男篮拒绝连败!全力战胜广东宏远,内线优势明显,央视直播

山东男篮拒绝连败!全力战胜广东宏远,内线优势明显,央视直播

体坛瞎白话
2026-04-06 09:08:23
马克龙承诺高示,G7峰会没中国,48小时刚过,又在韩国摆中方一道

马克龙承诺高示,G7峰会没中国,48小时刚过,又在韩国摆中方一道

阿凫爱吐槽
2026-04-05 18:40:45
乒乓世界杯落幕!诞生5个赢家,4个输家,孙颖莎、王楚钦位列其中

乒乓世界杯落幕!诞生5个赢家,4个输家,孙颖莎、王楚钦位列其中

帛河体育
2026-04-06 00:04:25
粉红外套下的乳白诱惑,这丈母娘美得让人心慌?

粉红外套下的乳白诱惑,这丈母娘美得让人心慌?

娱乐领航家
2026-03-17 20:30:03
新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

律法刑道
2026-04-01 10:15:47
匈牙利总理称有人企图破坏“土耳其溪”管道

匈牙利总理称有人企图破坏“土耳其溪”管道

环球网资讯
2026-04-06 09:22:24
清朝一个穷书生,帮屠户写春联,被王爷看到,十年后成了一品大员

清朝一个穷书生,帮屠户写春联,被王爷看到,十年后成了一品大员

千秋文化
2026-01-01 20:05:27
独家:某运营商原集团董事长又有�...

独家:某运营商原集团董事长又有�...

新浪财经
2026-04-06 03:42:22
湖南知青和初恋分别终生未娶,38年后重返故地,才知自己儿孙满堂

湖南知青和初恋分别终生未娶,38年后重返故地,才知自己儿孙满堂

晓艾故事汇
2025-05-07 08:46:30
释永信被公诉真相:四项罪名与私生子实锤。网传“当庭痛哭流涕、亲口交代细节”:假的

释永信被公诉真相:四项罪名与私生子实锤。网传“当庭痛哭流涕、亲口交代细节”:假的

浅深说
2026-04-05 16:47:56
2026-04-06 09:59:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

前同事被蒸馏成Token,AI能否偷走职场经验

头条要闻

伊朗称挫败美军营救行动:美军为遮羞轰炸被击落军机

头条要闻

伊朗称挫败美军营救行动:美军为遮羞轰炸被击落军机

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

118吨!这家央行,大幅抛售黄金!

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

数码
时尚
健康
房产
军事航空

数码要闻

未来人类X98W移动“工作站”笔记本电脑上线官网,4月内发售

伊姐清明热推:电视剧《暴锋雨》;电影《我,许可》......

干细胞抗衰4大误区,90%的人都中招

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

军事要闻

美飞行员获救细节:美伊发生激烈交火 至少4死1伤

无障碍浏览 进入关怀版