网易首页 > 网易号 > 正文 申请入驻

详解“端到端”下一代模型VLA,通向自动驾驶的关键跳板

0
分享至

文|李安琪

编辑|李勤

像海鲜市场一样,智能驾驶行业技术浪潮正在快速更迭。“端到端”刚成为新的技术范式,甚至大量公司还没来得及完成研发模式切换,端到端就进入了技术换代时期。

“端到端”的最新进化方向是,深度融入多模态大模型。过去两年,大模型已经展现出了读文、识图、拍电影的能力,但大模型开车恐怕还是头一遭。

近期,智驾行业出现了一个融合了视觉、语言和动作的多模态大模型范式——VLA(Vision-Language-Action Model,即视觉-语言-动作模型),拥有更高的场景推理能力与泛化能力。不少智驾人士都将VLA视为当下“端到端”方案的2.0版本。

事实上,VLA模型最早见于机器人行业。2023年7月28日,谷歌 DeepMind推出了全球首个控制机器人的视觉语言动作(VLA)模型。

不过这个模型概念正快速扩散到智驾领域。今年10月底,谷歌旗下自动驾驶公司Waymo推出了一个基于端到端的自动驾驶多模态模型EMMA。有行业人士表示,这就是一个VLA模型架构,既有端到端智驾能力,还融合了多模态大模型。

过去,智能驾驶行业基于规则算法,进行了十数年探索。近两年,特斯拉引领的“端到端”智能驾驶,成为新的技术方向,不仅让智驾具备更拟人的表现,也能应对城市中海量的复杂交通场景。

配合“端到端”技术,行业玩家还会增加大语言模型等来提升智驾能力上限。端到端+VLM(视觉语言模型),就被理想等公司推崇。

但不同于VLM相对独立、低频地为端到端提供驾驶建议的模式,VLA架构下,端到端与多模态大模型的结合会更彻底。就连理想人士也向36氪汽车坦承,“可以把VLA看成是端到端+VLM的合体。”

VLA模型,很可能是“端到端+VLM”技术框架的“终结者”。

有行业人士表示,VLA模型对智驾的演进意义重大,让端到端理解世界的能力更强后,“长远来看,在L2辅助驾驶到L4自动驾驶的飞跃中,VLA可能会成为关键跳板”。

一些车企智驾玩家已经在暗自发力。此前,理想汽车曾在三季度财报电话会议上表示,内部已经启动了L4级别自动驾驶的预研,在当前的技术路线基础上,研发能力更强的车端VLA模型与云端世界模型相结合的强化学习体系。

智驾公司元戎启行在获得长城汽车的7亿元注资之后,也表示将进一步布局VLA模型。元戎启行称,公司将基于英伟达最新智驾芯片Thor进行VLA模型研发,模型预计于2025年推出。

但也存有共识,VLA模型的上车难度不小,对技术和车端的芯片算力都有高强度要求,“能够支持VLA模型上车交付的芯片,可能在2026年才会出现。”

端到端最新方向:融入多模态大模型

自2023年以来智驾行业掀起的BEV、端到端技术浪潮后,智驾正逐步将AI神经网络融入感知、规划、控制等环节。比起传统基于规则的方案,基于AI、数据驱动的“端到端”拥有更高能力天花板。


图源:元戎启行

但在“端到端”模型之外,车企们还辅以了大语言模、视觉语言模型等外挂,来提供更强大的环境理解能力。年中,理想就推出了端到端模型+VLM(视觉语言模型)的方案。VLM模型对复杂交通环境具有更强的理解能力,可以给端到端提供相关驾驶建议。

不过据36氪汽车了解,理想的端到端模型+VLM模型,是相对独立的两个模型。“理想VLM占用了一颗Ori芯片算力,目前主要对限速提醒等场景做出驾驶建议。”

而VLA模型,是将端到端、VLM两个模型合二为一。也就是说,多模态大模型不再作为端到端的外挂,而是成为端到端自生的一种能力。

谷歌Waymo近期发表的论文中,端到端自动驾驶多模态模型,不仅将摄像头的视频和图像作为感知输入,同时还能以谷歌地图“请在前方第二个匝道右转出匝道”这种指令作为输入,以及结合车辆历史状态,输出车辆未来轨迹。

有行业人士向36氪汽车表示,目前对于一些特殊的复杂场景,智驾仍然缺少学习数据样本。如果融入模态大模型,就能将大模型学习到的知识迁移给智驾系统,可以有效应对corner case(长尾场景)。

智驾公司元戎启行CEO周光也认为,VLA模型是端到端的2.0版本。他表示,遇到一些复杂的交通规则、潮汐车道、长时序推理等特殊场景时,智驾会比过往理解、应对得更好。

比如在推理时长上,传统rule-base(基于规则)方案下,智驾只能推理1秒钟路况信息然后做出决策控制;端到端1.0阶段系统能够推理出未来7秒路况,而VLA能对几十秒路况进行推理。

“目前基本上大家沿着这条线已经预研1年多了,不过明年想要量产还是有很大难度。”有行业人士表示。

端到端变奏,后发者的机会更少了

在进入规模推广之前,下一代端到端方案还面临很现实的挑战。

一方面,现阶段车端芯片硬件不足以支撑多模态大模型的部署落地。有行业人士向36氪汽车表示,将端到端与VLM模型二合一后,车端模型参数变得更大,既要有高效实时推理能力,同时还要有大模型认识复杂世界并给出建议的能力,对车端芯片硬件有相当高要求。

当下,高阶智驾的算力硬件基本为2颗英伟达OrinX芯片,算力在508Tops。有行业人士表示,现在车端的算力很难支撑VLA模型的部署。

而英伟达的最新一代车载AI芯片Thor有望改变这种局面,Thor的单片AI算力达1000Tops,并对AI、大模型等算力都有不错支持。

不过跟英伟达接触的人士向36氪汽车表示,明年英伟达Thor芯片大概会延期发布,上半年最先有望先推出的是700Tops算力版本。但一颗700Tops算力的芯片也可能支撑不了VLA模型,两片Thor的成本又高出不少。

英伟达的芯片量产时间与成本挑战,横亘在车企前面。为此,一些自研芯片的新势力也在紧追芯片进度。据36氪汽车了解,一家头部新势力的VLA模型预计2026年正式上车。“届时结合自研的大算力芯片,VLA的效果会更惊艳。”上述行业人士表示。

好在,VLA模型架构下,数据方面的挑战没有骤然提升。

有行业人士告诉36氪,在端到端基础上,VLA模型融入了视觉语言模型、动作模型。但多模态大模型的数据并不难获得,包括已经开源的大模型、互联网上已有的通用语言,都可能成为智驾多模态大模型的养料。

更具挑战的是,如何将端到端与多模态大模型的数据与信息作深度交融。这考验着头部智驾团队的模型框架定义能力、模型快速迭代能力。

这些都决定了VLA模型不会太快进入智驾的量产环节。

然而,技术路线的骤然升级与竞赛变奏,为还没发力端到端的玩家设置了更高门槛,后发制人的机会更加稀少。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
16助攻,19助攻,22助攻,抱歉约基奇:你的助攻王悬了

16助攻,19助攻,22助攻,抱歉约基奇:你的助攻王悬了

篮球大视野
2024-11-29 12:30:46
日军躲在炮楼内,八路军久攻不下,一老农路过却称:简单,让我来

日军躲在炮楼内,八路军久攻不下,一老农路过却称:简单,让我来

百态人间
2024-11-29 18:31:13
台当局偷偷改了规矩:若解放军战机飞临台岛,台湾民众只有3分钟

台当局偷偷改了规矩:若解放军战机飞临台岛,台湾民众只有3分钟

猎火照狼山
2024-11-27 00:05:03
北京通州,一男子因心情不好,在餐厅大量喝酒,男子买单离开后,在餐厅门口倒头便睡

北京通州,一男子因心情不好,在餐厅大量喝酒,男子买单离开后,在餐厅门口倒头便睡

记录生活日常阿蜴
2024-11-30 07:15:02
百岁老人林佳楣,她是原国家主席李先念的夫人,身体依旧硬朗

百岁老人林佳楣,她是原国家主席李先念的夫人,身体依旧硬朗

大江
2024-11-27 18:28:13
遭重判后想逃亡?周玉蔻欲坐飞机出境被机场拦下

遭重判后想逃亡?周玉蔻欲坐飞机出境被机场拦下

海峡导报社
2024-11-29 17:32:20
震惊!婆媳吵架引发血案!警方击毙儿媳和2月大婴儿,丈夫坐床边目睹一切

震惊!婆媳吵架引发血案!警方击毙儿媳和2月大婴儿,丈夫坐床边目睹一切

华人生活网
2024-11-30 05:44:50
长沙衰退最严重的区域、被抛弃了的市区,曾经最繁华的地方之一

长沙衰退最严重的区域、被抛弃了的市区,曾经最繁华的地方之一

记录生活日常阿蜴
2024-11-30 07:15:02
保时捷推出内涵广告,雷军和小米被打脸了

保时捷推出内涵广告,雷军和小米被打脸了

广告案例精选
2024-11-27 19:58:48
闹大了!国税总局原副局长许善达先生:五口之家月收入4000元就够

闹大了!国税总局原副局长许善达先生:五口之家月收入4000元就够

叹为观止易
2024-11-16 18:16:01
四问陶琳:特斯拉90天供应商还款周期真的优秀吗?

四问陶琳:特斯拉90天供应商还款周期真的优秀吗?

汽车十三行
2024-11-29 22:42:08
北京一男子称在袁记云饺用餐时吃出蚯蚓,多人反映有类似遭遇

北京一男子称在袁记云饺用餐时吃出蚯蚓,多人反映有类似遭遇

澎湃新闻
2024-11-30 10:24:32
张雨绮红毯造型翻车!开胸礼服到肚脐,性感没秀成倒是显得很魁梧

张雨绮红毯造型翻车!开胸礼服到肚脐,性感没秀成倒是显得很魁梧

南城无双
2024-11-29 00:34:39
英锦赛:世界第1第2第3齐聚四强,利好丁俊晖张安达!CCTV直播

英锦赛:世界第1第2第3齐聚四强,利好丁俊晖张安达!CCTV直播

求球不落谛
2024-11-30 06:47:21
传离婚分3亿!33岁港姐超短裙现身母校晚宴!北京出生嫁大40岁富商改命!

传离婚分3亿!33岁港姐超短裙现身母校晚宴!北京出生嫁大40岁富商改命!

我爱追港剧
2024-11-27 23:19:44
男篮亚预赛战力排名更新:中国男篮上升3位至亚洲第5

男篮亚预赛战力排名更新:中国男篮上升3位至亚洲第5

懂球帝
2024-11-29 16:57:17
美军喊话台湾:一旦解放军动手,只要撑住1个月,美军就能登陆

美军喊话台湾:一旦解放军动手,只要撑住1个月,美军就能登陆

兵器展望
2024-11-27 17:06:49
突传爆雷!老板跑路?现场人头攒动“扫货捡漏”

突传爆雷!老板跑路?现场人头攒动“扫货捡漏”

鲁中晨报
2024-11-30 09:52:11
捐赠二战相册的美国小伙准备住在中国,“计划让中国成为第二故乡”

捐赠二战相册的美国小伙准备住在中国,“计划让中国成为第二故乡”

极目新闻
2024-11-29 10:55:44
黄永胜秘书李必达:两封举报信加速了林彪的出走,退休后痴爱书法

黄永胜秘书李必达:两封举报信加速了林彪的出走,退休后痴爱书法

情感大头说说
2024-11-30 07:50:15
2024-11-30 11:04:49
36氪
36氪
让一部分人先看到未来
146561文章数 2843407关注度
往期回顾 全部

科技要闻

"AGI不是大杀器,是普通人每天在用的产品"

头条要闻

上海一业主将价值20万自行车放楼道 结果车"消失"了

头条要闻

上海一业主将价值20万自行车放楼道 结果车"消失"了

体育要闻

穆雷与德约科维奇能凑成王炸组合吗?

娱乐要闻

一夜爆火的丁真,不进娱乐圈他后悔吗

财经要闻

雪松爆雷前实控人张劲在香港抛售房产

汽车要闻

比亚迪方程豹豹8推送首次OTA 新增暴力模式

态度原创

时尚
本地
游戏
手机
健康

直播|| 今年冬天只想背这个包!

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

《夺宝奇兵:古老之圈》上市宣传片将于周一发布

手机要闻

三星One UI 7:终止支持Win10 / Win11版DeX,屏蔽Edge Panel应用

花18万治疗阿尔茨海默病,值不值?

无障碍浏览 进入关怀版