网易首页 > 网易号 > 正文 申请入驻

理想汽车发布下一代自动驾驶架构MindVLA

0
分享至

2025年3月18日,理想汽车自动驾驶技术研发负责人贾鹏在NVIDIA GTC 2025发表主题演讲《VLA:迈向自动驾驶物理智能体的关键一步》,分享了理想汽车对于下一代自动驾驶技术MindVLA的最新思考和进展。


贾鹏表示:“MindVLA是机器人大模型,它成功整合了空间智能、语言智能和行为智能,一旦跑通物理世界和数字世界结合的范式后,将有望赋能更多行业。MindVLA将把汽车从单纯的运输工具转变为贴心的专职司机,它能听得懂、看得见、找得到。我们希望MindVLA能为汽车赋予类似人类的认知和适应能力,将其转变为能够思考的智能体。”

理想全栈自研MindVLA 深度融合空间、语言及行为智能

基于端到端+VLM双系统架构的最佳实践,及对前沿技术的敏锐洞察,理想自研VLA模型——MindVLA。VLA是机器人大模型的新范式,其将赋予自动驾驶强大的3D空间理解能力、逻辑推理能力和行为生成能力,让自动驾驶能够感知、思考和适应环境。


MindVLA不是简单地将端到端模型和VLM模型结合在一起,所有模块都是全新设计。3D空间编码器通过语言模型,和逻辑推理结合在一起后,给出合理的驾驶决策,并输出一组Action Token(动作词元),Action Token指的是对周围环境和自车驾驶行为的编码,并通过Diffusion(扩散模型)进一步优化出最佳的驾驶轨迹,整个推理过程都要发生在车端,并且要做到实时运行。

MindVLA六大关键技术 树立全新技术范式

MindVLA打破自动驾驶技术框架设计的传统模式,使用能够承载丰富语义,且具备出色多粒度、多尺度3D几何表达能力的3D高斯(3D Gaussian)这一优良的中间表征,充分利用海量数据进行自监督训练,极大提升了下游任务性能。


理想从0开始设计和训练了适合MindVLA的LLM基座模型,采用MoE混合专家架构,引入Sparse Attention(稀疏注意力),实现模型稀疏化,保证模型规模增长的同时,不降低端侧的推理效率。基座模型训练过程中,理想加入大量3D数据,使模型具备3D空间理解和推理能力。为了进一步激发模型的空间智能,理想加入了未来帧的预测生成和稠密深度的预测等训练任务。

LLM基座模型获得3D空间智能的同时,还需要进一步提升逻辑推理能力。理想训练LLM基座模型学习人类的思考过程,让快慢思考有机结合到同一模型中,并可以实现自主切换快思考和慢思考。为了把NVIDIA Drive AGX的性能发挥到极致,MindVLA采取小词表结合投机推理,以及创新性地应用并行解码技术,进一步提升了实时推理的速度。至此,MindVLA实现了模型参数规模与实时推理性能之间的平衡。

MindVLA利用Diffusion将Action Token解码成优化的轨迹,并通过自车行为生成和他车轨迹预测的联合建模,提升在复杂交通环境中的博弈能力。同时Diffusion可以根据外部条件,例如风格指令,动态调整生成结果。为了解决Diffusion模型效率低的问题,MindVLA采用Ordinary Differential Equation(常微分方程)采样器,实现了2-3步就能完成高质量轨迹的生成。面对部分长尾场景,理想建立起人类偏好数据集,并且创新性地应用RLHF(基于人类反馈的强化学习)微调模型的采样过程,最终使MindVLA能够学习和对齐人类驾驶行为,显著提升安全下限。


MindVLA基于自研的重建+生成云端统一世界模型,深度融合重建模型的三维场景还原能力与生成模型的新视角补全,以及未见视角预测能力,构建接近真实世界的仿真环境。源于世界模型的技术积累与充足计算资源的支撑,MindVLA实现了基于仿真环境的大规模闭环强化学习,即真正意义上的从“错误中学习”。过去一年,理想自动驾驶团队完成了世界模型大量的工程优化,显著提升了场景重建与生成的质量和效率,其中一项工作是将3D GS的训练速度提升至7倍以上。


理想通过创新性的预训练和后训练方法,让MindVLA实现了卓越的泛化能力和涌现特性,其不仅在驾驶场景下表现优异,在室内环境也展示出了一定的适应性和延展性。

MindVLA赋能汽车变为专职司机 重塑用户体验

MindVLA将为用户带来全新的产品形态和产品体验,有MindVLA赋能的汽车是听得懂、看得见、找得到的专职司机。“听得懂”是用户可以通过语音指令改变车辆的路线和行为,例如用户在陌生园区寻找超市,只需要通过理想同学对车辆说:“带我去找超市”,车辆将在没有导航信息的情况下,自主漫游找到目的地;车辆行驶过程中,用户还可以跟理想同学说:“开太快了”“应该走左边这条路”等,MindVLA能够理解并执行这些指令。


“看得见”是指MindVLA具备强大的通识能力,不仅能够认识星巴克、肯德基等不同的商店招牌,当用户在陌生地点找不到车辆时,可以拍一张附近环境的照片发送给车辆,拥有MindVLA赋能的车辆能够搜寻照片中的位置,并自动找到用户。

“找得到”意味着车辆可以自主地在地库、园区和公共道路上漫游,其中典型应用场景是用户在商场地库找不到车位时,可以跟车辆说:“去找个车位停好”,车辆就会利用强大的空间推理能力自主寻找车位,即便遇到死胡同,车辆也会自如地倒车,重新寻找合适的车位停下,整个过程不依赖地图或导航信息,完全依赖MindVLA的空间理解和逻辑推理能力。

总结来说,对于用户而言,有MindVLA赋能的车不再只是一个驾驶工具,而是一个能与用户沟通、理解用户意图的智能体;对于汽车行业而言,像iPhone 4重新定义了手机,MindVLA也将重新定义自动驾驶;对于人工智能领域而言,汽车作为物理人工智能的最佳载体,未来探索出物理世界和数字世界结合的范式,将有望赋能多个行业协同发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有人问:为什么古代没有抑郁症,要被评论区笑死了

有人问:为什么古代没有抑郁症,要被评论区笑死了

奇特短尾矮袋鼠
2025-02-12 09:52:09
前河南主帅贾秀全也要“翻车”了?

前河南主帅贾秀全也要“翻车”了?

百里无心
2025-03-25 07:26:30
南海惊雷:歼-20的首次实战与科技自强的血性突围

南海惊雷:歼-20的首次实战与科技自强的血性突围

军武咖
2025-03-25 15:36:15
马科斯玩砸!杜特尔特大张旗鼓回国,挫败自己所有阴谋,败局已定

马科斯玩砸!杜特尔特大张旗鼓回国,挫败自己所有阴谋,败局已定

绝对军评
2025-03-25 08:50:09
一场16分的大败,三巨头轰然倒下,给快船让路了,老本也不多了

一场16分的大败,三巨头轰然倒下,给快船让路了,老本也不多了

体坛大辣椒
2025-03-25 11:02:34
4种鱼已被列入“致癌名单”,吃多了或致癌!再爱吃也要管住嘴

4种鱼已被列入“致癌名单”,吃多了或致癌!再爱吃也要管住嘴

肿瘤的真相与误区
2025-03-09 20:35:22
巴特勒:我永远是恶人&问题所在 这就是舆论操控

巴特勒:我永远是恶人&问题所在 这就是舆论操控

北青网-北京青年报
2025-03-25 21:31:04
又反转!金赛纶自残照片公开,关键人物出现,曝她生前被老公虐打

又反转!金赛纶自残照片公开,关键人物出现,曝她生前被老公虐打

郑丁嘉话
2025-03-25 11:26:08
婚礼现场新娘被男闺蜜叫走15分钟,回来时婚礼取消,父亲:你麦没关

婚礼现场新娘被男闺蜜叫走15分钟,回来时婚礼取消,父亲:你麦没关

红豆讲堂
2025-02-27 17:20:05
尾盘异动!000151,直线涨停

尾盘异动!000151,直线涨停

新浪财经
2025-03-25 17:05:07
万万没想到,在焦裕禄带领下防沙种的泡桐,竟制成了中国30%乐器

万万没想到,在焦裕禄带领下防沙种的泡桐,竟制成了中国30%乐器

老谢谈史
2025-03-23 16:09:33
金秀贤高雄活动取消!演出费用将全额退款,曝违约金高达3000万

金秀贤高雄活动取消!演出费用将全额退款,曝违约金高达3000万

扒虾侃娱
2025-03-25 18:16:10
狂降近20℃!明晚起有雷雨大风和雾!

狂降近20℃!明晚起有雷雨大风和雾!

上海预警发布
2025-03-25 18:20:07
中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,5种食物要少吃

中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,5种食物要少吃

今日养生之道
2025-03-25 17:42:10
厚积薄发,乌军多条战线实现突破!

厚积薄发,乌军多条战线实现突破!

史政先锋
2025-03-24 15:38:31
财神驾到!接下来7天,这三大生肖遇贵人相助,喜事连连,爱情事业双丰收,人生赢家妥妥的!

财神驾到!接下来7天,这三大生肖遇贵人相助,喜事连连,爱情事业双丰收,人生赢家妥妥的!

老六师傅
2025-03-24 21:46:27
女生穿瑜伽裤,到底是什么心理?原因太真实了!

女生穿瑜伽裤,到底是什么心理?原因太真实了!

健身S叔
2025-03-22 18:09:52
268:0全票通过!乌克兰总统要换人?一旦当选,连美国一起打

268:0全票通过!乌克兰总统要换人?一旦当选,连美国一起打

龙视国际
2025-03-24 14:52:31
我是天生阴阳眼,第一次去男友家看到他爸妈,我拉上男友赶紧逃

我是天生阴阳眼,第一次去男友家看到他爸妈,我拉上男友赶紧逃

诡谲怪谈
2025-03-21 15:25:29
恒生科技指数持续下挫 跌近4%

恒生科技指数持续下挫 跌近4%

证券时报
2025-03-25 11:45:09
2025-03-25 22:12:49
春卷 incentive-icons
春卷
关于科技、影像、生活的自留地
3011文章数 3310关注度
往期回顾 全部

科技要闻

特斯拉成立才16年盈利 李斌:我们要用11年

头条要闻

世预赛中国0-2澳洲遭3连败 赛前主帅曾称做好特殊准备

体育要闻

拿0分的NBA首发,所有人都为他叫好

娱乐要闻

陶昕然结束十年婚姻,最后合照曝光!

财经要闻

小米高位融资426亿港元 投资者心态崩了

汽车要闻

对话高新华:安全投入无上限 奇瑞的智驾答卷

态度原创

教育
家居
旅游
本地
公开课

教育要闻

谓语动词有时候不用be,用其他动词

家居要闻

精细规划 呈现空间层次感

旅游要闻

古城拉萨春意盎然

本地新闻

我为家乡举大旗|我是张三丰,谁说阜新不好玩?

公开课

李玫瑾:为什么性格比能力更重要?