网易首页 > 网易号 > 正文 申请入驻

AI应用大咖说:多相机的时空融合模型架构算法优化

0
分享至

(全球TMT2022年12月26日讯)近日,浪潮信息人工智能与高性能应用软件部自动驾驶AI研究员赵云博士,在题为《探索自动驾驶纯视觉感知精度新突破 -- 多相机的时空融合模型架构算法优化》的自动驾驶线上研讨会上,向我们揭开了这一自动驾驶感知算法的神秘面纱。

多相机多任务融合模型优势

自动驾驶汽车完成自动驾驶出行任务,离不开感知、决策、控制三大要素。其中感知系统是车辆和环境交互的纽带,相当于无人汽车的眼睛。根据所用的传感器以及传感器数量和种类等,自动驾驶感知算法可以简单的分为单传感器(单任务和多任务)模型、(同类和不同类)传感器融合模型等四类,并各有其优缺点。

自动驾驶感知的关键是3D目标检测任务,又分为基于相机、Lidar的3D目标检测,以及相机、Lidar、Radar融合等技术。尽管目前对于3D目标检测已经有不少的研究,但是在实际应用中仍然有许多的问题,其难点主要在于:

  • 遮挡,遮挡分为两种情况,目标物体相互遮挡和目标物体被背景遮挡
  • 截断,部分物体被图片截断,在图片中只能显示部分物体
  • 小目标,相对输入图片大小,目标物体所占像素点极少
  • 缺失深度信息,2D图片相对于激光数据存在信息稠密、成本低的优势,但是也存在缺失深度信息的缺点
  • 现有方式大都依赖于物体表面纹理或结构特征,容易造成混淆。

目前,基于相机的方法与基于Lidar的方法准确度差距正在缩小,而随着Lidar成本降低,融合技术在成本和准确度的平衡上存在优势。

基于多相机多任务融合模型的3D目标检测技术正是在成本优势与日益增长的准确度两相促进下得到越来越多的认可。目前,多相机多任务融合模型主要遵循特征提取、特征编码、统一BEV、特征解码和检测头五大部分。

其中,统一BEV 就是鸟瞰图,亦即将图像特征统一投射到BEV视角下,用以表示车周围环境。“统一BEV”的工作可以分为两大类,一种基于几何视觉的变换,也就是基于相机的物理原理,优势在于模型确定,难度在深度估计;另一种是基于神经网络的变换。

浪潮DABNet4D算法三大创新突破

据赵云介绍,浪潮DABNet4D算法遵循上述框架,采用基于几何视觉的变换方法,设计了端到端的模块化整体架构,通过将环视图检测统一到BEV空间,为后续的工作提供了很好的模板。

DABNet4D模型被划分为四个部分,Image-view Encoder,View-transformer,BEV-Encoder,Detection Head。其中Image-view Encoder为图像编码模块将原始图像转换为高层特征表示。 View-Transformer模块负责将图像特征转换到BEV坐标中,主要包括三个模块:深度预测模块、特征转换模块和多帧特征融合模块。BEV-Encoder & Heads主要是对融合BEV特征进行编码;Heads用来完成最终的3D目标检测任务。

创新突破一 数据样本增强

为平衡不同种类的样本数量,浪潮信息AI团队创新研发了基于3D的图像贴图技术。主要是通过从整个训练数据集中根据每个样本的3D真值标签,提取样本数据构建样本数据库。训练过程中,通过在样本数据库中采样获取备选样本集合,按照真值深度值从远至近贴图,并将对应的Lidar数据进行粘贴。

创新突破二 深度信息优化

基于图像的3D目标检测,由于摄像头拍摄的照片和视频是将原有3D空间直接投射至2D平面中,所以会丢失深度信息,由此所面临的核心问题为如何精确地估计图像中物体的深度。针对此问题,浪潮信息AI团队进行了两方面的改进工作:一是建立更复杂的深度估计网络,通过设计更深、更多参数的深度神经网络,以增大深度估计网络的预测能力和感受野;二是采用两层级联深度估计网络结构,第一层估计网络估计的深度作为特征,输入到第二层级联网络中。除了进行网络创新设计优化,在训练阶段也采用深度监督、深度补全、损失函数等优化方法。

创新突破三 四维时空融合

对于自动驾驶车辆而言,它所处的环境更像是一个动态变化的三维空间。为进一步引入车辆所处的动态中的历史,通过引入时间信息进行时序融合,提升velocity预测的精度,实现对暂时被遮挡的物体更好的跟踪效果。对此,浪潮信息AI团队做了以下几点创新:1、更精细的时空对齐操作,使前后帧特征结合的更精确。根据不同时刻车辆的位姿以及车辆、相机、Lidar坐标系的转换关系,获取不同时刻相机与指定Lidar的坐标系的转换关系,进一步减少由于采集车辆自身运动对多帧BEV特征对齐带来的影响;2、从sweep数据帧随机选取作为前一帧与当前帧进行匹配,大幅地增强数据的多样性;3、不同时序帧同步进行数据样本贴图增强,使得速度、转向等预测更精准。

致胜NuScenes自动驾驶评测

本次浪潮DABNet4D算法所登顶的自动驾驶NuScenes榜单,其数据集包含波士顿和新加坡两大城市收集的大约15小时的驾驶数据,覆盖了城市、住宅区、郊区、工业区各个场景,也涵盖了白天、黑夜、晴天、雨天、多云等不同时段不同天气状况。数据采集传感器包括了6个相机、1个激光雷达、5个毫米波雷达、以及GPS和IMU,具备360°的视野感知能力。

NuScenes数据集提供二维、三维物体标注、点云分割、高精地图等丰富的标注信息。目前,基于NuScenes数据集的评测任务主要包括3D目标检测(3D object Detection)、3D目标跟踪(3D object Tracking)、预测轨迹(prediction trajectories)、激光雷达分割(Lidar Segmentation)、全景分割和跟踪(lidar Panoptic segmentation and tracking)。其中3D目标检测任务备受研究者关注,自从NuScenes挑战赛公开以来至今,已提交220余次结果。

浪潮DABNet4D算法在训练与评测过程中使用的底层硬件支撑是浪潮NF5488A5 AI服务器。开发过程中,模型在训练集上进行单次训练运行 20 个 epochs(without CBGS),需要耗费 约360 个 GPU 小时。

而为了满足此类算法超高的AI算力需求,浪潮信息提供集群解决方案,采用 Spine-Leaf 的结构进行节点扩展,集成超 2000 GPU 卡集群,达到 90% 的扩展性。同时,该评测也是在 AIStation 的平台基础上进行开发,有效加速了浪潮DABNet4D算法的开发与训练。

自动驾驶技术发展撬动AI算力需求爆发

自动驾驶技术感知路线之争一直是行业关注的焦点,虽然特斯拉纯视觉方案在业内独领风骚,但多传感融合方案被业内视为实现自动驾驶安全冗余的关键手段。

为了更好的衡量3D检测效果,其评价指标已经从原来的2D的AP已经逐渐变为AP-3D和AP-BEV。在数据集的选择上也从KITTI逐渐变为更大和更多样的NuScenes数据集。

未来,基于LiDAR、相机等多源感知融合算法将有力地提升模型的检测精度,同时,Occupancy network、Nerf等先进算法模型也会逐步应用于自动驾驶感知模型的开发与训练中。

自动驾驶数据量急剧增大、自动驾驶感知模型复杂度逐步提升,以及模型更新频率逐渐加快,都将推动自动驾驶的蓬勃发展,也必然带来更大的模型训练算力需求。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泰山要换教练了,超老师:韩鹏萌生退意,李源一赛季要报销

泰山要换教练了,超老师:韩鹏萌生退意,李源一赛季要报销

建哥说体育
2026-05-31 10:31:52
乙肝患者新希望!GSK新药三期成功,中国亚组治愈率高达35%

乙肝患者新希望!GSK新药三期成功,中国亚组治愈率高达35%

摩熵医药
2026-05-29 15:16:54
比亚迪吹爆璇玑A3:完全自研、中国最强!评论区一点面子都不给

比亚迪吹爆璇玑A3:完全自研、中国最强!评论区一点面子都不给

谭谈社会
2026-05-29 16:29:54
抢七大战4分4犯规!切特彻底变成文玩,2.39亿美金顶薪即将生效

抢七大战4分4犯规!切特彻底变成文玩,2.39亿美金顶薪即将生效

世界体育圈
2026-05-31 18:41:33
82万华人拿美国绿卡却不入籍?答案让人意外却在情理之中

82万华人拿美国绿卡却不入籍?答案让人意外却在情理之中

老特有话说
2026-05-31 16:21:56
沉寂3天后,伊朗报复来了,美军基地被炸,特朗普警告阿曼守规矩

沉寂3天后,伊朗报复来了,美军基地被炸,特朗普警告阿曼守规矩

健身狂人
2026-05-31 21:27:27
大陆已行动,没收台当局“治权”,不到24小时,郑丽文立军令状

大陆已行动,没收台当局“治权”,不到24小时,郑丽文立军令状

楠楠自语
2026-05-31 19:00:34
张雪机车车手德比斯阿拉贡站两获第八,冲击总冠军仍有希望

张雪机车车手德比斯阿拉贡站两获第八,冲击总冠军仍有希望

北青网-北京青年报
2026-05-31 22:02:17
你见过最惨的人生有多惨?网友:不会有人经历这些还不疯吧!

你见过最惨的人生有多惨?网友:不会有人经历这些还不疯吧!

夜深爱杂谈
2026-05-20 08:02:52
男子糖化从8.7降到5.2!医生点赞:坚持5个好习惯,胰岛慢慢修复

男子糖化从8.7降到5.2!医生点赞:坚持5个好习惯,胰岛慢慢修复

坠入二次元的海洋
2026-05-30 00:00:34
何猷君也没想到,婚礼细节公布到24小时,让人恶心的一幕就发生了

何猷君也没想到,婚礼细节公布到24小时,让人恶心的一幕就发生了

阿凫爱吐槽
2026-05-31 03:44:48
不听大陆劝告执意访美,郑丽文人未启程,就遭美方公开敲打!

不听大陆劝告执意访美,郑丽文人未启程,就遭美方公开敲打!

吴王旅行ing
2026-05-31 19:11:10
最新:乌克兰在红军村六地发起进攻!收复新谢利夫卡

最新:乌克兰在红军村六地发起进攻!收复新谢利夫卡

项鹏飞
2026-05-31 21:37:00
赛前两个月紧急叫停!WTT深夜连发两文道歉,没樊振东真撑不住?

赛前两个月紧急叫停!WTT深夜连发两文道歉,没樊振东真撑不住?

酷侃体坛
2026-05-31 21:42:56
新娘长相高级,身上一件首饰都没有,网友意难平:美貌单出可惜了

新娘长相高级,身上一件首饰都没有,网友意难平:美貌单出可惜了

千言娱乐记
2025-12-05 23:58:41
回顾:上海杀妻案朱晓东被处死刑,狱中对妻子的评价,让人胆寒

回顾:上海杀妻案朱晓东被处死刑,狱中对妻子的评价,让人胆寒

莫地方
2026-05-19 01:55:03
阿奇姆彭战旧主脚软了,吕焯毅失误多 大连想保住前3 外援必须换

阿奇姆彭战旧主脚软了,吕焯毅失误多 大连想保住前3 外援必须换

替补席看球
2026-05-31 21:39:07
郭正亮给了台湾“最好”出路?一国两制改1个字,或可统后不驻军

郭正亮给了台湾“最好”出路?一国两制改1个字,或可统后不驻军

安安说
2026-05-31 11:00:45
研究发现:吃一根香蕉,就等于给血脂添一次堵,真的假的

研究发现:吃一根香蕉,就等于给血脂添一次堵,真的假的

健康之光
2026-05-30 17:59:58
35年,贺子珍的弟弟贺敏仁被错杀,毛主席得知后:他还只是个孩子

35年,贺子珍的弟弟贺敏仁被错杀,毛主席得知后:他还只是个孩子

大江
2026-05-31 21:39:09
2026-05-31 22:43:00
全球TMT incentive-icons
全球TMT
全球企业动态新媒体矩阵账号。TMT人都在关注的科技媒体、聚焦科技、媒体、通信行业
22377文章数 11721关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

女子在家洗澡浑身赤裸 一醉汉闯入拖她进房间欲"猥亵"

头条要闻

女子在家洗澡浑身赤裸 一醉汉闯入拖她进房间欲"猥亵"

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

艺术
本地
手机
房产
公开课

艺术要闻

16位欧美画家笔下的儿童肖像

本地新闻

用剪纸的方式,打开江苏扬州

手机要闻

爆了!小米这款机型销量破200万,定价太夸张

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版