特斯拉AI Day最硬核的解读来了!清华博导分析6大关键点
卡门精选2022-10-11
行业大公司
不靠激光雷达和高精地图,特斯拉的底气都在这里。

本文来自微信公众号“车东西”(ID:chedongxi),作者:赵行 ,编辑:晓寒,未来汽车日报经授权发布。

不靠激光雷达和高精地图,特斯拉的底气都在这里。

在刚刚过去的国庆节,特斯拉举办了第二届AI Day活动,在活动上除了展示了其人形机器人Optimus的原型机、自研的Dojo超算,还重点介绍了其自动驾驶FSD的更多细节。

其自动驾驶相关负责人非常深入的介绍了特斯拉在感知、规划、矢量地图、自动标注、仿真和基础设施等方面的布局,非常全面的展示了特斯拉FSD算法进展。

发布会结束后,也引起了国内众多自动驾驶相关专家学者的关注。清华大学清华大学交叉信息研究院助理教授,博士生导师赵行博士也非常细致的梳理的特斯拉AI Day上展示的一些关键技术和进展。

赵行2015年在MIT联合开发了第一门自动驾驶课程,后被推广到全世界十余所高校进行应用教学,并在2015年获得ICCP最佳论文奖。其在2019年博士毕业于麻省理工学院。博士期间师从MIT AI+决策系主任Antonio Torralba教授,主要研究方向为计算机视觉,多模态和多传感器的机器学习。

▲清华大学清华大学交叉信息研究院助理教授,博士生导师赵行博士

也是在2019年,赵行加入Waymo担任研究科学家,提出了自动驾驶行为预测中一系列框架型的工作,为行业大多数公司所使用或借鉴。其本人也入选2020年福布斯中国U30科学精英榜。

2021年加入清华大学担任助理教授,研究涵盖自动驾驶的整个算法栈,以及多模态和多传感器的机器学习。在自动驾驶方面,提出了“以视觉为中心的自动驾驶VCAD”方案,被业界广泛采纳,并落地应用。目前在清华大学组建和指导MARS Lab课题组,主要研究兴趣为自动驾驶,多模态学习和计算机视觉。在国际顶级期刊和会议发表论文共计40余篇,Google Scholar引用共计8000余次。研究工作曾被BBC,NBC, 麻省理工科技评论等多家主流科技媒体报道。

可以说,赵行博士对于自动驾驶方面有非常深入的研究,对于特斯拉AI Day上展示的技术也有非常深刻的认知。在获得了赵行博士的同意后,我们转载了其关于特斯拉AI Day活动的分析文章。

以下为赵行博士原文,为方便理解,车东西做了一些编辑:

9月30日(美国时间)的Tesla AI Day,特斯拉发布了初版的Optimus机器人,自动驾驶FSD的更多细节也慢慢浮现在大众的眼前。我整理了Tesla FSD算法方面值得重点关注的进展与大家分享。

Ashok在一开场就讲到,特斯拉是一个典型的AI公司,过去一年训练了75000个神经网络,意味着每8分钟就要出一个新的模型,共有281个模型用到了特斯拉的车上。接下来我们分几个方面来解读特斯拉FSD的算法和模型进展。

1、感知 Occupancy Network 

2、规划 Interactive Planning 

3、矢量地图 Lanes Network 

4、自动标注 Autolabeling 

5、仿真 Simulation 

6、基础设施 Infrastructure 

本文福利: 特斯拉AI Day大秀自动驾驶技术 ,对话框回复【车东西0419】下载演讲速记。 

感知 Occupancy Network

特斯拉今年在感知方面的一个重点技术就是Occupancy Network (占据网络)。研究机器人技术的同学肯定对occupancy grid不会陌生,occupancy表示空间中每个3D体素(voxel)是否被占据,可以是0/1二元表示,也可以是[0, 1]之间的一个概率值。

为什么估计occupancy对自动驾驶感知很重要呢?因为在行驶中,除了常见障碍物如车辆、行人,我们可以通过3D物体检测的方式来估计他们的位置和大小,还有更多长尾的障碍物也会对行驶产生重要影响。例如:1.可变形的障碍物,如两节的挂车,不适合用3D bounding box来表示;2.异形障碍物,如翻倒的车辆,3D姿态估计会失效;3.不在已知类别中的障碍物,如路上的石子、垃圾等,无法进行分类。因此,我们希望能找到一种更好的表达来描述这些长尾障碍物,完整估计3D空间中每一个位置的占据情况(occupancy),甚至是语义(semantics)和运动情况(flow)。 

特斯拉用下图的具体例子来展现Occupancy Network的强大。不同于3D的框,occupancy这种表征对物体没有过多的几何假设,因此可以建模任意形状的物体和任意形式的物体运动。图中展示了一个两节的公交车正在启动的场景,蓝色表示运动的体素,红色表示静止的体素,Occupancy Network精确地估计出了公交车的第一节已经开始运动,而第二节还处于静止状态。 

▲对正在启动的两节公交车的occupancy估计,蓝色表示运动的体素,红色表示静止的体素

Occupancy Network的模型结构如下图所示。首先模型利用RegNet和BiFPN从多相机获取特征,这个结构跟去年的AI day分享的网络结构一致,说明backbone变化不大。然后模型通过带3D空间位置的spatial query对2D图像特征进行基于attention的多相机融合。如何实现3D spatial query和2D特征图之间的联系呢?具体融合的方式图中没有细讲,但有很多公开的论文可以参考。我认为最有可能采取的是两种方案之一,第一种叫做3D-to-2D query,即根据每个相机的内外参将3D spatial query投影到2D特征图上,提取对应位置的特征。该方法在DETR3D[1]中提出,BEVFormer[2]和PolarFormer[3]也采取了该思想。第二种是利用positional embedding来进行隐式的映射,即将2D特征图的每个位置加上合理的positional embedding,如相机内外参、像素坐标等,然后让模型自己学习2D到3D特征的对应关系,该方法在论文PETR中提出[4]。再接下来模型进行时序融合,实现的方法是根据已知的自车位置和姿态变化,将3D特征空间进行拼接。 

▲Occupancy Network结构

特征融合后,一个基于deconvolution的解码器会解码出每个3D空间位置的occupancy,semantics以及flow。发布会中强调,由于这个网络的输出是稠密(dense)的,输出的分辨率会受到内存的限制。我相信这也是所有做图像分割的同学们遇到的一大头疼的问题,更何况这里做的是3D分割,但自动驾驶对于分辨率度的要求却很高(~10cm)。因此,受到神经隐式表示(neural implicit representation)的启发,模型的最后额外设计了一个隐式queryable MLP decoder,输入任意坐标值(x,y,z),可解码出该空间位置的信息,即occupancy,semantics,flow。该方法打破了模型分辨率的限制,我认为是设计上的一个亮点。 

学术界在视觉occupancy方面的工作不多,我关注到的最相关的一篇论文是CVPR2022上的MonoScene[5],从单目重建三维体素并且估计出被遮挡的部分,感兴趣的可以去精读。 

规划 Interactive Planning

规划是自动驾驶的另一个重要模块,特斯拉这次主要强调了在复杂路口对交互(interaction)进行建模。为什么交互建模如此重要呢?因为其他车辆、行人的未来行为都有一定的不确定性,一个聪明的规划模块要在线进行多种自车和他车交互的预测,并且对每一种交互带来的风险进行评估,并最终决定采取何种策略。 

特斯拉把他们采用的规划模型叫做交互搜索(Interaction Search),它主要由三个主要步骤组成:树搜索,神经网络轨迹规划和轨迹打分。 

1、树搜索是轨迹规划常用的算法,可以有效地发现各种交互情形找到最优解,但用搜索的方法来解决轨迹规划问题遇到的最大困难是搜索空间过大。例如,在一个复杂路口可能有20辆与自车相关,可以组合成超过100种交互方式,而每种交互方式都可能有几十种时空轨迹作为候选。因此特斯拉并没有采用轨迹搜索的方法,而是用神经网络来给一段时间后可能到达的目标位置(goal)进行打分,得到少量较优的目标。 

2、在确定目标以后,我们需要确定一条到达目标的轨迹。传统的规划方法往往使用优化来解决该问题,解优化并不难,每次优化大约花费1到5毫秒,但是当前面步骤树搜索的给出的候选目标比较多的时候,时间成本我们也无法负担。因此特斯拉提出使用另一个神经网络来进行轨迹规划,从而对多个候选目标实现高度并行规划。训练这个神经网络的轨迹标签有两种来源:第一种是人类真实开车的轨迹,但是我们知道人开的轨迹可能只是多种较优方案中的一种,因此第二种来源是通过离线优化算法产生的其他的轨迹解。 

3、在得到一系列可行轨迹后,我们要选择一个最优方案。这里采取的方案是对得到的轨迹进行打分,打分的方案集合了人为制定的风险指标,舒适指标,还包括了一个神经网络的打分器。 

通过以上三个步骤的解耦,特斯拉实现了一个高效的且考虑了交互的轨迹规划模块。基于神经网络的轨迹规划可以参考的论文并不多,我有发表过一篇与该方法比较相关的论文TNT[5],同样地将轨迹预测问题分解为以上三个步骤进行解决:目标打分,轨迹规划,轨迹打分。感兴趣的读者可以前往查阅细节。此外,我们课题组也在一直探究行为交互和规划相关的问题,也欢迎大家关注我们最新的工作InterSim[6]。 

▲Interaction Search规划模型结构

矢量地图 Lanes Network

个人觉得本次AI Day上另一大技术亮点是在线矢量地图构建模型Lanes Network。有关注去年AI Day的同学们可能记得,特斯拉在BEV空间中对地图进行了完整的在线分割和识别。那么为什么还要做Lanes Network呢?因为分割得到的像素级别的车道不足够用于轨迹规划,我们还需要得到车道线的拓扑结构,才能知道我们的车可以从一条车道变换到另一条车道。 

我们先来看看什么是矢量地图,如图所示,特斯拉的矢量地图由一系列蓝色的车道中心线centerline和一些关键点(连接点connection,分叉点fork, 并道点merge)组成,并且通过graph的形式表现了他们的连接关系。 

▲矢量地图,圆点为车道线关键点,蓝色为车道中心线

Lanes Network在模型结构上,是感知网络backbone基础上的一个decoder。相比解码出每个体素的occupancy和语义,解码出一系列稀疏的、带连接关系的车道线更为困难,因为输出的数量不固定,此外输出量之间还有逻辑关系。 

特斯拉参考了自然语言模型中的Transformer decoder,以序列的方式自回归地输出结果。具体实现上来说,我们首先要选取一个生成顺序(如从左到右,从上到下),对空间进行离散化(tokenization)。然后我们就可以用Lanes Network进行一系列离散token的预测。如图所示,网络会先预测一个节点的粗略位置的(index:18),精确位置(index:31),然后预测该节点的语义("Start",即车道线的起点),最后预测连接特性,如分叉/并道/曲率参数等。网络会以这样自回归的方式将所有的车道线节点进行生成。 

▲Lanes Network网络结构

我们要注意到,自回归的序列生成并不是语言Transformer模型的专利。我们课题组在过去几年中也有两篇生成矢量地图的相关论文,HDMapGen[7]和VectorMapNet[8]。HDMapGen采用带注意力的图神经网络(GAT)自回归地生成矢量地图的关键点,和特斯拉的方案有异曲同工之妙。而VectorMapNet采用了Detection Transformer(DETR)来解决该问题,即用集合预测(set prediction)的方案来更快速地生成矢量地图。后续我们会有更详细的解读文章放出,也欢迎大家关注。 

▲HDMapGen[7] 矢量地图生成结果

▲VectorMapNet[8] 矢量地图生成结果

自动标注 Autolabeling

自动标注也是特斯拉在去年AI Day就讲解过的一种技术,今年的自动标注着重讲解了Lanes Network的自动标注。特斯拉的车每天就能产生500000条驾驶旅程(trip),利用好这些驾驶数据能够更好地帮助进行车道线的预测。 

特斯拉的自动车道线标注有三个步骤: 

1、通过视觉惯性里程计(visual inertial odometry)技术,对所有的旅程进行高精度轨迹估计。 

2、多车多旅程的地图重建,是该方案中的最关键步骤。该步骤的基本动机是,不同的车辆对同一个地点可能有不同空间角度和时间的观测,因此将这些信息进行聚合能更好地进行地图重建。该步骤的技术点包括地图间的几何匹配和结果联合优化。 

3、对新旅程进行车道自动标注。当我们有了高精度的离线地图重建结果后,当有新的旅程发生时,我们就可以进行一个简单的几何匹配,得到新旅程车道线的伪真值(pseudolabel)。这种获取伪真值的方式有时候(在夜晚、雨雾天中)甚至会优于人工标注。 

▲Lanes Network自动标注。

仿真 Simulation

视觉图像的仿真是近年来计算机视觉方面的热门方向。在自动驾驶中,视觉仿真的主要目的,是有针对性地生成一些少见场景,从而免掉到真实路测中去碰运气的必要。例如,特斯拉常年头疼的路中央横着大卡车的场景。但是视觉仿真并不是一个简单的问题,对于一个复杂的路口(旧金山的Market Street),利用传统建模渲染的方案需要设计师2周的时间。而特斯拉通过AI化的方案,现在只需要5分钟。 

▲视觉仿真重建的路口。

具体来说,视觉仿真的先决条件是要准备自动标注的真实世界道路信息 ,和丰富的图形素材库。然后依次进行以下步骤: 

1、路面生成:根据路沿进行路面的填充,包括路面坡度、材料等细节信息。 

2、车道线生成:将车道线信息在路面上进行绘制。 

3、植物和楼房生成:在路间和路旁随机生成和渲染植物和房屋。生成植物和楼房的目的不仅仅是为了视觉的美观,它也同时仿真了真实世界中这些物体引起的遮挡效应。 

4、其他道路元素生成:如信号灯,路牌,并且导入车道和连接关系。 

5、加入车辆和行人等动态元素。 

基础设施 Infrastructure

最后,我们简单说说特斯拉这一系列软件技术的基础,就是强大的基础设施。特斯拉的超算中心拥有14000个GPU,共30PB的数据缓存,每天都有500000个新的视频流入这些超级计算机。为了更高效地处理这些数据额,特斯拉专门开发了加速的视频解码库,以及加速读写中间特征的文件格式.smol file format。此外,特斯拉还自研了超算中心的芯片Dojo,我们在这里不做讲解。 

▲视频模型训练的超算中心

总结

随着近两年特斯拉AI Day的内容发布,我们慢慢看清了特斯拉在自动(辅助)驾驶方向上的技术版图,同时我们也看到特斯拉自己也在不停地自我迭代,例如从2D感知,BEV感知,到Occupancy Network。自动驾驶是一个万里长征,是什么在支撑特斯拉技术的演进呢?我想是三点:视觉算法带来的全场景理解能力,强大算力支持的模型迭代速度,海量数据带来的泛化性。这不就是深度学习时代的三大支柱吗? 

目前,赵行博士的课题组也在做和特斯拉类似的事情,在过去两年做了一系列视觉为主自动驾驶的工作,简称VCAD,Vision-Centric Autonomous Driving(https://vcad-ai.github.io/)。 

视觉为中心的自动驾驶VCAD (Vision-Centric Autonomous Driving)是其课题组提出的一个自动驾驶感知技术范式,同时是一个开源开放的研究课题。这个技术范式的特点是,主要利用车载的环视相机来实现自动驾驶对环境的感知和认知,选择性地融合其他传感器作为安全性辅助。 

相比过分依赖激光雷达和高精度地图的自动驾驶感知技术,以视觉为中心的技术有更好的泛化能力,各种规格和价位的车都可以使用。现阶段,赵行博士的课题组正在招生。 

参考文献

[1] Wang, Y., Guizilini, V.C., Zhang, T., Wang, Y., Zhao, H. and Solomon, J., 2022, January. Detr3d: 3d object detection from multi-view images via 3d-to-2d queries. In Conference on Robot Learning (pp. 180-191). PMLR. 

[2] Li, Z., Wang, W., Li, H., Xie, E., Sima, C., Lu, T., Yu, Q. and Dai, J., 2022. BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. arXiv preprint arXiv:2203.17270. 

[3] Jiang, Y., Zhang, L., Miao, Z., Zhu, X., Gao, J., Hu, W. and Jiang, Y.G., 2022. PolarFormer: Multi-camera 3D Object Detection with Polar Transformers. arXiv preprint arXiv:2206.15398. 

[4] Liu, Y., Wang, T., Zhang, X. and Sun, J., 2022. Petr: Position embedding transformation for multi-view 3d object detection. arXiv preprint arXiv:2203.05625. 

[5] Cao, A.Q. and de Charette, R., 2022. MonoScene: Monocular 3D Semantic Scene Completion. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 3991-4001). 

[6] Zhao, H., Gao, J., Lan, T., Sun, C., Sapp, B., Varadarajan, B., Shen, Y., Shen, Y., Chai, Y., Schmid, C. and Li, C., 2020. Tnt: Target-driven trajectory prediction. In Conference on Robot Learning 2020, arXiv:2008.08294 

[7] InterSim, https://tsinghua-mars-lab.github.io/InterSim/ 

[8] Mi, L., Zhao, H., Nash, C., Jin, X., Gao, J., Sun, C., Schmid, C., Shavit, N., Chai, Y. and Anguelov, D., 2021. HDMapGen: A hierarchical graph generative model of high definition maps. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 4227-4236). 

[9] Liu, Y., Wang, Y., Wang, Y. and Zhao, H., 2022. VectorMapNet: End-to-end Vectorized HD Map Learning. arXiv preprint arXiv:2206.08920. 

该文观点仅代表作者本人,未来汽车日报系信息发布平台,未来汽车日报仅提供信息存储空间服务。
最新快讯
2025款极氪001和007上市,新增端到端大模型应用
2024-08-20

8月13日,2025款的极氪001和极氪007正式上市。这两款新车官方起售价分别为25.90万元和20.99万元。2025款极氪001与极氪007,搭载了极氪智能科技最新的技术成果。全栈自研的第二代金砖电池,最大充电倍率高达5.5C,从10%充至80%仅需10分半钟,超越了传统三元锂电池。同时,极氪OS智能座舱系统也迎来了全面升级,正式更名为极氪AI OS,Eva进化为AI Eva。在智能驾驶领域,极氪全栈自研的浩瀚智驾系统迈入2.0时代,启动了端到端大模型的应用,优先实现了泊车和路口场景的端到端进化。此外,极氪还率先推出了城市NZP通勤模式,未来将逐步开通城市NZP和城市NZP+,最终实现从车位到车位的全场景城市智能驾驶体验。在智能驾驶方面,2025款极氪001同样带来了升级,首发搭载的浩瀚智驾2.0系统,基于激光雷达和双OrinX智驾芯片的智能硬件方案,实现了系统底层能力和用户体验的全面升级。基于全场景的端到端泊车能力,浩瀚智驾2.0的泊车时间最快可缩短至23秒,且泊车手法更加类人化。同时,该系统还带来了记忆泊车功能,用户只需一次记忆即可实现不限楼层、不限车位的自动泊车服务。

中国超跑首次批量出海,昊铂SSR海外版正式下线
2024-08-02

8月1日,昊铂SSR海外版正式下线,标志着中国超跑可以实现批量出海,树立全球造车科技新高度。超跑,被誉为“汽车工业皇冠上的明珠”,昊铂SSR的量产,不仅实现了打破西方对超跑的技术垄断,同时实现了对外输出超跑的产品、技术、文化和高端品牌的出海,实现了中国汽车工业新的飞跃。昊铂SSR去年10月正式上市以来,以超跑为载体,从研发、设计、试制试验、智造、产业链等,全方位提升中国汽车工业能力,也为中国汽车运动文化注入新力量,促进中国体育文化发展,也推动汽车文化的普及,助力中国从汽车大国迈向汽车强国。昊铂秉持低调务实、保持热诚的作风,征服了全球最顶尖的同行。汽车设计领域的璀璨明星Pontus Fontaeus,因其与法拉利、布加迪和兰博基尼等豪华车品牌的卓越合作而赫赫有名。如今,这位设计巨匠选择与昊铂携手,亲手打造出昊铂SSR这件璀璨的艺术品。伴随着昊铂全球化战略,凝结了中国工业最高技术水准的昊铂SSR,来到了全球用户的面前。去年昊铂SSR海外首秀,在国际舞台上也得到了超跑爱好者的喜爱。在泰国车展,昊铂SSR创下中国汽车出口史上“最高单价”的记录。(未来汽车日报)

40万公里神盾短刀电池健康度达90.5%
2024-07-29

7月29日,吉利对一块历经921次充放电(约40万公里行驶里程)的神盾短刀电池包进行了容量检测,结果显示健康度仍然高达90.5%。而同级产品搭载的电池包,在完成500次充放电之后,健康度就衰减到了80%,寿命远低于神盾短刀电池包。 同时,吉利还对一辆行驶里程超30万公里的银河E5耐久测试车进行了电池包拆解。拆解结果显示电池包的结构依然完整、防护完好。 8月3日,搭载神盾短刀电池的银河E5即将全球上市,并实现上市即交付。(未来汽车日报)

13.58万元起售,宋L DM-i正式上市
2024-07-26

7月25日,比亚迪王朝全新中级SUV宋L DM-i在开封上市,新车基于新技术、新平台、新标准打造,百公里亏电油耗低至3.9L,满油满电综合续航超1500km,以“大宋”之名开创SUV油耗3时代,颠覆用户对中级SUV的油耗续航认知。宋L DM-i此次推出纯电续航里程75KM、112KM和160KM三个版本,共5款车型,售价13.58万-17.58万元。极致低能耗带来超长续航,宋L DM-i满油满电综合续航达1500km,宋L DM-i基于新一代插混整车平台打造,引领中级SUV向更优越驾乘空间和更高级驾乘体验进化。新车长宽高分别为:4780*1898*1670毫米,轴距达2782毫米,比途观L Pro(4735*1842*1682毫米)更长更宽,带来更宽奢的空间体验。纯平后排地板、超宽横向空间,让后排中座成为“C位”,加上宽舒云感座椅,带来前排头等舱、后排大沙发的舒适出行体验。超大后备箱可轻松放下全家行李,更可纯平放倒变身双人床,不管全家购物还是惬意露营,都能轻松满足。(未来汽车日报)

售价14.99万元-21.29万元,深蓝S07正式上市
2024-07-26

7月26日消息,7月25日,深蓝汽车全球战略车型“深蓝S07”正式上市,共推出增程加纯电10款配置车型,售价区间14.99万元-21.29万元,同时全系车型限时优惠1万元,其中215Max增程版、215Max乾崑智驾ADS SE版、215Pro增程版为深蓝S7经典再升级版本。深蓝S07左手深蓝超级增程,右手华为乾崑智能,在20万级中型SUV市场,携20大同级首发、50大同级领先的科技配置,打造同级领先科技含金量。随着的深蓝S07上市,意味着智能驾驶技术步入普及化新阶段,不仅满足了用户的智驾需求,也重新定义了智驾体验的价值感。华为乾崑智驾采用主视觉方案,与特斯拉纯视觉逻辑相同,在决策和规划时更加类人化,行驶轨迹更接近人类驾驶,拥有更高通行效率。但在华为乾崑智驾背后,有华为大数据模型为支撑,这一点与特斯拉纯视觉方案截然不同,实现了对驾驶环境的全方位感知和精准决策。同时,大数据模型还具备强大的学习和迭代能力,能够不断优化算法模型,提升驾驶辅助的精度和安全性。特斯拉在复杂场景下的理解能力和决策精度上,往往难以与华为乾崑智驾相媲美,这也是深蓝S07比肩特斯拉的底气。(未来汽车日报)

查看更多快讯
最新要闻
广汽埃安第二代AION V上市,直指全球市场
售价区间12.98万-18.98万元。
2024-07-26
2024第二届智能座舱车载显示与感知大会
2024年7月12日,由盖世汽车主办的2024第二届智能座舱车载显示与感知大会在上海圆满落幕!论坛为期两天,线上线下同步进行。
2024-07-18
2024汽车数字钥匙技术论坛
​2024年7月10日,盖世汽车2024汽车数字钥匙技术论坛在上海圆满落幕!
2024-07-18
上半年销量突破133.4万辆,长安汽车储备竞争粮草
阿维塔品牌下半年将推出增程产品。
2024-07-10
顶配售价不超20万,零跑C16能否打开新的增长点?
以性价比抢占市场。
2024-07-08
试驾翼真L380:用“大空间”破局
官方指导价37.99万元-47.99万元。
2024-07-05