FSD V9大规模推送,毫米波、激光雷达统统不要,特斯拉坚持纯视觉的底气何在?
卡门精选2021-07-13
自动驾驶大公司
打造一台全自动驾驶汽车,到底需要哪些核心技术?

本文来自微信公众号“汽车之心”(ID:Auto-Bit),作者:叶方,未来汽车日报经授权发布。

打造一台全自动驾驶汽车,到底需要哪些核心技术?

现在来看,各家公司和研究人员似乎对这个问题有不小分歧。

有人相信单纯的摄像头与计算机视觉就能解决战斗,但也有人认为计算机视觉和先进传感器缺一不可。

特斯拉则是纯视觉方案的坚定信徒。

在今年的 CVPR(计算视觉与模式识别大会)上,特斯拉首席 AI 科学家 Andrej Karpathy 道出了特斯拉如此「执拗」的原因。

在这次的 CVPR 上,Karpathy 还详细介绍了特斯拉是如何基于深度学习开发自动驾驶系统。

除此之外,他还解释了为什么特斯拉基于视觉就能让自动驾驶梦想成真。

就在 7 月 10 日,特斯拉开始在美国地区正式推送纯视觉版的 FSD Beta V9 版本。

纯视觉版的特斯拉,完全依靠车辆前端摄像头来实现自动驾驶。

有海外车主在夜晚体验了这一版本,还有车主在雾蒙蒙的街道上自由顺畅穿行。总体而言,车辆的表现较之前拥有更平滑的加速和减速,转弯时也显得更加自信。

先是声称不用激光雷达,而后又宣布在量产车上移除毫米波雷达,特斯拉坚持纯视觉自动驾驶的底气来自哪里?

通用计算视觉系统

这一切要从深度神经网络说起。

深度神经网络是自动驾驶系统的主干技术之一。

神经网络会分析车载摄像头采集到的数据,了解道路、标牌、车辆、障碍以及行人的状况。

不过,深度学习并非万无一失,在检测图像中的物体时,这项技术也会犯错。这也是大多数自动驾驶公司,包括领头羊 Waymo 在内,选择用激光雷达来搭建三维地图的原因。

激光雷达能为神经网络提供更丰富的信息,以便填补在神经网络上的数据空白。

然而,将激光雷达融入整个自动驾驶系统,也没你想象的那么容易。

「你得用激光雷达提前对周边环境进行扫描,随后生成高精地图。在这之后还要插入所有车道、连接方式以及各种交通信号灯。」Karpathy 说道。「在测试时,你只需在高精地图上进行定位,就可以自动驾驶了。」

遗憾的是,用户说走就走的愿望并没有那么容易实现,为自动驾驶汽车打造无处不在的高精地图非常困难。

「只要规模一大,采集、搭建和维护这些高精地图就变成了不可能完成的任务,」Karpathy 说道。「更别说高精地图的实时更新了。」

在特斯拉的自动驾驶方案中,并没有出现激光雷达和高精地图。

Karpathy 指出,「所有发生的事情都会被车上的 8 颗摄像头记录下来。」

自动驾驶系统必须弄清楚车道在哪,信号灯在哪,它们状态如何,与车辆间有何关系。

最重要的是,它必须在没有任何导航信息的路况下完成这一切。

Karpathy 强调,基于视觉的自动驾驶,在技术角度更难实现,因为它要求神经网络仅仅基于视频输入就能达到超强性能的输出。「不过,一旦取得了突破,就能获得通用视觉系统,方便部署在地球的任何地方。」

有了通用视觉系统,车辆就不再需要什么补充信息了。

Karpathy 认为,特斯拉正在朝这个方向努力。在此之前,特斯拉自动驾驶依靠的是毫米波雷达与摄像头双重冗余,而现在的新车则直接砍掉了毫米波雷达。

「我们抛弃了毫米波雷达,车辆只靠视觉来行驶。」Karpathy 表示。

在他看来,特斯拉的深度学习系统已经比毫米波雷达强一百倍,现在的毫米波雷达已经开始拖后腿了。

监督学习

对于纯计算视觉方案,行业里的主流声音是,谁也说不清神经网络能否在没有激光雷达深度地图的情况下完成测距和深度估算。

「人类驾驶依靠的是视觉,所以我们的神经网络是可以处理视觉输入,并以此理解周边物体深度与速度的。」Karpathy 解释道。「不过最大问题在于,合成的神经网络能否做到这一点。我认为,通过过去几个月的工作,特斯拉内部已经达成明确共识,我们训练出的神经网络能担此大任。」

特斯拉工程师想打造的深度学习系统,除了要处理深度、速度和加速度信息,还要同时进行目标探测。

在他们看来,这是监督学习的问题,即神经网络在对标记数据进行训练后,学习目标探测及其相关属性。

为了训练深度学习架构,特斯拉团队需要一个由数以百万计视频组成的庞大数据集,并仔细标记其中的目标及其属性。

当然,为自动驾驶汽车创建数据集也颇为棘手,工程师们必须确保数据集有多样化的道路设置和不经常出现的边缘情况。

Karpathy 表示:「以我的经验来看,如果你有一个干净且多样化的大型数据集,并以此为基础训练一个庞大的神经网络,成功是有保证的」。

会自动打标签的数据集

借助数百万辆「全副武装」的特斯拉电动车,特斯拉在视觉深度学习模型的训练上有着得天独厚的数据优势。

目前,特斯拉的自动驾驶团队已经积累了 1.5PB 的海量数据,包括 100 万个 10 秒的视频和 60 亿个带有包围框与深度、速度标签的目标。

不过,给这样的数据集打标签是一个巨大的挑战。

一种方法是通过数据标签公对其进行人工标注。这需要花费大量的人工与时间。

相反,特斯拉团队使用了一种自动标记的技术。

由于数据集是离线标记的,因此神经网络可以来回观看视频,将它们的预测与事实进行比较,并不断调整参数。

这与测试时的推理就形成了鲜明对比。

在测试时一切都在实时发生,深度学习模型无法进行追溯。

离线标记还使工程师们能够应用非常强大且计算密集型的物体检测网络,这些网络无法部署在汽车上,也不能用于实时、低延迟的应用。

同时,他们还使用雷达传感器数据来进一步验证神经网络的推断,以上种种都提高了标签网络的精度。

「离线有离线好处,在数据融合上你可以做得更好,」Karpathy 说道。「此外,你还能让人类参与进来,他们可以进行更精准的验证、编辑等工作。」

Karpathy 在 CVPR 上展示的视频显示,目标探测网络在穿过障碍、灰尘和云雪时能维持较为一致的水准。

不过,他并没有明确解释自动标签系统到底需要多少人力来进行最终修正。但可以肯定的是,人类的参与,在引导自动标签系统向正确的方向发展上发挥了关键作用。

另外,在开发数据集时,特斯拉团队还发现,有 200 多个触发因素表明目标探测需要不断调整。

这些问题包括不同摄像头探测结果的不一致,或者摄像头和雷达之间探测结果不一致。他们还确定了可能需要特别注意的场景,如隧道进出和顶部有物体的汽车。

特斯拉花了四个月的时间来开发和掌握这些触发因素。

随着标签网络逐步迭代,「影子模式」中也多了新的功能。

这意味着标签网络真正进入了消费者的车辆中,而且是在不向汽车发出指令的情况下默默运行。

在后端,特斯拉工程师会拿这一网络的输出与传统网络、雷达和司机的行为进行比较。

特斯拉团队经历了七次数据工程迭代。

他们起先从一个初始数据集开始训练他们的神经网络。

随后,他们又在真车的影子模式中整合了深度学习,并使用触发因素来检测不一致的地方、错误和特殊情况。

接着再对错误进行修订、纠正。

如果有必要,他们还会将新的数据添加到数据集中。

「我们一遍又一遍进行这个循环,直到神经网络变得非常棒,」Karpathy 说道。

正因如此,我们可以将这一架构描述为——一个具有巧妙分工的半自动标签系统,其中神经网络做重复性的工作,人类负责高层次的认知问题和边缘情况。

有趣的是,当一位与会者问 Karpathy 触发因素的生成是否可以自动化时,他回应称:

「触发因素的自动化非常棘手,因为你可以有通用的触发因素,但它们很难正确反馈所有情况。例如,对进入和离开隧道进行触发,我们到底需要什么触发因素。在这种问题上,人类靠的是直觉。」

分层的深度学习架构

特斯拉自动驾驶团队需要一个精心设计的高效神经网络,以充分利用他们收集到的高质量数据集。

为此,他们创建了一个分层的深度学习架构,由不同的神经网络组成,处理信息并将输出信息反馈给下一组网络。

深度学习模型使用卷积神经网络,从安装在车身八个摄像头采集的视频中提取特征,并使用网络将它们融合在一起。

随后,它跨越时间线将各类特征融合在一起。

这对诸如轨迹预测和平滑推理不一致的任务很重要。

在这之后,空间和时间特征被送入神经网络的分支结构中,Karpathy 将其描述为头部、树干和终端。

Karpathy 指出:「你想要这种分支结构,是因为这样能带来大量高价值的输出,但你不能为每个输出都准备一个神经网络」。

分层结构让特斯拉可以针对不同任务重复使用组件,并在不同的推理路径之间完成特征共享。

神经网络模块化结构的另一个好处是可以进行分布式开发。

特斯拉目前组建了一个大型的机器学习工程师团队,专门从事自动驾驶神经网络的研究。

他们每个人都负责神经网络的一个小组件,并将自己的成果放到更大的网络中。

「我们有一个大约 20 人的团队,正在全职训练神经网络,他们都在为同一个神经网络添砖加瓦」。Karpathy 说道。

垂直整合

在 CVPR 的演讲中,Karpathy 还分享了一些特斯拉训练和微调深度学习模型所用超级计算机的细节。

特斯拉的计算集群由 80 个节点组成,每个节点包含 8 个 英伟达 A100 GPU 和 80 GB 的显存,相当于 5760 个 GPU 和超过 450 TB 的 VRAM。

这个超级计算机还拥有 10 PB 的 NVME 超高速存储和 640 tbps 的网络能力,用来连接所有的节点,并支撑高效的神经网络分布式训练。

特斯拉还设计并自研了车载 AI 芯片。

「特斯拉的芯片转为神经网络设计,用来支撑全自动驾驶应用。」Karpathy 说道。

特斯拉的最大优势在于其强大的垂直整合能力——不仅拥有完整的自动驾驶解决方案,同时还能制造电动汽车和自动驾驶硬件。

现在的特斯拉,处在一个独特的位置,不但能从其售出的数百万辆汽车中收集各种数据,借助强悍的计算集群,还可以在其独有的数据集上创建和训练神经网络,并通过影子模式在其售出的电动车上验证和微调这些神经网络。

当然,特斯拉还拥有一支由机器学习工程师、研究人员和硬件设计师组成的强大团队,能将所有的碎片信息进行深度整合。

这种垂直整合外加创建数据、调整机器学习模型并将其部署在车辆上重复循环的方案,使特斯拉打造了业界独一无二的纯视觉自动驾驶解决方案。

在演讲中,Karpathy 还展示了多个例子,比如新的神经网络,已经超过了需要结合雷达信息的传统机器学习模型。

Karpathy 也相信,如果这一系统继续进化,特斯拉可能会直接断了激光雷达的活路。更可怕的是,没有其他公司能够复制特斯拉的成功之路。

未解决的问题

还有一个问题是,当下的深度学习是否足以克服自动驾驶所有挑战。

当然,目标探测、速度及距离估算也在驾驶中发挥了很大作用。

不过,人类视觉还执行着许多其他复杂的功能,科学家称之为视觉的 "暗物质"。这些都是分析视觉输入的重要组成部分。

深度学习模型在进行因果推理时非常吃力,当模型面对它以前没有见过的新情况时,就会举棋不定。

也就是说,虽然特斯拉已经设法搭建了一个非常庞大且多样化的数据集,但开放道路同样非常复杂,各种无法预测的事情随时可能发生。

当下的 AI 界,在某些问题上依然存在分歧,比如是否需要明确将因果关系和推理整合到深度神经网络中,或者说,是否可以通过「直接拟合」来克服因果关系的障碍——即一个大型的、分布良好的数据集是否能支撑适用于万事万物的深度学习。

从目前来看,特斯拉基于视觉的自动驾驶团队似乎更倾向于后者。

至于特斯拉的技术能否经受住时间的考验,我们拭目以待。

该文观点仅代表作者本人,未来汽车日报系信息发布平台,未来汽车日报仅提供信息存储空间服务。
最新快讯
2025款极氪001和007上市,新增端到端大模型应用
2024-08-20

8月13日,2025款的极氪001和极氪007正式上市。这两款新车官方起售价分别为25.90万元和20.99万元。2025款极氪001与极氪007,搭载了极氪智能科技最新的技术成果。全栈自研的第二代金砖电池,最大充电倍率高达5.5C,从10%充至80%仅需10分半钟,超越了传统三元锂电池。同时,极氪OS智能座舱系统也迎来了全面升级,正式更名为极氪AI OS,Eva进化为AI Eva。在智能驾驶领域,极氪全栈自研的浩瀚智驾系统迈入2.0时代,启动了端到端大模型的应用,优先实现了泊车和路口场景的端到端进化。此外,极氪还率先推出了城市NZP通勤模式,未来将逐步开通城市NZP和城市NZP+,最终实现从车位到车位的全场景城市智能驾驶体验。在智能驾驶方面,2025款极氪001同样带来了升级,首发搭载的浩瀚智驾2.0系统,基于激光雷达和双OrinX智驾芯片的智能硬件方案,实现了系统底层能力和用户体验的全面升级。基于全场景的端到端泊车能力,浩瀚智驾2.0的泊车时间最快可缩短至23秒,且泊车手法更加类人化。同时,该系统还带来了记忆泊车功能,用户只需一次记忆即可实现不限楼层、不限车位的自动泊车服务。

中国超跑首次批量出海,昊铂SSR海外版正式下线
2024-08-02

8月1日,昊铂SSR海外版正式下线,标志着中国超跑可以实现批量出海,树立全球造车科技新高度。超跑,被誉为“汽车工业皇冠上的明珠”,昊铂SSR的量产,不仅实现了打破西方对超跑的技术垄断,同时实现了对外输出超跑的产品、技术、文化和高端品牌的出海,实现了中国汽车工业新的飞跃。昊铂SSR去年10月正式上市以来,以超跑为载体,从研发、设计、试制试验、智造、产业链等,全方位提升中国汽车工业能力,也为中国汽车运动文化注入新力量,促进中国体育文化发展,也推动汽车文化的普及,助力中国从汽车大国迈向汽车强国。昊铂秉持低调务实、保持热诚的作风,征服了全球最顶尖的同行。汽车设计领域的璀璨明星Pontus Fontaeus,因其与法拉利、布加迪和兰博基尼等豪华车品牌的卓越合作而赫赫有名。如今,这位设计巨匠选择与昊铂携手,亲手打造出昊铂SSR这件璀璨的艺术品。伴随着昊铂全球化战略,凝结了中国工业最高技术水准的昊铂SSR,来到了全球用户的面前。去年昊铂SSR海外首秀,在国际舞台上也得到了超跑爱好者的喜爱。在泰国车展,昊铂SSR创下中国汽车出口史上“最高单价”的记录。(未来汽车日报)

40万公里神盾短刀电池健康度达90.5%
2024-07-29

7月29日,吉利对一块历经921次充放电(约40万公里行驶里程)的神盾短刀电池包进行了容量检测,结果显示健康度仍然高达90.5%。而同级产品搭载的电池包,在完成500次充放电之后,健康度就衰减到了80%,寿命远低于神盾短刀电池包。 同时,吉利还对一辆行驶里程超30万公里的银河E5耐久测试车进行了电池包拆解。拆解结果显示电池包的结构依然完整、防护完好。 8月3日,搭载神盾短刀电池的银河E5即将全球上市,并实现上市即交付。(未来汽车日报)

13.58万元起售,宋L DM-i正式上市
2024-07-26

7月25日,比亚迪王朝全新中级SUV宋L DM-i在开封上市,新车基于新技术、新平台、新标准打造,百公里亏电油耗低至3.9L,满油满电综合续航超1500km,以“大宋”之名开创SUV油耗3时代,颠覆用户对中级SUV的油耗续航认知。宋L DM-i此次推出纯电续航里程75KM、112KM和160KM三个版本,共5款车型,售价13.58万-17.58万元。极致低能耗带来超长续航,宋L DM-i满油满电综合续航达1500km,宋L DM-i基于新一代插混整车平台打造,引领中级SUV向更优越驾乘空间和更高级驾乘体验进化。新车长宽高分别为:4780*1898*1670毫米,轴距达2782毫米,比途观L Pro(4735*1842*1682毫米)更长更宽,带来更宽奢的空间体验。纯平后排地板、超宽横向空间,让后排中座成为“C位”,加上宽舒云感座椅,带来前排头等舱、后排大沙发的舒适出行体验。超大后备箱可轻松放下全家行李,更可纯平放倒变身双人床,不管全家购物还是惬意露营,都能轻松满足。(未来汽车日报)

售价14.99万元-21.29万元,深蓝S07正式上市
2024-07-26

7月26日消息,7月25日,深蓝汽车全球战略车型“深蓝S07”正式上市,共推出增程加纯电10款配置车型,售价区间14.99万元-21.29万元,同时全系车型限时优惠1万元,其中215Max增程版、215Max乾崑智驾ADS SE版、215Pro增程版为深蓝S7经典再升级版本。深蓝S07左手深蓝超级增程,右手华为乾崑智能,在20万级中型SUV市场,携20大同级首发、50大同级领先的科技配置,打造同级领先科技含金量。随着的深蓝S07上市,意味着智能驾驶技术步入普及化新阶段,不仅满足了用户的智驾需求,也重新定义了智驾体验的价值感。华为乾崑智驾采用主视觉方案,与特斯拉纯视觉逻辑相同,在决策和规划时更加类人化,行驶轨迹更接近人类驾驶,拥有更高通行效率。但在华为乾崑智驾背后,有华为大数据模型为支撑,这一点与特斯拉纯视觉方案截然不同,实现了对驾驶环境的全方位感知和精准决策。同时,大数据模型还具备强大的学习和迭代能力,能够不断优化算法模型,提升驾驶辅助的精度和安全性。特斯拉在复杂场景下的理解能力和决策精度上,往往难以与华为乾崑智驾相媲美,这也是深蓝S07比肩特斯拉的底气。(未来汽车日报)

查看更多快讯
最新要闻
广汽埃安第二代AION V上市,直指全球市场
售价区间12.98万-18.98万元。
2024-07-26
2024第二届智能座舱车载显示与感知大会
2024年7月12日,由盖世汽车主办的2024第二届智能座舱车载显示与感知大会在上海圆满落幕!论坛为期两天,线上线下同步进行。
2024-07-18
2024汽车数字钥匙技术论坛
​2024年7月10日,盖世汽车2024汽车数字钥匙技术论坛在上海圆满落幕!
2024-07-18
上半年销量突破133.4万辆,长安汽车储备竞争粮草
阿维塔品牌下半年将推出增程产品。
2024-07-10
顶配售价不超20万,零跑C16能否打开新的增长点?
以性价比抢占市场。
2024-07-08
试驾翼真L380:用“大空间”破局
官方指导价37.99万元-47.99万元。
2024-07-05