国内七大玩家迎战特斯拉!揭秘智驾大模型混战
卡门精选2023-12-15
大公司新造车行业
喊了一年的智驾大模型,现在到哪一步了?

本文来自微信公众号“车东西”(ID:chedongxi),作者:Janson,编辑: Juice,36氪Auto经授权发布。

大模型+自动驾驶的口号喊了一年,现在进展究竟怎么样了? 

年初大模型爆发之后,行业内玩家就在考虑将大模型技术和自动驾驶结合起来。 

特斯拉在率先引入Transformer+BEV的端到端技术架构后又在行业内最早引入占用网络技术。清华教授在采访中直言特斯拉领先行业三年。而国内包括华为、小鹏、毫末智行、智驾科技各类主机厂、Tire1都在年底秀出了自己的最新进展。 

但经过一年的发展,进展似乎并不那么明显。 

无论是ADS2.0还是XNGP,都还没有达到智驾大模型所谓“泛用性”的智驾表现,各家或多或少都将其限制在了特定城市或特定场景下,距离“泛用性”智驾还有距离。 

相比于文字信息的数据量来说,智驾赛道所面临的数据量可以说是呈指数级增长。

在基于大数据的自动驾驶领域来看,其需要处理来自不同传感器,如激光雷达、毫米波雷达、超声波雷达,以及高清摄像头、GNSS等的数据。这些数据具有不同时空性质,同时还需要考虑硬件损坏对系统可用性及数据可靠性的关联等问题。

此外,车载大模型还需要大量的场景数据,包括交通标志线、交通流量和行为模型等。这使得汽车大模型的研发和训练门槛变得相当高。

▲特斯拉的三维视觉模式

同时,从视觉方案的迭代上来看,从早期的CNN到BEV,再到目前主流的Transformer+BEV无不考验着研发团队的技术积累。

到了今年,以特斯拉为代表的企业搬出Occupancy Network占用网络技能树,再次将研发难度、研发投入和技术底线带向新高。

然而,相比于在年初各大企业纷纷高喊“大模型上车”的主机厂和方案提供商似乎都纷纷“偃旗息鼓”,不再靠单纯宣传首发上车而是转向可用性和可靠性的提升。 

不难看出,在年底智驾大模型“偃旗息鼓”的背后,是当下各厂商在大模型“混战”中的技术性暂停。至于在接下来的竞争中,具体谁能脱颖而出,就只能用技术表现和产品说话了。 

01.

大模型热度不断

成为智驾玩家的必争之地

小鹏、理想等主机厂以及华为、毫末智行、智驾科技MAXIEYE等方案提供商在今年开始切换至BEV+Transformer技术路线,并或多或少推出了一些产品或者实装到车的方案,我们可以尝试从他们目前的进展来一窥国内智驾大模型的发展现状。 

从技术路线上看,国内各厂商基本已经将技术路线切换到了BEV+Transformer下。 

▲国内主流智驾玩家技术路线

用应用速度上来看,使用BEV+Transformer的企业以小鹏汽车的XNGP所用的BEV视觉感知系统XNet和华为所用的ADS2.0为代表,基本都训练出了可以实装上车的车载大模型的产品。 

这其中小鹏的XNet能够输出BEV视角下的4D动态信息(例如车辆速度、运动预测等)和3D静态信息(如车道线位置等),可以更好的辅助系统进行决策。此外,小鹏在XNet2.0部分也开始逐步引入占用网络技术。而华为的ADS2.0也加入自研的基于视觉融合算法的GOD网络技术,依靠激光雷达等传感器令整个系统获得的信息更加充分。 

▲小鹏XNGP

理想和蔚来则都在BEV+Transformer算法架构的技术上选择加入Occupancy网络算法,故此在应用上相比前述两家略慢一些,不论是理想关于复杂交通环境识别的成熟度还是蔚来的多模态神经网络大模型,都在实装的进度上较为缓慢或应用范围还有所限制。从当下进度不难看出,在选择加入Occupancy网络算法的企业中,对于研发能力和信息处理的要求又提升了一个高度。但是不可否认的是,一旦选用Occupancy网络算法的企业将产品实装上车,这将相对于完全采用BEV+Transformer算法架构的企业实现接近“半代”的领先。 

而毫末智行的MANA感知架构、纽劢科技MaxDrive行泊一体方案、智驾科技MAXIEYE的MAXIPILOT 2.0都是在基于BEV+Transformer的技术架构中做出了较为泛用性的大模型智驾方案,他们可以针对纯视觉方案和视觉融合方案作出相应适配,帮助车企完成涵盖不同成本的智驾解决方案。 

▲毫末智行MANA感知架构v

尽管在今年年末,各企业都或多或少拿出了他们这一段时间里智驾大模型的解决方案或者实际产品。但是反馈到实际上车的数量来看,仍不是十分理想。 

城市NOA算是目前来看需要通过大模型做决策较为明显的应用场景,从其实际覆盖率来看,华为的城区NCA目前官方确认落地的城市仅有6城,包括上海、广州、深圳、重庆、杭州和北京。尽管华为曾在问界新M7发布会上宣称城区NCA年底全国可用,但目前距离实现这一目标还有较大差距。 

小鹏汽车则在城市NGP方面取得了较大进展,已在全国25个城市推送了城市NGP功能,成为中国城市智驾开城数量第一。然而,需要注意的是,这新增的25城名单中,部分城市如常熟、太仓、昆山在行政区划上属于苏州市,因此可以说小鹏第二批开城的最小单位是县级市,规模上略有缩水。 

理想汽车则经历了目标的变化,从最初的城市NOA导航辅助驾驶,到通勤NOA,再到全场景智能驾驶NOA,目标反复横跳。目前,理想汽车12月全场景智能驾驶NOA“正式版”将覆盖全国高速和环线及100个城市,但具体落地情况还没有具体公布。 

此外,其他部分玩家目标也在不同程度上有缩水,其城市NOA功能还未能大规模推送给用户。 

尽管车载大模型的终极目标是“泛用性”的智能驾驶辅助,然而接近年关,在泛用性较弱的特定城市或特定场景下的智驾功能,仍没有广泛开放。 

从此不难看出,基于大模型的智驾技术研发,一方面,各个厂商从负责任的角度来说,都对新技术在智驾领域的应用普及持审慎态度。另一方面,智驾大模型的开发应用仍是相当有技术难度的一件事,想在短时间内攻克仍不现实。 

对此,清华大学邓志东教授曾在采访中表示:特斯拉从2020年开始就已经在推进这一(智驾)领域的工作,并且作为领先的新能源汽车制造商,他们积累了全球最丰富的数据资源。而我国在今年3月之后才开始加速这一领域的布局,与特斯拉之间至少存在三年的差距,因此在短时间内超越特斯拉是一个挑战。 

可以看出,在国内的智驾大模型之路上,操之过急不是办法,也不符合客观规律,一步一个脚印才是发展之道。 

02.

大模型百家争鸣 特斯拉优势明显

BEV+Transform路线车载大模型的研发以及引入占用网络的算法,是各家车企在自动驾驶领域竞争的重要技术方向。 

首先,BEV+Transform技术路线具有较好的通用性和灵活性,能够适应不同场景的自动驾驶需求。此外,这种技术路线可以减少对高精度地图的依赖,降低自动驾驶技术对主机厂或者方案提供商地图测绘资质的依赖和数据安全的要求,通过实时感知和数据处理,车辆可以更好地适应道路环境的变化,提高行驶的安全性和可靠性。 

▲特斯拉的决策逻辑

其次,这种技术路线能够提高自动驾驶感知能力,通过引入占用网络,可以更好地处理复杂场景中的遮挡、交互等问题,提高感知结果的准确性。 

同时,引入占用网络还可以降低自动驾驶系统的成本,相比传统的激光雷达+高精度地图方案,BEV+Transform技术路线在感知方面具有更高的性价比。要知道,无论是去掉高精地图还是去掉激光雷达都有利于降低车辆成本,推动自动驾驶技术的进一步普及。 

最后,BEV+Transform技术路线以及占用网络的应用,是当前自动驾驶感知领域的重要研究方向,有利于车企在技术竞争中完成技术储备与技术迭代。 

要知道,在当下主机厂和方案提供商的竞争中,谁掌握了先机,谁就有可能离成功能进一步,在这场“混战”中获得一张可能盈利的入场券。 

而在自动驾驶领域,特斯拉绝对算得上是最具前瞻性的企业之一。 

从2015年开始,特斯拉就开始布局自动驾驶软硬件的自研,并在这些年间将算法和芯片的自研列为开发重点。2020年,特斯拉便发布FSD Beta率先将算法由原来的2D+CNN路线升级为BEV+Transform路线。 

那么首先需要了解的问题就是BEV+Transform路线到底存在何种优势了。 

Transformer利用深度学习神经网络,其优势在于可实现全局理解的特征提取,从而增强模型的稳定性和泛化能力。通过位置编码的方式,可以更好地处理序列数据中的位置信息,从而更准确地理解和预测序列中各元素之间的关系。而CNN在处理序列数据时,往往需要将序列数据转换为图像数据,这可能会导致位置信息的丢失。 

BEV全称是Bird’s Eye View(鸟瞰视角),是一种将三维环境信息投影到二维平面的方法,以俯视视角展示环境中的物体和地形。 

与传统小模型相比,BEV+Transformer对智能驾驶的感知和泛化能力进行了提升,有助于缓解智能驾驶的长尾问题(Long-Tailed Classification)。 

在感知能力方面,BEV统一视角,将激光雷达、雷达和相机等多模态数据融合至同一平面上,可以提供全局视角并消除数据之间的遮挡和重叠问题,从而提高物体检测和跟踪的精度。 

Transformer模型中的自注意力机制允许各个元素在计算时相互独立,这使得模型可以更容易地进行并行计算,从而提高计算效率。而CNN模型中的卷积操作往往需要考虑相邻元素之间的关系,这可能会导致并行计算的困难。 

在泛化能力方面,Transformer模型通过自注意力机制,可实现全局理解的特征提取,有利于寻找事物本身的内在关系,使智能驾驶学会总结归纳而不是机械式学习。 

▲Transformer模型算法示意图

同时,Transformer模型能够同时考虑输入序列中的所有元素,从而更好地捕捉序列数据中的长距离依赖关系。而CNN模型在处理序列数据时,往往需要通过卷积操作来逐步捕捉局部特征,这可能会导致长距离依赖关系的丢失。 

在这样的基础上,2022年,特斯拉又在算法中引入时序网络,并将BEV升级为占用网络(OccupancyNetwork)。占用网络是一种基于深度学习的三维物体检测方法,它可以有效地预测物体在三维空间中的位置和形状,从而较为有效的解决了从模型从三维到二维过程中的信息损失问题。 

放眼国内的进展来看,CNN无疑已经面临淘汰,不具备太多讨论价值。 

而从感知算法的推进来看,行业总体基本在2022年开始都逐步将算法升级至BEV+Transformer路线。 

这样来看,特斯拉基本可以说是第一批采用BEV+Transformer技术的企业。 

03.

智驾大模型发展难点多 多个问题待突破

自动驾驶大模型需要相当大的资源和投入来支持其运行。 

在感知层面,自动驾驶系统需要处理来自不同传感器的数据,如激光雷达、毫米波雷达、超声波雷达,以及高清摄像头、GNSS等。这些数据具有不同时空性质,如何有效融合这些数据,提高数据处理效率和准确性,是智驾大模型的首要难题。 

此外,智驾赛道所面临的数据量呈指数级增长,如何高效地存储、处理和分析这些海量数据,以便在大模型中实现更准确的预测和决策,对企业和研究人员提出了更高的要求。 

对此在智能驾驶技术领域,摆在这个赛道的三座大山便是模型训练的局限性、车载算力的不足以及网联运用存在的难题。 

在模型训练的问题上,首先,高质量的数据收集成本高昂,且某些特定驾驶场景的数据难以获取,导致模型在泛化能力和准确性上存在缺陷。其次,深度学习模型依赖大量标注数据进行训练,而人工标注过程不仅耗时费力,还可能引入错误。此外,在有限的训练数据情况下,模型容易出现过拟合现象,即在实际应用中面临新数据时性能下降。 

此外,在车载算力方面,车载硬件的计算能力相对于服务器有限,为了实现车载算力和成本的平衡,往往需要更有效的识别算法和决策算法来保障。这样可以在一定程度上解决仅有高算力车型才可以使用高阶智驾的算力局限性,提升智驾大模型的泛用性。 

至于网联运用,智能驾驶依赖大量数据传输,包括车对车和车对云端的通信。然而,现有数据传输技术可能存在网络延迟和数据丢失等问题。同时,智能驾驶的网联特性也可能带来安全隐患,因此保障数据安全和隐私成为当务之急。最后,缺乏统一标准导致不同车辆和设备间的数据难以互通,限制了智能驾驶网联运用的广泛推广。 

同时,车载大模型需要强大的计算能力和存储设备支持,而目前车载硬件设备在计算能力和功耗等方面仍存在局限,如何在这些限制条件下实现大模型的部署和优化,是智驾大模型面临的关键问题。 

对于其中面临的模型局限性,相对于大模型的概念,也有国内的学者提出了通用模型的概念。 

▲李弘扬团队UniAD概念

今年5月,上海人工智能实验室青年科学家李弘扬团队发表的一篇论文,首次提出了一种感知决策一体的自动驾驶通用模型,并荣获「CVPR 2023最佳论文」奖。这也是顶级会议CVPR在40年历史上,首次授予自动驾驶领域的「最佳论文奖」。 

李弘扬团队提出了一套目标导向的自动驾驶算法方案(UniAD,Unified Autonomous Driving),其设计理念是采用端到端架构,以规划(Planning)作为最终目标,整合所有自动驾驶模块。 

李弘扬表示,该方案与MTL、特斯拉等方案的区别在于,后者试图使所有任务的性能都达到最佳,而他们的方案专注于规划(Planning)的结果。 

此外,据媒体报道,在当时的会上除了技术阐述外,李弘扬还提出了一个犀利的观点: 

“我认为现在这个行业没有自动驾驶大模型。我们给UniAD工作的定义也是『自动驾驶通用模型』,而不是大模型。” 

“如果自动驾驶大模型最后发展成感知大模型,是不完善的,那完全可以在通用视觉里做。” 

这也代表着一部分国内学术界对于智驾大模型的新观念:避免重复造轮子,提升通用型,补齐算法和资源短板。 

然而这也只是解决模型局限性的一个手段,而至于智驾大模型目前广泛存在的其他问题,还需要技术的不断发展和时间的积累去解决。 

04.

结语:大模型上车“任重道远”

尽管智驾大模型在技术研发、数据收集与处理、硬件设备等方面面临诸多挑战。 

但随着科技的不断进步,各类玩家纷纷加入竞争,推动技术不断发展,我们可以预见,在不久的将来,智驾大模型上车是必然趋势。 

然而,要想实现大模型在自动驾驶等领域的广泛应用,仍然“任重“而“道远”。 

一方面,在未来的发展中,我们需要克服当前技术难题,推动大模型技术的成熟与商业化应用。 

另一方面,也需要在重技术的领域摒弃“营销思维”,认真做好数据处理、感知决策、算力匹配之间的平衡,以便让真正符合智驾趋势的车载大模型尽早面世。 

该文观点仅代表作者本人,未来汽车日报系信息发布平台,未来汽车日报仅提供信息存储空间服务。
最新快讯
2025款极氪001和007上市,新增端到端大模型应用
2024-08-20

8月13日,2025款的极氪001和极氪007正式上市。这两款新车官方起售价分别为25.90万元和20.99万元。2025款极氪001与极氪007,搭载了极氪智能科技最新的技术成果。全栈自研的第二代金砖电池,最大充电倍率高达5.5C,从10%充至80%仅需10分半钟,超越了传统三元锂电池。同时,极氪OS智能座舱系统也迎来了全面升级,正式更名为极氪AI OS,Eva进化为AI Eva。在智能驾驶领域,极氪全栈自研的浩瀚智驾系统迈入2.0时代,启动了端到端大模型的应用,优先实现了泊车和路口场景的端到端进化。此外,极氪还率先推出了城市NZP通勤模式,未来将逐步开通城市NZP和城市NZP+,最终实现从车位到车位的全场景城市智能驾驶体验。在智能驾驶方面,2025款极氪001同样带来了升级,首发搭载的浩瀚智驾2.0系统,基于激光雷达和双OrinX智驾芯片的智能硬件方案,实现了系统底层能力和用户体验的全面升级。基于全场景的端到端泊车能力,浩瀚智驾2.0的泊车时间最快可缩短至23秒,且泊车手法更加类人化。同时,该系统还带来了记忆泊车功能,用户只需一次记忆即可实现不限楼层、不限车位的自动泊车服务。

中国超跑首次批量出海,昊铂SSR海外版正式下线
2024-08-02

8月1日,昊铂SSR海外版正式下线,标志着中国超跑可以实现批量出海,树立全球造车科技新高度。超跑,被誉为“汽车工业皇冠上的明珠”,昊铂SSR的量产,不仅实现了打破西方对超跑的技术垄断,同时实现了对外输出超跑的产品、技术、文化和高端品牌的出海,实现了中国汽车工业新的飞跃。昊铂SSR去年10月正式上市以来,以超跑为载体,从研发、设计、试制试验、智造、产业链等,全方位提升中国汽车工业能力,也为中国汽车运动文化注入新力量,促进中国体育文化发展,也推动汽车文化的普及,助力中国从汽车大国迈向汽车强国。昊铂秉持低调务实、保持热诚的作风,征服了全球最顶尖的同行。汽车设计领域的璀璨明星Pontus Fontaeus,因其与法拉利、布加迪和兰博基尼等豪华车品牌的卓越合作而赫赫有名。如今,这位设计巨匠选择与昊铂携手,亲手打造出昊铂SSR这件璀璨的艺术品。伴随着昊铂全球化战略,凝结了中国工业最高技术水准的昊铂SSR,来到了全球用户的面前。去年昊铂SSR海外首秀,在国际舞台上也得到了超跑爱好者的喜爱。在泰国车展,昊铂SSR创下中国汽车出口史上“最高单价”的记录。(未来汽车日报)

40万公里神盾短刀电池健康度达90.5%
2024-07-29

7月29日,吉利对一块历经921次充放电(约40万公里行驶里程)的神盾短刀电池包进行了容量检测,结果显示健康度仍然高达90.5%。而同级产品搭载的电池包,在完成500次充放电之后,健康度就衰减到了80%,寿命远低于神盾短刀电池包。 同时,吉利还对一辆行驶里程超30万公里的银河E5耐久测试车进行了电池包拆解。拆解结果显示电池包的结构依然完整、防护完好。 8月3日,搭载神盾短刀电池的银河E5即将全球上市,并实现上市即交付。(未来汽车日报)

13.58万元起售,宋L DM-i正式上市
2024-07-26

7月25日,比亚迪王朝全新中级SUV宋L DM-i在开封上市,新车基于新技术、新平台、新标准打造,百公里亏电油耗低至3.9L,满油满电综合续航超1500km,以“大宋”之名开创SUV油耗3时代,颠覆用户对中级SUV的油耗续航认知。宋L DM-i此次推出纯电续航里程75KM、112KM和160KM三个版本,共5款车型,售价13.58万-17.58万元。极致低能耗带来超长续航,宋L DM-i满油满电综合续航达1500km,宋L DM-i基于新一代插混整车平台打造,引领中级SUV向更优越驾乘空间和更高级驾乘体验进化。新车长宽高分别为:4780*1898*1670毫米,轴距达2782毫米,比途观L Pro(4735*1842*1682毫米)更长更宽,带来更宽奢的空间体验。纯平后排地板、超宽横向空间,让后排中座成为“C位”,加上宽舒云感座椅,带来前排头等舱、后排大沙发的舒适出行体验。超大后备箱可轻松放下全家行李,更可纯平放倒变身双人床,不管全家购物还是惬意露营,都能轻松满足。(未来汽车日报)

售价14.99万元-21.29万元,深蓝S07正式上市
2024-07-26

7月26日消息,7月25日,深蓝汽车全球战略车型“深蓝S07”正式上市,共推出增程加纯电10款配置车型,售价区间14.99万元-21.29万元,同时全系车型限时优惠1万元,其中215Max增程版、215Max乾崑智驾ADS SE版、215Pro增程版为深蓝S7经典再升级版本。深蓝S07左手深蓝超级增程,右手华为乾崑智能,在20万级中型SUV市场,携20大同级首发、50大同级领先的科技配置,打造同级领先科技含金量。随着的深蓝S07上市,意味着智能驾驶技术步入普及化新阶段,不仅满足了用户的智驾需求,也重新定义了智驾体验的价值感。华为乾崑智驾采用主视觉方案,与特斯拉纯视觉逻辑相同,在决策和规划时更加类人化,行驶轨迹更接近人类驾驶,拥有更高通行效率。但在华为乾崑智驾背后,有华为大数据模型为支撑,这一点与特斯拉纯视觉方案截然不同,实现了对驾驶环境的全方位感知和精准决策。同时,大数据模型还具备强大的学习和迭代能力,能够不断优化算法模型,提升驾驶辅助的精度和安全性。特斯拉在复杂场景下的理解能力和决策精度上,往往难以与华为乾崑智驾相媲美,这也是深蓝S07比肩特斯拉的底气。(未来汽车日报)

查看更多快讯
最新要闻
广汽埃安第二代AION V上市,直指全球市场
售价区间12.98万-18.98万元。
2024-07-26
2024第二届智能座舱车载显示与感知大会
2024年7月12日,由盖世汽车主办的2024第二届智能座舱车载显示与感知大会在上海圆满落幕!论坛为期两天,线上线下同步进行。
2024-07-18
2024汽车数字钥匙技术论坛
​2024年7月10日,盖世汽车2024汽车数字钥匙技术论坛在上海圆满落幕!
2024-07-18
上半年销量突破133.4万辆,长安汽车储备竞争粮草
阿维塔品牌下半年将推出增程产品。
2024-07-10
顶配售价不超20万,零跑C16能否打开新的增长点?
以性价比抢占市场。
2024-07-08
试驾翼真L380:用“大空间”破局
官方指导价37.99万元-47.99万元。
2024-07-05