国内七大玩家迎战特斯拉！揭秘智驾大模型混战

本文来自微信公众号“车东西”（ID:chedongxi），作者：Janson，编辑： Juice，36氪Auto经授权发布。

大模型+自动驾驶的口号喊了一年，现在进展究竟怎么样了？

年初大模型爆发之后，行业内玩家就在考虑将大模型技术和自动驾驶结合起来。

特斯拉在率先引入Transformer+BEV的端到端技术架构后又在行业内最早引入占用网络技术。清华教授在采访中直言特斯拉领先行业三年。而国内包括华为、小鹏、毫末智行、智驾科技各类主机厂、Tire1都在年底秀出了自己的最新进展。

但经过一年的发展，进展似乎并不那么明显。

无论是ADS2.0还是XNGP，都还没有达到智驾大模型所谓“泛用性”的智驾表现，各家或多或少都将其限制在了特定城市或特定场景下，距离“泛用性”智驾还有距离。

相比于文字信息的数据量来说，智驾赛道所面临的数据量可以说是呈指数级增长。

在基于大数据的自动驾驶领域来看，其需要处理来自不同传感器，如激光雷达、毫米波雷达、超声波雷达，以及高清摄像头、GNSS等的数据。这些数据具有不同时空性质，同时还需要考虑硬件损坏对系统可用性及数据可靠性的关联等问题。

此外，车载大模型还需要大量的场景数据，包括交通标志线、交通流量和行为模型等。这使得汽车大模型的研发和训练门槛变得相当高。

▲特斯拉的三维视觉模式

同时，从视觉方案的迭代上来看，从早期的CNN到BEV，再到目前主流的Transformer+BEV无不考验着研发团队的技术积累。

到了今年，以特斯拉为代表的企业搬出Occupancy Network占用网络技能树，再次将研发难度、研发投入和技术底线带向新高。

然而，相比于在年初各大企业纷纷高喊“大模型上车”的主机厂和方案提供商似乎都纷纷“偃旗息鼓”，不再靠单纯宣传首发上车而是转向可用性和可靠性的提升。

不难看出，在年底智驾大模型“偃旗息鼓”的背后，是当下各厂商在大模型“混战”中的技术性暂停。至于在接下来的竞争中，具体谁能脱颖而出，就只能用技术表现和产品说话了。

01. 大模型热度不断

成为智驾玩家的必争之地

小鹏、理想等主机厂以及华为、毫末智行、智驾科技MAXIEYE等方案提供商在今年开始切换至BEV+Transformer技术路线，并或多或少推出了一些产品或者实装到车的方案，我们可以尝试从他们目前的进展来一窥国内智驾大模型的发展现状。

从技术路线上看，国内各厂商基本已经将技术路线切换到了BEV+Transformer下。

▲国内主流智驾玩家技术路线

用应用速度上来看，使用BEV+Transformer的企业以小鹏汽车的XNGP所用的BEV视觉感知系统XNet和华为所用的ADS2.0为代表，基本都训练出了可以实装上车的车载大模型的产品。

这其中小鹏的XNet能够输出BEV视角下的4D动态信息（例如车辆速度、运动预测等）和3D静态信息（如车道线位置等），可以更好的辅助系统进行决策。此外，小鹏在XNet2.0部分也开始逐步引入占用网络技术。而华为的ADS2.0也加入自研的基于视觉融合算法的GOD网络技术，依靠激光雷达等传感器令整个系统获得的信息更加充分。

▲小鹏XNGP

理想和蔚来则都在BEV+Transformer算法架构的技术上选择加入Occupancy网络算法，故此在应用上相比前述两家略慢一些，不论是理想关于复杂交通环境识别的成熟度还是蔚来的多模态神经网络大模型，都在实装的进度上较为缓慢或应用范围还有所限制。从当下进度不难看出，在选择加入Occupancy网络算法的企业中，对于研发能力和信息处理的要求又提升了一个高度。但是不可否认的是，一旦选用Occupancy网络算法的企业将产品实装上车，这将相对于完全采用BEV+Transformer算法架构的企业实现接近“半代”的领先。

而毫末智行的MANA感知架构、纽劢科技MaxDrive行泊一体方案、智驾科技MAXIEYE的MAXIPILOT 2.0都是在基于BEV+Transformer的技术架构中做出了较为泛用性的大模型智驾方案，他们可以针对纯视觉方案和视觉融合方案作出相应适配，帮助车企完成涵盖不同成本的智驾解决方案。

▲毫末智行MANA感知架构v

尽管在今年年末，各企业都或多或少拿出了他们这一段时间里智驾大模型的解决方案或者实际产品。但是反馈到实际上车的数量来看，仍不是十分理想。

城市NOA算是目前来看需要通过大模型做决策较为明显的应用场景，从其实际覆盖率来看，华为的城区NCA目前官方确认落地的城市仅有6城，包括上海、广州、深圳、重庆、杭州和北京。尽管华为曾在问界新M7发布会上宣称城区NCA年底全国可用，但目前距离实现这一目标还有较大差距。

小鹏汽车则在城市NGP方面取得了较大进展，已在全国25个城市推送了城市NGP功能，成为中国城市智驾开城数量第一。然而，需要注意的是，这新增的25城名单中，部分城市如常熟、太仓、昆山在行政区划上属于苏州市，因此可以说小鹏第二批开城的最小单位是县级市，规模上略有缩水。

理想汽车则经历了目标的变化，从最初的城市NOA导航辅助驾驶，到通勤NOA，再到全场景智能驾驶NOA，目标反复横跳。目前，理想汽车12月全场景智能驾驶NOA“正式版”将覆盖全国高速和环线及100个城市，但具体落地情况还没有具体公布。

此外，其他部分玩家目标也在不同程度上有缩水，其城市NOA功能还未能大规模推送给用户。

尽管车载大模型的终极目标是“泛用性”的智能驾驶辅助，然而接近年关，在泛用性较弱的特定城市或特定场景下的智驾功能，仍没有广泛开放。

从此不难看出，基于大模型的智驾技术研发，一方面，各个厂商从负责任的角度来说，都对新技术在智驾领域的应用普及持审慎态度。另一方面，智驾大模型的开发应用仍是相当有技术难度的一件事，想在短时间内攻克仍不现实。

对此，清华大学邓志东教授曾在采访中表示：特斯拉从2020年开始就已经在推进这一（智驾）领域的工作，并且作为领先的新能源汽车制造商，他们积累了全球最丰富的数据资源。而我国在今年3月之后才开始加速这一领域的布局，与特斯拉之间至少存在三年的差距，因此在短时间内超越特斯拉是一个挑战。

可以看出，在国内的智驾大模型之路上，操之过急不是办法，也不符合客观规律，一步一个脚印才是发展之道。

02. 大模型百家争鸣特斯拉优势明显

BEV+Transform路线车载大模型的研发以及引入占用网络的算法，是各家车企在自动驾驶领域竞争的重要技术方向。

首先，BEV+Transform技术路线具有较好的通用性和灵活性，能够适应不同场景的自动驾驶需求。此外，这种技术路线可以减少对高精度地图的依赖，降低自动驾驶技术对主机厂或者方案提供商地图测绘资质的依赖和数据安全的要求，通过实时感知和数据处理，车辆可以更好地适应道路环境的变化，提高行驶的安全性和可靠性。

▲特斯拉的决策逻辑

其次，这种技术路线能够提高自动驾驶感知能力，通过引入占用网络，可以更好地处理复杂场景中的遮挡、交互等问题，提高感知结果的准确性。

同时，引入占用网络还可以降低自动驾驶系统的成本，相比传统的激光雷达+高精度地图方案，BEV+Transform技术路线在感知方面具有更高的性价比。要知道，无论是去掉高精地图还是去掉激光雷达都有利于降低车辆成本，推动自动驾驶技术的进一步普及。

最后，BEV+Transform技术路线以及占用网络的应用，是当前自动驾驶感知领域的重要研究方向，有利于车企在技术竞争中完成技术储备与技术迭代。

要知道，在当下主机厂和方案提供商的竞争中，谁掌握了先机，谁就有可能离成功能进一步，在这场“混战”中获得一张可能盈利的入场券。

而在自动驾驶领域，特斯拉绝对算得上是最具前瞻性的企业之一。

从2015年开始，特斯拉就开始布局自动驾驶软硬件的自研，并在这些年间将算法和芯片的自研列为开发重点。2020年，特斯拉便发布FSD Beta率先将算法由原来的2D+CNN路线升级为BEV+Transform路线。

那么首先需要了解的问题就是BEV+Transform路线到底存在何种优势了。

Transformer利用深度学习神经网络，其优势在于可实现全局理解的特征提取，从而增强模型的稳定性和泛化能力。通过位置编码的方式，可以更好地处理序列数据中的位置信息，从而更准确地理解和预测序列中各元素之间的关系。而CNN在处理序列数据时，往往需要将序列数据转换为图像数据，这可能会导致位置信息的丢失。

BEV全称是Bird’s Eye View(鸟瞰视角），是一种将三维环境信息投影到二维平面的方法，以俯视视角展示环境中的物体和地形。

与传统小模型相比，BEV+Transformer对智能驾驶的感知和泛化能力进行了提升，有助于缓解智能驾驶的长尾问题（Long-Tailed Classification）。

在感知能力方面，BEV统一视角，将激光雷达、雷达和相机等多模态数据融合至同一平面上，可以提供全局视角并消除数据之间的遮挡和重叠问题，从而提高物体检测和跟踪的精度。

Transformer模型中的自注意力机制允许各个元素在计算时相互独立，这使得模型可以更容易地进行并行计算，从而提高计算效率。而CNN模型中的卷积操作往往需要考虑相邻元素之间的关系，这可能会导致并行计算的困难。

在泛化能力方面，Transformer模型通过自注意力机制，可实现全局理解的特征提取，有利于寻找事物本身的内在关系，使智能驾驶学会总结归纳而不是机械式学习。

▲Transformer模型算法示意图

同时，Transformer模型能够同时考虑输入序列中的所有元素，从而更好地捕捉序列数据中的长距离依赖关系。而CNN模型在处理序列数据时，往往需要通过卷积操作来逐步捕捉局部特征，这可能会导致长距离依赖关系的丢失。

在这样的基础上，2022年，特斯拉又在算法中引入时序网络，并将BEV升级为占用网络(OccupancyNetwork)。占用网络是一种基于深度学习的三维物体检测方法，它可以有效地预测物体在三维空间中的位置和形状，从而较为有效的解决了从模型从三维到二维过程中的信息损失问题。

放眼国内的进展来看，CNN无疑已经面临淘汰，不具备太多讨论价值。

而从感知算法的推进来看，行业总体基本在2022年开始都逐步将算法升级至BEV+Transformer路线。

这样来看，特斯拉基本可以说是第一批采用BEV+Transformer技术的企业。

03. 智驾大模型发展难点多多个问题待突破

自动驾驶大模型需要相当大的资源和投入来支持其运行。

在感知层面，自动驾驶系统需要处理来自不同传感器的数据，如激光雷达、毫米波雷达、超声波雷达，以及高清摄像头、GNSS等。这些数据具有不同时空性质，如何有效融合这些数据，提高数据处理效率和准确性，是智驾大模型的首要难题。

此外，智驾赛道所面临的数据量呈指数级增长，如何高效地存储、处理和分析这些海量数据，以便在大模型中实现更准确的预测和决策，对企业和研究人员提出了更高的要求。

对此在智能驾驶技术领域，摆在这个赛道的三座大山便是模型训练的局限性、车载算力的不足以及网联运用存在的难题。

在模型训练的问题上，首先，高质量的数据收集成本高昂，且某些特定驾驶场景的数据难以获取，导致模型在泛化能力和准确性上存在缺陷。其次，深度学习模型依赖大量标注数据进行训练，而人工标注过程不仅耗时费力，还可能引入错误。此外，在有限的训练数据情况下，模型容易出现过拟合现象，即在实际应用中面临新数据时性能下降。

此外，在车载算力方面，车载硬件的计算能力相对于服务器有限，为了实现车载算力和成本的平衡，往往需要更有效的识别算法和决策算法来保障。这样可以在一定程度上解决仅有高算力车型才可以使用高阶智驾的算力局限性，提升智驾大模型的泛用性。

至于网联运用，智能驾驶依赖大量数据传输，包括车对车和车对云端的通信。然而，现有数据传输技术可能存在网络延迟和数据丢失等问题。同时，智能驾驶的网联特性也可能带来安全隐患，因此保障数据安全和隐私成为当务之急。最后，缺乏统一标准导致不同车辆和设备间的数据难以互通，限制了智能驾驶网联运用的广泛推广。

同时，车载大模型需要强大的计算能力和存储设备支持，而目前车载硬件设备在计算能力和功耗等方面仍存在局限，如何在这些限制条件下实现大模型的部署和优化，是智驾大模型面临的关键问题。

对于其中面临的模型局限性，相对于大模型的概念，也有国内的学者提出了通用模型的概念。

▲李弘扬团队UniAD概念

今年5月，上海人工智能实验室青年科学家李弘扬团队发表的一篇论文，首次提出了一种感知决策一体的自动驾驶通用模型，并荣获「CVPR 2023最佳论文」奖。这也是顶级会议CVPR在40年历史上，首次授予自动驾驶领域的「最佳论文奖」。

李弘扬团队提出了一套目标导向的自动驾驶算法方案（UniAD，Unified Autonomous Driving），其设计理念是采用端到端架构，以规划（Planning）作为最终目标，整合所有自动驾驶模块。

李弘扬表示，该方案与MTL、特斯拉等方案的区别在于，后者试图使所有任务的性能都达到最佳，而他们的方案专注于规划（Planning）的结果。

此外，据媒体报道，在当时的会上除了技术阐述外，李弘扬还提出了一个犀利的观点：

“我认为现在这个行业没有自动驾驶大模型。我们给UniAD工作的定义也是『自动驾驶通用模型』，而不是大模型。”

“如果自动驾驶大模型最后发展成感知大模型，是不完善的，那完全可以在通用视觉里做。”

这也代表着一部分国内学术界对于智驾大模型的新观念：避免重复造轮子，提升通用型，补齐算法和资源短板。

然而这也只是解决模型局限性的一个手段，而至于智驾大模型目前广泛存在的其他问题，还需要技术的不断发展和时间的积累去解决。

04. 结语：大模型上车“任重道远”

尽管智驾大模型在技术研发、数据收集与处理、硬件设备等方面面临诸多挑战。

但随着科技的不断进步，各类玩家纷纷加入竞争，推动技术不断发展，我们可以预见，在不久的将来，智驾大模型上车是必然趋势。

然而，要想实现大模型在自动驾驶等领域的广泛应用，仍然“任重“而“道远”。

一方面，在未来的发展中，我们需要克服当前技术难题，推动大模型技术的成熟与商业化应用。

另一方面，也需要在重技术的领域摒弃“营销思维”，认真做好数据处理、感知决策、算力匹配之间的平衡，以便让真正符合智驾趋势的车载大模型尽早面世。

01.

大模型热度不断

成为智驾玩家的必争之地

02.

大模型百家争鸣 特斯拉优势明显

03.

智驾大模型发展难点多 多个问题待突破

04.

结语：大模型上车“任重道远”

大模型百家争鸣特斯拉优势明显

智驾大模型发展难点多多个问题待突破