车企都在跟风特斯拉，“端到端”是个好方案吗？|界面新闻

文｜上海汽车报

日前，在第四届沈阳智能网联汽车挑战赛上，同济大学汽车学院教授朱西产表示：“特斯拉的端到端、人工智能让自动驾驶更加成为可能，端到端被特斯拉带火了，国内的车企都在说端到端，但现在，谁宣布端到端了，他的这个车你就别买。”

他强调，端到端技术虽然能够提供强大的泛化能力，但在安全性方面存在不确定性，尤其是在处理所谓的“长尾问题”时，即那些不常见，但有可能引发严重后果的交通场景。朱教授还提到，国内车企在数据量和AI训练算力方面与特斯拉相比，还有较大差距。

自从今年3月特斯拉的“端到端”自动驾驶横空出世以来，华为、小鹏、理想等国内车企都抢着上“端到端”。“端到端”，一个多少令人有些摸不着头脑的技术词汇，一时间成为自动驾驶的必争之地。

“去美国体验了特斯拉FSD，上限很高，但下限很低。AI有20%-30%的错误率，一次错误就有可能导致车毁人亡。”在享界S9发布会上，华为车BU董事长余承东如是说。

发布会上，华为ADS 3.0首发，实现端到端类人智驾，叫板特斯拉。不过，特斯拉的作业可不好抄。

不是优化，是颠覆

说端到端是颠覆式的革新，一点都不为过。

自动驾驶最怕的就是碰到coner case，也就是很少遇到的边缘场景。在美国，就有整活老哥穿着“STOP”T恤，成功干蒙了Waymo的无人驾驶出租车。

以前，一旦出现一个 Corner Case，开发人员就需要敲下相应的代码来应对。但是，这些边缘场景是无穷无尽的，需要耗费大量人力来应对。

现在，端到端来了，就不需要这些代码了。你要做的就是将老司机驾驶数据喂给大模型，让它凭借学习到的经验来处理这些Corner Case。

具体剖析来看，以前自动驾驶的流程是感知、识别、决策、执行。感知到环境后，先要用大量的模型去识别画面中有哪些内容，然后再根据既定的规则进行决策。但是，现在不这么玩了，传感器感知到的画面并不需要一个个识别出来，直接拿这个画面用大模型去匹配，让大模型自己去学习、选择，形成决策。

这就是所谓的端到端，省去了其中的识别和决策，由感知端直接到执行端，只要一个模型就够了。

相比V11的30万行代码，特斯拉FSD V12的C++代码仅有2000行。其中，V12.3版本用数百万个视频片段替代了超30万行C++代码。

至此，特斯拉坚持“纯视觉”路线的真相浮出水面，在为端到端铺路。

它的颠覆性也显而易见。

研发端不再需要堆人力来写代码了，甚至测试端也不需要大量人员去跑路试，可以和用户联合，把用户的数据喂给大模型。

“码农们”开始担心自己的饭碗了。现在，决心发力端到端的理想、蔚来、小鹏都对自己的智驾部门组织架构进行了大调整。

不过，更可怕的是迭代速度。

“小鹏汽车端到端模型能够做到‘2天迭代一次’，在未来18个月内，智驾能力提升30倍。”小鹏汽车董事长何小鹏表示，2024年第三季度，小鹏汽车的智驾即可实现“全国都能开，每条路都能开”；到2025年实现城区智驾比肩高速公路智驾体验。

在使用体验上，自动驾驶也不再机械化，更像人。

特斯拉的上限是数据和算力

余承东感叹，特斯拉的上限很高，成长得很快。

要训练大模型，就需要大量的数据和足够的算力。这就是特斯拉的上限，国内车企目前很难做到。

数据有坏样本量，只有数据池足够大，你才有的挑。背后的支撑，就是销量。从下面的表格可以看出，特斯拉拥有绝对优势。

一旦特斯拉FSD落地中国，那么它的数据池将进一步扩大。

算力方面，在中国，华为是具有优势的。华为曾公开表示：“中国有一半的大模型算力由华为提供。”

即便如此，中国智算中心的算力对比特斯拉，依然有差距。

根据特斯拉的规划，今年10月，Dojo智算中心总算力将达到100E FLOPs（10万P FLOPS），相当于约 30 万块英伟达 A100 的算力总和。

下限不能丢

正如余承东所说，特斯拉的上限很高，但是下限也很低。

最大的问题就是端到端由于决策过程不够透明，难以解释其行为，一旦出现问题，无法对症下药，容易产生黑箱难题。

所以，一方面需要保证喂的数据不会有下限低的驾驶习惯。另一方面，需要有安全规则来兜底下限。比如，可以选择端到端与传统方案并行，端到端网络后接一些后处理模块或者强安全的代码。

比如，华为ADS 3.0除了端到端，还有“本能安全网络”保底。

严格来讲，华为、理想、小鹏这三家车企推出的所谓端到端，更准确的叫法是“分段式端到端”，或者叫“模块化端到端”，将感知网络、规划网络分开，中间用规则串联。相比一张网的激进，分段式端到端具有更高的解释性。

可以预见，神经网络的进与规则的退会是一个渐进的过程。

当然，行业中还是有“一张网”的，比如特斯拉FSD、商汤绝影UniAD。前不久，理想又推出“行业首个双系统量产方案”，号称可以构建一张网一个模型。

不过，端到端终究只是手段，最终还要看智驾体验好不好。能学习人，更像人，端到端在体验上所具有的优势，目前似乎仍然停留在各位大佬画的饼上。期待新体验的到来，而不只停留在PPT上。