正在阅读:

被世人误解,是特斯拉“端到端”的宿命

扫一扫下载界面新闻APP

被世人误解,是特斯拉“端到端”的宿命

在端到端这件事情上,特斯拉究竟做了什么?

​文|42号车库  

进入到 2024 年,「端到端」开始成为自动驾驶领域的一个热门词汇。

一个最为直接的原因是:2024 年 1 月下旬,特斯拉面向普通用户正式推送了 FSD V12 的测试版本。根据这一版本的推送说明,FSD V12 将城市街道驾驶的软件栈升级为单一的端到端神经网络,该网络经过数百万个视频片段的训练,替代了超过 30 万行 C++ 代码。

在这个版本发布之后,海外媒体平台出现了大量关于这个版本的测试视频,有不少网友对它在城市道路中的驾驶表现表达了赞叹和震惊,也有人直呼「这就是未来」。

不仅如此,也有不少自动驾驶领域的专业人士对于特斯拉 FSD V12 的表现表示肯定。

当然,特斯拉在端到端领域的一系列动作,也在大洋彼岸的中国引发密切关注;尤其是在智驾领域,无论是产业界,还是舆论场,端到端都在成为一个热门词汇,甚至有一些在自动驾驶领域追求抢先落地的车企也已经把端到端列入到宣发口径中。

需要明确的是,尽管端到端在自动驾驶领域受到追捧,但行业对它的技术开发和商业落地本质上还处于探索阶段——基于这一背景,特斯拉作为自动驾驶端到端方面的先行者,更值得成为重点关注的对象。

那么,在端到端这件事情上,特斯拉究竟做了什么?

特斯拉的 ChatGPT 时刻

2023 年 5 月 16 日,在主讲了一年一度的特斯拉年度股东大会之后,马斯克接受了美国知名财经媒体 CNBC 的专访。

其中,在谈到特斯拉 AI 时,马斯克表示,特斯拉在现实世界 AI 方面拥有巨大的能力,可以说是遥遥领先,「我都说不上谁是第二名」。接着,针对主持人关于 ChatGPT 和生成式 AI 的提问,马斯克表示:

我认为特斯拉也会迎来一个所谓的「ChatGPT 时刻」,就算不是今年,我认为也不会迟于明年。 这意味着某一天,突然之间,300 万辆特斯拉汽车可以自己驾驶……然后是 500 万辆,然后是 1,000 万辆……

如果我们颠倒彼此的位置,特斯拉来做一个输出结果不弱于 ChatGPT 的大语言模型,而微软和 OpenAI 去做自动驾驶,我们把彼此的任务互换。

毫无疑问地,我们会赢。

考虑到马斯克本人此前对于特斯拉自动驾驶技术能力和落地速度的长期鼓吹和数次跳票,马斯克在这采访中对于特斯拉 AI 和自动驾驶的评价,在当时并没有引起特别大的波澜。

不过,很少有人注意到,其实,在这次采访中强调「特斯拉将迎来一个 ChatGPT 时刻」的一周之前,马斯克已经首次提到了特斯拉在自动驾驶技术上的重大变化,也就是:FSD V12 是一个端到端 AI,它能够输入图像,然后从输出转向、加速、刹车灯动作。

用他在三天之后发表的话来说,FSD V12 是一个能够实现「输入视频 + 输出控制」的完全体 AI(FSD is fully AI from video in to control out)。

那么问题来了,特斯拉究竟是什么时候开始做端到端的?

事实上,根据由 Walter Isaacson 撰写并且在 2023 年正式出版的《埃隆·马斯克传》所披露的消息,特斯拉做端到端自动驾驶的起点时间,可以回溯到 2022 年 12 月——而且很明显,正是受到了 ChatGPT 的启发。

具体来说,2022 年 12 月 2 日深夜,马斯克与特斯拉 Autopilot AI 团队一位名为 Dhaval Shroff 的工程师进行了交谈。

这里需要介绍一下 Dhaval Shroff 的背景。

Dhaval Shroff 是一名来自印度的高材生,他本科毕业于孟买大学,后来到美国留学,在卡内基梅隆大学机器人专业获得硕士学位,他于 2014 年 6 月进入特斯拉 Autopilot 团队实习并在 2015 年转正,随后一直在 Autopilot 团队担任研发和 AI 相关的工作。

2022 年 11 月,马斯克刚刚收购 Twitter,他需要人手来解决 Twitter 的问题,因此就找到了 Dhaval Shroff 并与之会面。

当时马斯克的本意,其实是希望说服 Dhaval Shroff 离开特斯拉自动驾驶团队到推特工作,但是 Dhaval Shroff 希望留在特斯拉,并且向马斯克介绍了他正在研究的神经网络路径规划项目的细节。

当然,Dhaval Shroff 已经在研究一个自动驾驶前沿项目,该项目的核心是设计一种能够从人类行为中学习的自动驾驶车辆系统。在这次会面中,Dhaval Shroff 告诉马斯克的原话是:

它就像 ChatGPT,不过是用在车上的。我们处理了大量有关真人在复杂驾驶环境中如何行动的数据,然后我们训练计算机的神经网络来模仿这种行为……我们不再只是根据规则确定车辆的正确行驶路线,而是通过神经网络来确定车辆的正确行驶路线。

换句话说,这是对人类的模仿。

终于,在这次会面之后,Dhaval Shroff 能够保住他在特斯拉自动驾驶团队的工作,因为马斯克对这个项目产生了极大的兴趣——毕竟,在马斯克看来,特斯拉已经是一家人工智能公司;他本来也已经打算聘请一批人工智能专家与 OpenAI 展开竞争。

由此,Dhaval Shroff 和他的团队正式得到了马斯克的支持,并开始在特斯拉自动驾驶的技术框架下进行创新——在 Walter Isaacson 撰写的《埃隆·马斯克传》一书中,Dhaval Shroff 所从事的这个项目被称之为「neural network planner」。

后来的事实证明,这个项目成为特斯拉全面转向端到端自动驾驶的关键节点。

并非一蹴而就的“端到端”

实际上,在自动驾驶框架下提到端到端这个词汇,特斯拉并非是第一家。

早在 2016 年 8 月,致力于在进军自动驾驶领域的英伟达,就发表了一篇名为《End to End Learning for Self-Driving Cars》的学术论文,其中提到一种面向自动驾驶的深度学习算法,该算法使用卷积神经网络(CNN)将汽车前摄像头拍摄的图片,对应到无人驾驶车的行驶方向上。

其实,从论文本身的介绍来看,这个算法能够完成的任务很有限,比如说它只能学习控制方向盘,但是不考虑路径和速度——但是从思维方式来说,它确实与当时需要分感知、检测、决策、控制等分模块进行的无人驾驶技术框架不同,而是采用了模块的一体化方案。

简单来说,输入图像,输出动作,确实是与「端到端」方案的理念完全一致。

不过,英伟达只是在技术研究层面提出了「端到端」,而从自动驾驶伴随汽车行业大规模量产落地的角度来看,端到端方案在很长一段时间里并不具备落地的可行性——即使是在自动驾驶量产落地方面最为激进的特斯拉,也并不例外。

那么,特斯拉是如何一步步走向「端到端」的?

一位从事自动驾驶算法研究的行业专家告诉我们,尽管「端到端」这个概念看起来比较新颖且「高大上」,但是从行业落地的角度来看,特斯拉做端到端,并非是把以往的 FSD 算法成果完全抹去从头再来、从零开始,而是很有可能是基于以往的算法成果进行了算法框架的结构性调整。

也就是说,特斯拉做端到端,并非是一蹴而就的。

比如说,早在 2021 年 8 月的特斯拉 AI Day 上,时任特斯拉 AI 负责人 Andrej Karpathy 正式对外介绍了基于 BEV + Transformer 的感知算法架构——在这种情况下,特斯拉的感知算法模块已经是完全基于神经网络的 2.0 版本。

同时,根据这次 AI Day 活动展示的信息,特斯拉在 2021 年,就已经对它的规划和控制(Planning & Control)模块进行了面向软件 2.0 的优化,也就是说,特斯拉当时已经尝试在规划部分加入神经网络的元素(但并非全部)。

而到了 2022 年 10 月的特斯拉 AI Day 上,特斯拉 AI 算法架构的感知模块和规划控制模块都得到了更新,但它们之间依旧是相对独立的模块。具体来看:

在感知模块,新任的特斯拉 AI 负责人 Ashok Elluswamy 介绍了特斯拉自动驾驶算法框架中的占用网络(Occupancy Network),配合 NERF 算法,它可以在 BEV+Transformer 感知框架的基础上实现通用能力更强的 3D 空间感知。

而在规划控制模块,特斯拉则基于占用网络的优势,对于以往的算法进行了又一次重写。其中一部分用到了神经网络,也用到了生成式 AI 技术(来生成行车轨迹预测),但总体来说,在这个模块中依旧包括了大量的人工规则代码——在整体上,它更像是一个采用软件 2.0 代码来解决部分问题的软件 1.0 软件栈。

这时候,尽管特斯拉的感知模块和规划控制模块依旧是相对独立的,但它们之间的关联实际上已经是更加紧密了。

可见,特斯拉在构建 Autopilot 软件算法框架的前后过程中,尽管感知、规划、控制等模块是相对独立的,但是它们之间也一直存在着联动关系,并且规划控制模块也会随着感知模块的进化升级而进行升级,甚至重写——到 2022 年 12 月之前,感知模块已经完成了面向神经网络的软件 2.0 进化,而规划、控制模块则由于其极端复杂性依旧需要大量的基于规则的、由人工编写的 C++ 代码。

基于这一背景,Dhaval Shroff 所提到的神经网络路径规划项目,可以说是特斯拉自动驾驶走向「端到端」的关键一步。

需要说明的是,到目前为止,关于特斯拉如何实现将感知、规划、决策、控制等自动驾驶算法模块融合一个大的神经网络架构中,从而实现「端到端」,特斯拉还没有公开说明,甚至在外界时也绝口不谈——不过,即使「端到端」能够实现整个 FSD 算法框架面向软件 2.0 的转化,但它并不会 100% 摒弃人类的算法规则。

当然,外界也有质疑的声音认为,「端到端」可能只是马斯克的一个营销词汇。

数据:特斯拉的独特优势

对于马斯克来说,选择支持 Dhaval Shroff 的神经网络路径规划项目,并非是毫无风险、轻轻松松的——实际上,对算法进行面向神经网络的又一次创新,往往意味着特斯拉要花费相应的时间、数据和算力资源来进行试错。

甚至在特斯拉的内部团队中,也有人并不相信这个神经网络路径规划项目取得成功。

好在,仅用了半年左右的时间,Dhaval Shroff 就取得了突破,并且向马斯克证明:这是一个正确的方向。

其中的一个助力因素是特斯拉的巨大数据优势。

实际上,基于特斯拉自动驾驶团队以往在数据处理方面的丰富经验,从 2022 年底到 2023 年初的数个月时间里,Dhaval Shroff 的神经网络路径规划项目对来自特斯拉客户车辆的 1,000 万个视频片段进行了分析。

根据 Dhaval Shroff 的说法,他们选择投入到数据训练中的视频,是经过精心选择的。

其主要标准是,在视频片段中,人类司机能够很好地处理各种场景——只有这样的视频数据,特斯拉才会纳入到训练中进行学习。同时,在训练过程中,也需要对视频内容的多样性提出要求,以便让神经网络能够针对各种各样的人类司机驾驶场景进行学习。

为此,特斯拉还在纽约州 Buffalo 市招募了大量的人类标注员,他们能够对视频频段进行评估并给出分数——根据马斯克的要求,这些人类标注员要找到「Uber 五星司机会采取的做法」,然后相对应的视频被用来进行数据训练。

根据 Dhaval Shroff 曾经向马斯克展示的一个基于神经网络路径规划的一个案例:在一条到处都是垃圾桶、交通锥桶和杂物散落的演示道路上,在神经网络路径规划的引导下,车辆能够绕过障碍物,越过车道线,甚至在必要时打破规则。

这个案例,已经让马斯克感到兴奋。

2023 年 4 月,在特斯拉自动驾驶研发团队所在的 Palo Alto 市,马斯克第一次体验到了基于全新神经网络路径规划技术的特斯拉自动驾驶软件版本,与他一起参加体验的,包括特斯拉 AI 负责人 Ashok Elluswamy 和 Dhaval Shroff 等团队成员。

在这次测试中,团队成员们向马斯克解释了 FSD 是如何用特斯拉用户的车载摄像头收集的数百万个视频片段进行训练的,他们同时告诉马斯克,这样做出来的软件堆栈,甚至比人类编程规定好数千条规则的传统软件堆栈要简单得多。

用 Dhaval Shroff 的原话来说,「它的运行速度快了 10 倍,可以直接删掉 30 万行代码」。后来,这句话也成为马斯克宣传特斯拉自动驾驶端到端方案时的常用话术。

在这次试驾体验中,针对试驾车的其中一次操作,马斯克觉得它比自己做得都要好;为此,他感到非常高兴,甚至当场吹起了口哨。就这样,在这次试驾之后,马斯克宣布,他已经彻底相信这个项目的重要性,并且认为应该调集大量资源来推进这个项目。

需要明确的是,到这个阶段,特斯拉的自动驾驶团队已经发现一个明确的事实:那就是神经网络至少需要经过 100 万个视频片段的训练才能够达到良好的工作状态,如果训练量能够达到 150 万个视频片段,那么它就会变得相当理想。

好在,考虑到特斯拉车辆在全球范围内的巨大保有量(高达数百万台车),实际上,它每天都能够收集庞大的视频数据来进行训练。

正如 Ashok Elluswamy 所言,特斯拉在数据方面有着得天独厚的重大优势。

当然,除了数据之外,特斯拉在算力方面也有着重大优势,毕竟,特斯拉不仅仅购买了大量的英伟达 GPU 用于数据中心的建设,同时也在持续推进自研的 Dojo 超级计算机项目。

而配合特斯拉在车端部署的 FSD Chip 芯片,特斯拉也构建了从云端到车端的软硬件一体化技术框架——这也是特斯拉在整个自动行业里做「端到端」难以匹敌的优势之所在。

从端到端,到大模型思维

从目前的情况来看,特斯拉在端到端领域的探索,已经取得不少突破。

实际上,在 2023 年 8 月,马斯克就已经在社交平台上进行了一场关于特斯拉端到端自动驾驶测试版( FSD V12 Beta)的直播。从直播中的内容来看,马斯克信心满满,而这辆车在自动驾驶过程中也仅仅出现了一次与红绿灯相关的失误,但效果已经被整个行业所瞩目。

数个月后,随着特斯拉对端到端自动驾驶系统的进一步训练,FSD V12 也取得进一步突破,并且在 2023 年 12 月逐渐开始扩大内测范围到特斯拉内部员工。到了 2024 年 1 月,FSD V12 又分别在 1 月推送给媒体人——最终在 2 月份,特斯拉把 FSD V12 推送给一定范围内的普通用户。

从目前的反馈来看,在城市场景中,相对于依旧在规划控制方面依赖于人工代码的 FSD V11,基于神经网络的 FSD V12 更加受到认可。

其中一个案例是,3 月 6 日,深度学习专家 James Douma 在体验 FSD V12 后评价称,与 V11 相比,V12 的人工干预将减少 100 倍以上,这并不是增量式的升级,而是一个飞跃,它强大得令人印象深刻。

他还表示,通过端到端路径规划和控制有效实现的一系列行为表明,仅靠更多更好的数据和训练,特斯拉团队就能够实现「优于人类」(better than human)的目标——对于这一评价,马斯克回应称:这是非常准确的评估。

当然,从目前的情况来看,特斯拉在 AI 领域的探索,已经明显跨越了「端到端」的范畴本身。

实际上,早在去年的计算机领域的国际顶级会议 CVPR 上,特斯拉 AI 负责人 Ashok Elluswamy 就进行过一场名为「Foundation Models for Autonomy」的主题演讲。其中明确提到,特斯拉正在构建一些基础模型,而占用网络(Occuancy Network)就是已经融合其中、但并非以实体存在的重要一个。

更重要的是,Ashok Elluswamy 强调,一个真正的基础大模型(Foundation Model)并不是诸多小任务的机械式叠加,而是能够产生溢出效应。

他表示,特斯拉正在试图构建一个更加通用的世界模型(General World Model),它能够预测未来,能够帮助神经网络自主学习,能够像一个神经网络模拟器发挥作用,甚至能够以 AI 的方式生成 3D 空间(并且根据人类的左右转弯等指令,在八个摄像头视角里同时进行一致性非常强的 3D 变换)。

正是基于这一前提,马斯克才会在 2024 年 2 月 Sora 横空出世时反复强调,特斯拉已经构建出了更加符合物理世界规律的生成式 AI。

而在这场演讲的结尾,Ashok Elluswamy 强调,特斯拉之所以能够构建上述基础大模型,一方面是它拥有极端庞大的数据体量,另一方面是它已经拥有非常强大的算力基础。尽管他在此处的目的是招募更多的人才加入特斯拉,但是从基础原理上来说,海量数据和庞大算力确实构成了特斯拉构建基于真实世界的大模型的重要支柱。

他还明确表示,特斯拉 FSD 不仅仅是为了汽车机器人(Car Robot)而构建,也是为了人形机器人(Humanoid Robot)而构建。

同样是在这次 CVPR 会议上,特斯拉 AI 团队的另外一个成员 Phil Duan 也在演讲中表示,特斯拉正在构建的是一个高度多样化、高质量的数据集,并通过它来训练一个基础大模型(Foundation Model)。而在特斯拉看来,这将会是它通过构建大模型来赋能自动驾驶和具身智能(Embodied AI)的未来路径。

非常有意思的是,根据马斯克在去年下半年发布的视频,特斯拉 Optimus 人形机器人已经用上了与其自动驾驶系统相同的端到端神经网络,并且体现出了非常明显的能力进化。

如今来看,以端到端为起点,特斯拉对于 AI 的探索已经进入到另一个阶段,那就是通过单一基础视频网络(a single foundation video network)来直接驾驶汽车——从技术范式上来说,通过端到端的算法变革,特斯拉已经整体上转向类似于 OpenAI 旗下 GPT 这样的大模型思维。

写在最后

纵观十年来的发展历程,我们会发现,自动驾驶技术发展的底层驱动力,往往是 AI 技术本身的变化。

比如说,由 2012 年的 AlexNet 出发,深度卷积神经网络(CNN)在此后数年时间里成为自动驾驶在感知领域常用的算法;到了 2020 年,在 Transformer 已经赋能于自然语言处理领域数年之后,为了解决 3D 空间感知的效率和功率问题,Transformer 又被引入到特斯拉自动驾驶的感知算法架构中。

而到了 2022 年底和 2023 年初,伴随着 ChatGPT 的横空出世,特斯拉又在大模型思维的启发下转向自动驾驶端到端,并由此进入到通过训练单一的基础大模型来构建更加通用的下一代自主系统(Autonomy)的发展路径中。

然而,无论是如今的各类大模型,还是特斯拉的端到端,其底层算法架构中的关键组成部分依旧是诞生于 2017 年的 Transformer 算法,且短期内它很难被替代。

回过头来看,很难否认的是,特斯拉在这条路径上也是明显受到了 OpenAI 和 ChatGPT 的影响,而这背后其实也是在自身业务层面的对于 Scaling Law 的遵循——从这个角度来看,在特斯拉和马斯克的带动之后,AI 发展对于自动驾驶发展产生直接影响的速度,变得越来越快。同时,自动驾驶与 AI 的关系也愈加紧密。

甚至有一种观点认为,当 AI 发展到通用人工智能的时候,完全无人的自动驾驶也将能够实现。

有意思的是,很少有人注意到,早在 2020 年 6 月,OpenAI 创始成员、当时担任特斯拉 AI 负责人的 Andrej Karpathy 就已经在 Twitter 上发表了自己对 GPT 和自动驾驶发展的畅想,他的原话是:

Autopilot 的终极形态,应该是将车辆管理局手册(DMV Handbook)的内容输入到一个「大型多模态的 GTP-10」中,然后喂给它过去 10 秒的传感器数据,使它跟着走。

从当时的情况来看,Andrej Karpathy 就已经密切关注着 Transformer 和 GPT,并且将其与特斯拉 Autopilot 相关联——然而,站在当下的视角来回顾,如今我们在自动驾驶领域看到的一切和即将发生的一切,实际上在那个时候就已经被预见到,并提前埋下了伏笔。

本文为转载内容,授权事宜请联系原著作权人。

特斯拉

9.9k
  • 特斯拉的车依旧好卖,股市前景却不再乐观
  • 特斯拉晋升迈克尔·斯奈德为能源与充电副总裁

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

被世人误解,是特斯拉“端到端”的宿命

在端到端这件事情上,特斯拉究竟做了什么?

​文|42号车库  

进入到 2024 年,「端到端」开始成为自动驾驶领域的一个热门词汇。

一个最为直接的原因是:2024 年 1 月下旬,特斯拉面向普通用户正式推送了 FSD V12 的测试版本。根据这一版本的推送说明,FSD V12 将城市街道驾驶的软件栈升级为单一的端到端神经网络,该网络经过数百万个视频片段的训练,替代了超过 30 万行 C++ 代码。

在这个版本发布之后,海外媒体平台出现了大量关于这个版本的测试视频,有不少网友对它在城市道路中的驾驶表现表达了赞叹和震惊,也有人直呼「这就是未来」。

不仅如此,也有不少自动驾驶领域的专业人士对于特斯拉 FSD V12 的表现表示肯定。

当然,特斯拉在端到端领域的一系列动作,也在大洋彼岸的中国引发密切关注;尤其是在智驾领域,无论是产业界,还是舆论场,端到端都在成为一个热门词汇,甚至有一些在自动驾驶领域追求抢先落地的车企也已经把端到端列入到宣发口径中。

需要明确的是,尽管端到端在自动驾驶领域受到追捧,但行业对它的技术开发和商业落地本质上还处于探索阶段——基于这一背景,特斯拉作为自动驾驶端到端方面的先行者,更值得成为重点关注的对象。

那么,在端到端这件事情上,特斯拉究竟做了什么?

特斯拉的 ChatGPT 时刻

2023 年 5 月 16 日,在主讲了一年一度的特斯拉年度股东大会之后,马斯克接受了美国知名财经媒体 CNBC 的专访。

其中,在谈到特斯拉 AI 时,马斯克表示,特斯拉在现实世界 AI 方面拥有巨大的能力,可以说是遥遥领先,「我都说不上谁是第二名」。接着,针对主持人关于 ChatGPT 和生成式 AI 的提问,马斯克表示:

我认为特斯拉也会迎来一个所谓的「ChatGPT 时刻」,就算不是今年,我认为也不会迟于明年。 这意味着某一天,突然之间,300 万辆特斯拉汽车可以自己驾驶……然后是 500 万辆,然后是 1,000 万辆……

如果我们颠倒彼此的位置,特斯拉来做一个输出结果不弱于 ChatGPT 的大语言模型,而微软和 OpenAI 去做自动驾驶,我们把彼此的任务互换。

毫无疑问地,我们会赢。

考虑到马斯克本人此前对于特斯拉自动驾驶技术能力和落地速度的长期鼓吹和数次跳票,马斯克在这采访中对于特斯拉 AI 和自动驾驶的评价,在当时并没有引起特别大的波澜。

不过,很少有人注意到,其实,在这次采访中强调「特斯拉将迎来一个 ChatGPT 时刻」的一周之前,马斯克已经首次提到了特斯拉在自动驾驶技术上的重大变化,也就是:FSD V12 是一个端到端 AI,它能够输入图像,然后从输出转向、加速、刹车灯动作。

用他在三天之后发表的话来说,FSD V12 是一个能够实现「输入视频 + 输出控制」的完全体 AI(FSD is fully AI from video in to control out)。

那么问题来了,特斯拉究竟是什么时候开始做端到端的?

事实上,根据由 Walter Isaacson 撰写并且在 2023 年正式出版的《埃隆·马斯克传》所披露的消息,特斯拉做端到端自动驾驶的起点时间,可以回溯到 2022 年 12 月——而且很明显,正是受到了 ChatGPT 的启发。

具体来说,2022 年 12 月 2 日深夜,马斯克与特斯拉 Autopilot AI 团队一位名为 Dhaval Shroff 的工程师进行了交谈。

这里需要介绍一下 Dhaval Shroff 的背景。

Dhaval Shroff 是一名来自印度的高材生,他本科毕业于孟买大学,后来到美国留学,在卡内基梅隆大学机器人专业获得硕士学位,他于 2014 年 6 月进入特斯拉 Autopilot 团队实习并在 2015 年转正,随后一直在 Autopilot 团队担任研发和 AI 相关的工作。

2022 年 11 月,马斯克刚刚收购 Twitter,他需要人手来解决 Twitter 的问题,因此就找到了 Dhaval Shroff 并与之会面。

当时马斯克的本意,其实是希望说服 Dhaval Shroff 离开特斯拉自动驾驶团队到推特工作,但是 Dhaval Shroff 希望留在特斯拉,并且向马斯克介绍了他正在研究的神经网络路径规划项目的细节。

当然,Dhaval Shroff 已经在研究一个自动驾驶前沿项目,该项目的核心是设计一种能够从人类行为中学习的自动驾驶车辆系统。在这次会面中,Dhaval Shroff 告诉马斯克的原话是:

它就像 ChatGPT,不过是用在车上的。我们处理了大量有关真人在复杂驾驶环境中如何行动的数据,然后我们训练计算机的神经网络来模仿这种行为……我们不再只是根据规则确定车辆的正确行驶路线,而是通过神经网络来确定车辆的正确行驶路线。

换句话说,这是对人类的模仿。

终于,在这次会面之后,Dhaval Shroff 能够保住他在特斯拉自动驾驶团队的工作,因为马斯克对这个项目产生了极大的兴趣——毕竟,在马斯克看来,特斯拉已经是一家人工智能公司;他本来也已经打算聘请一批人工智能专家与 OpenAI 展开竞争。

由此,Dhaval Shroff 和他的团队正式得到了马斯克的支持,并开始在特斯拉自动驾驶的技术框架下进行创新——在 Walter Isaacson 撰写的《埃隆·马斯克传》一书中,Dhaval Shroff 所从事的这个项目被称之为「neural network planner」。

后来的事实证明,这个项目成为特斯拉全面转向端到端自动驾驶的关键节点。

并非一蹴而就的“端到端”

实际上,在自动驾驶框架下提到端到端这个词汇,特斯拉并非是第一家。

早在 2016 年 8 月,致力于在进军自动驾驶领域的英伟达,就发表了一篇名为《End to End Learning for Self-Driving Cars》的学术论文,其中提到一种面向自动驾驶的深度学习算法,该算法使用卷积神经网络(CNN)将汽车前摄像头拍摄的图片,对应到无人驾驶车的行驶方向上。

其实,从论文本身的介绍来看,这个算法能够完成的任务很有限,比如说它只能学习控制方向盘,但是不考虑路径和速度——但是从思维方式来说,它确实与当时需要分感知、检测、决策、控制等分模块进行的无人驾驶技术框架不同,而是采用了模块的一体化方案。

简单来说,输入图像,输出动作,确实是与「端到端」方案的理念完全一致。

不过,英伟达只是在技术研究层面提出了「端到端」,而从自动驾驶伴随汽车行业大规模量产落地的角度来看,端到端方案在很长一段时间里并不具备落地的可行性——即使是在自动驾驶量产落地方面最为激进的特斯拉,也并不例外。

那么,特斯拉是如何一步步走向「端到端」的?

一位从事自动驾驶算法研究的行业专家告诉我们,尽管「端到端」这个概念看起来比较新颖且「高大上」,但是从行业落地的角度来看,特斯拉做端到端,并非是把以往的 FSD 算法成果完全抹去从头再来、从零开始,而是很有可能是基于以往的算法成果进行了算法框架的结构性调整。

也就是说,特斯拉做端到端,并非是一蹴而就的。

比如说,早在 2021 年 8 月的特斯拉 AI Day 上,时任特斯拉 AI 负责人 Andrej Karpathy 正式对外介绍了基于 BEV + Transformer 的感知算法架构——在这种情况下,特斯拉的感知算法模块已经是完全基于神经网络的 2.0 版本。

同时,根据这次 AI Day 活动展示的信息,特斯拉在 2021 年,就已经对它的规划和控制(Planning & Control)模块进行了面向软件 2.0 的优化,也就是说,特斯拉当时已经尝试在规划部分加入神经网络的元素(但并非全部)。

而到了 2022 年 10 月的特斯拉 AI Day 上,特斯拉 AI 算法架构的感知模块和规划控制模块都得到了更新,但它们之间依旧是相对独立的模块。具体来看:

在感知模块,新任的特斯拉 AI 负责人 Ashok Elluswamy 介绍了特斯拉自动驾驶算法框架中的占用网络(Occupancy Network),配合 NERF 算法,它可以在 BEV+Transformer 感知框架的基础上实现通用能力更强的 3D 空间感知。

而在规划控制模块,特斯拉则基于占用网络的优势,对于以往的算法进行了又一次重写。其中一部分用到了神经网络,也用到了生成式 AI 技术(来生成行车轨迹预测),但总体来说,在这个模块中依旧包括了大量的人工规则代码——在整体上,它更像是一个采用软件 2.0 代码来解决部分问题的软件 1.0 软件栈。

这时候,尽管特斯拉的感知模块和规划控制模块依旧是相对独立的,但它们之间的关联实际上已经是更加紧密了。

可见,特斯拉在构建 Autopilot 软件算法框架的前后过程中,尽管感知、规划、控制等模块是相对独立的,但是它们之间也一直存在着联动关系,并且规划控制模块也会随着感知模块的进化升级而进行升级,甚至重写——到 2022 年 12 月之前,感知模块已经完成了面向神经网络的软件 2.0 进化,而规划、控制模块则由于其极端复杂性依旧需要大量的基于规则的、由人工编写的 C++ 代码。

基于这一背景,Dhaval Shroff 所提到的神经网络路径规划项目,可以说是特斯拉自动驾驶走向「端到端」的关键一步。

需要说明的是,到目前为止,关于特斯拉如何实现将感知、规划、决策、控制等自动驾驶算法模块融合一个大的神经网络架构中,从而实现「端到端」,特斯拉还没有公开说明,甚至在外界时也绝口不谈——不过,即使「端到端」能够实现整个 FSD 算法框架面向软件 2.0 的转化,但它并不会 100% 摒弃人类的算法规则。

当然,外界也有质疑的声音认为,「端到端」可能只是马斯克的一个营销词汇。

数据:特斯拉的独特优势

对于马斯克来说,选择支持 Dhaval Shroff 的神经网络路径规划项目,并非是毫无风险、轻轻松松的——实际上,对算法进行面向神经网络的又一次创新,往往意味着特斯拉要花费相应的时间、数据和算力资源来进行试错。

甚至在特斯拉的内部团队中,也有人并不相信这个神经网络路径规划项目取得成功。

好在,仅用了半年左右的时间,Dhaval Shroff 就取得了突破,并且向马斯克证明:这是一个正确的方向。

其中的一个助力因素是特斯拉的巨大数据优势。

实际上,基于特斯拉自动驾驶团队以往在数据处理方面的丰富经验,从 2022 年底到 2023 年初的数个月时间里,Dhaval Shroff 的神经网络路径规划项目对来自特斯拉客户车辆的 1,000 万个视频片段进行了分析。

根据 Dhaval Shroff 的说法,他们选择投入到数据训练中的视频,是经过精心选择的。

其主要标准是,在视频片段中,人类司机能够很好地处理各种场景——只有这样的视频数据,特斯拉才会纳入到训练中进行学习。同时,在训练过程中,也需要对视频内容的多样性提出要求,以便让神经网络能够针对各种各样的人类司机驾驶场景进行学习。

为此,特斯拉还在纽约州 Buffalo 市招募了大量的人类标注员,他们能够对视频频段进行评估并给出分数——根据马斯克的要求,这些人类标注员要找到「Uber 五星司机会采取的做法」,然后相对应的视频被用来进行数据训练。

根据 Dhaval Shroff 曾经向马斯克展示的一个基于神经网络路径规划的一个案例:在一条到处都是垃圾桶、交通锥桶和杂物散落的演示道路上,在神经网络路径规划的引导下,车辆能够绕过障碍物,越过车道线,甚至在必要时打破规则。

这个案例,已经让马斯克感到兴奋。

2023 年 4 月,在特斯拉自动驾驶研发团队所在的 Palo Alto 市,马斯克第一次体验到了基于全新神经网络路径规划技术的特斯拉自动驾驶软件版本,与他一起参加体验的,包括特斯拉 AI 负责人 Ashok Elluswamy 和 Dhaval Shroff 等团队成员。

在这次测试中,团队成员们向马斯克解释了 FSD 是如何用特斯拉用户的车载摄像头收集的数百万个视频片段进行训练的,他们同时告诉马斯克,这样做出来的软件堆栈,甚至比人类编程规定好数千条规则的传统软件堆栈要简单得多。

用 Dhaval Shroff 的原话来说,「它的运行速度快了 10 倍,可以直接删掉 30 万行代码」。后来,这句话也成为马斯克宣传特斯拉自动驾驶端到端方案时的常用话术。

在这次试驾体验中,针对试驾车的其中一次操作,马斯克觉得它比自己做得都要好;为此,他感到非常高兴,甚至当场吹起了口哨。就这样,在这次试驾之后,马斯克宣布,他已经彻底相信这个项目的重要性,并且认为应该调集大量资源来推进这个项目。

需要明确的是,到这个阶段,特斯拉的自动驾驶团队已经发现一个明确的事实:那就是神经网络至少需要经过 100 万个视频片段的训练才能够达到良好的工作状态,如果训练量能够达到 150 万个视频片段,那么它就会变得相当理想。

好在,考虑到特斯拉车辆在全球范围内的巨大保有量(高达数百万台车),实际上,它每天都能够收集庞大的视频数据来进行训练。

正如 Ashok Elluswamy 所言,特斯拉在数据方面有着得天独厚的重大优势。

当然,除了数据之外,特斯拉在算力方面也有着重大优势,毕竟,特斯拉不仅仅购买了大量的英伟达 GPU 用于数据中心的建设,同时也在持续推进自研的 Dojo 超级计算机项目。

而配合特斯拉在车端部署的 FSD Chip 芯片,特斯拉也构建了从云端到车端的软硬件一体化技术框架——这也是特斯拉在整个自动行业里做「端到端」难以匹敌的优势之所在。

从端到端,到大模型思维

从目前的情况来看,特斯拉在端到端领域的探索,已经取得不少突破。

实际上,在 2023 年 8 月,马斯克就已经在社交平台上进行了一场关于特斯拉端到端自动驾驶测试版( FSD V12 Beta)的直播。从直播中的内容来看,马斯克信心满满,而这辆车在自动驾驶过程中也仅仅出现了一次与红绿灯相关的失误,但效果已经被整个行业所瞩目。

数个月后,随着特斯拉对端到端自动驾驶系统的进一步训练,FSD V12 也取得进一步突破,并且在 2023 年 12 月逐渐开始扩大内测范围到特斯拉内部员工。到了 2024 年 1 月,FSD V12 又分别在 1 月推送给媒体人——最终在 2 月份,特斯拉把 FSD V12 推送给一定范围内的普通用户。

从目前的反馈来看,在城市场景中,相对于依旧在规划控制方面依赖于人工代码的 FSD V11,基于神经网络的 FSD V12 更加受到认可。

其中一个案例是,3 月 6 日,深度学习专家 James Douma 在体验 FSD V12 后评价称,与 V11 相比,V12 的人工干预将减少 100 倍以上,这并不是增量式的升级,而是一个飞跃,它强大得令人印象深刻。

他还表示,通过端到端路径规划和控制有效实现的一系列行为表明,仅靠更多更好的数据和训练,特斯拉团队就能够实现「优于人类」(better than human)的目标——对于这一评价,马斯克回应称:这是非常准确的评估。

当然,从目前的情况来看,特斯拉在 AI 领域的探索,已经明显跨越了「端到端」的范畴本身。

实际上,早在去年的计算机领域的国际顶级会议 CVPR 上,特斯拉 AI 负责人 Ashok Elluswamy 就进行过一场名为「Foundation Models for Autonomy」的主题演讲。其中明确提到,特斯拉正在构建一些基础模型,而占用网络(Occuancy Network)就是已经融合其中、但并非以实体存在的重要一个。

更重要的是,Ashok Elluswamy 强调,一个真正的基础大模型(Foundation Model)并不是诸多小任务的机械式叠加,而是能够产生溢出效应。

他表示,特斯拉正在试图构建一个更加通用的世界模型(General World Model),它能够预测未来,能够帮助神经网络自主学习,能够像一个神经网络模拟器发挥作用,甚至能够以 AI 的方式生成 3D 空间(并且根据人类的左右转弯等指令,在八个摄像头视角里同时进行一致性非常强的 3D 变换)。

正是基于这一前提,马斯克才会在 2024 年 2 月 Sora 横空出世时反复强调,特斯拉已经构建出了更加符合物理世界规律的生成式 AI。

而在这场演讲的结尾,Ashok Elluswamy 强调,特斯拉之所以能够构建上述基础大模型,一方面是它拥有极端庞大的数据体量,另一方面是它已经拥有非常强大的算力基础。尽管他在此处的目的是招募更多的人才加入特斯拉,但是从基础原理上来说,海量数据和庞大算力确实构成了特斯拉构建基于真实世界的大模型的重要支柱。

他还明确表示,特斯拉 FSD 不仅仅是为了汽车机器人(Car Robot)而构建,也是为了人形机器人(Humanoid Robot)而构建。

同样是在这次 CVPR 会议上,特斯拉 AI 团队的另外一个成员 Phil Duan 也在演讲中表示,特斯拉正在构建的是一个高度多样化、高质量的数据集,并通过它来训练一个基础大模型(Foundation Model)。而在特斯拉看来,这将会是它通过构建大模型来赋能自动驾驶和具身智能(Embodied AI)的未来路径。

非常有意思的是,根据马斯克在去年下半年发布的视频,特斯拉 Optimus 人形机器人已经用上了与其自动驾驶系统相同的端到端神经网络,并且体现出了非常明显的能力进化。

如今来看,以端到端为起点,特斯拉对于 AI 的探索已经进入到另一个阶段,那就是通过单一基础视频网络(a single foundation video network)来直接驾驶汽车——从技术范式上来说,通过端到端的算法变革,特斯拉已经整体上转向类似于 OpenAI 旗下 GPT 这样的大模型思维。

写在最后

纵观十年来的发展历程,我们会发现,自动驾驶技术发展的底层驱动力,往往是 AI 技术本身的变化。

比如说,由 2012 年的 AlexNet 出发,深度卷积神经网络(CNN)在此后数年时间里成为自动驾驶在感知领域常用的算法;到了 2020 年,在 Transformer 已经赋能于自然语言处理领域数年之后,为了解决 3D 空间感知的效率和功率问题,Transformer 又被引入到特斯拉自动驾驶的感知算法架构中。

而到了 2022 年底和 2023 年初,伴随着 ChatGPT 的横空出世,特斯拉又在大模型思维的启发下转向自动驾驶端到端,并由此进入到通过训练单一的基础大模型来构建更加通用的下一代自主系统(Autonomy)的发展路径中。

然而,无论是如今的各类大模型,还是特斯拉的端到端,其底层算法架构中的关键组成部分依旧是诞生于 2017 年的 Transformer 算法,且短期内它很难被替代。

回过头来看,很难否认的是,特斯拉在这条路径上也是明显受到了 OpenAI 和 ChatGPT 的影响,而这背后其实也是在自身业务层面的对于 Scaling Law 的遵循——从这个角度来看,在特斯拉和马斯克的带动之后,AI 发展对于自动驾驶发展产生直接影响的速度,变得越来越快。同时,自动驾驶与 AI 的关系也愈加紧密。

甚至有一种观点认为,当 AI 发展到通用人工智能的时候,完全无人的自动驾驶也将能够实现。

有意思的是,很少有人注意到,早在 2020 年 6 月,OpenAI 创始成员、当时担任特斯拉 AI 负责人的 Andrej Karpathy 就已经在 Twitter 上发表了自己对 GPT 和自动驾驶发展的畅想,他的原话是:

Autopilot 的终极形态,应该是将车辆管理局手册(DMV Handbook)的内容输入到一个「大型多模态的 GTP-10」中,然后喂给它过去 10 秒的传感器数据,使它跟着走。

从当时的情况来看,Andrej Karpathy 就已经密切关注着 Transformer 和 GPT,并且将其与特斯拉 Autopilot 相关联——然而,站在当下的视角来回顾,如今我们在自动驾驶领域看到的一切和即将发生的一切,实际上在那个时候就已经被预见到,并提前埋下了伏笔。

本文为转载内容,授权事宜请联系原著作权人。